2026年3月22日星期日

开源多模态数据标注平台Tiger:大模型训练降本70%

Tiger是国内领先的开源多模态数据标注平台,面向大模型训练,通过自动化工具链、RAG技术及多模态处理,降低70%人工成本,标注准确率超95%,支持千人级团队协作与私有化部署,适合AI工程师及企业高效构建训练数据集。

Tags:

数据标注平台开源!面向多模态、大模型训练的高价值数据标注平台,整一套赚钱!

源代码

https://www.gitcc.com/hawakey/tiger-llm-datastor


图片


Tiger 项目:国内领先的 AI 开源多模态数据标注管理平台


作为国内针对多模态大模型训练数据构建的开源解决方案,Tiger 项目通过集成自动化工具链、RAG 技术及多模态处理能力,系统性解决了传统数据集构建中的效率、质量与协作难题,成为 AI 工程化落地的重要基础设施。

核心功能与技术架构



  1. 全流程自动化工具链
    • 多环节覆盖
      :平台整合文档解析、图像标注、问答生成等模块,支持从原始数据导入到标注任务分配、质量校验的全流程自动化。例如,通过 NLP 技术自动提取文档关键信息,结合计算机视觉算法实现图像中物体的智能识别与标注,减少人工干预。
    • RAG 技术增强专业性
      :基于检索增强生成技术,平台在生成问答对或标注数据时,优先从真实文档库中检索相关信息作为上下文,确保生成内容的专业性与可追溯性。例如,在医疗领域标注中,系统可关联最新临床指南,避免生成过时或错误信息。
  2. 多模态数据处理能力
    • 异构数据融合
      :支持文本、图像、音频等多模态数据的同步处理,通过统一的数据模型与对齐算法(如时间戳同步、语义关联),解决跨模态数据不一致问题。例如,在视频标注任务中,可同时标注语音文本、人物动作及场景物体,并保持时间轴对齐。
    • 技术栈集成
      :平台兼容主流深度学习框架(如 PyTorch、TensorFlow),提供标准化接口,允许用户灵活接入自定义模型或第三方工具(如 OCR、ASR 服务),降低多模态数据处理的技术门槛。
  3. 团队协作与权限管理
    • 多角色权限体系
      :基于 RBAC(角色访问控制)模型,支持管理员、标注员、审核员等多角色权限分配,实现数据隔离与操作追溯。例如,敏感数据仅对特定角色可见,标注记录可回溯至具体操作人员。
    • 任务分配与进度跟踪
      :提供可视化任务看板,支持按项目、模块或优先级分配标注任务,并实时监控任务进度与质量指标(如标注准确率、完成率),提升团队协作效率。


图片


解决行业痛点的价值体现



  1. 效率提升:降低 70% 人工成本
    • 传统方式依赖纯人工标注,单任务周期长且成本高。Tiger 平台通过自动化工具链,将数据预处理、标注生成等环节效率提升 3 倍以上,结合智能质检功能减少人工复核工作量,整体成本降低 70%。
  2. 质量保障:标注准确率超 95%
    • 平台内置质量校验模块,通过规则引擎(如标注格式验证、逻辑冲突检测)与模型评估(如标注一致性分析),确保数据质量。例如,在金融领域标注中,系统可自动检测数值单位是否统一,避免因格式错误导致模型训练偏差。
  3. 协作优化:支持千人级团队并发
    • 针对大规模团队协作场景,平台提供分布式任务调度与冲突解决机制,支持千人级标注团队同时在线作业。例如,在自动驾驶数据标注项目中,可并行处理数万帧图像数据,并通过版本控制功能避免数据覆盖冲突。



应用场景与案例



  • 智能客服训练数据构建
    :某头部电商平台基于 Tiger 平台,快速生成覆盖商品信息、订单状态等场景的 SFT 数据集,将客服机器人响应准确率从 82% 提升至 91%。
  • 医疗影像标注
    :某三甲医院利用平台的多模态处理能力,同步标注 CT 影像与诊断报告,构建用于肿瘤检测模型训练的高质量数据集,模型 AUC 值达 0.95。
  • 金融风控数据生成
    :某银行通过 RAG 技术,从监管文件与历史案例中检索关键信息,生成反欺诈模型训练数据,将误报率降低 40%。

开源生态与未来规划

Tiger 项目采用 Apache 2.0 协议开源,代码托管于国内主流开源平台,支持企业级私有化部署与二次开发。未来计划集成更多 AI 能力(如自动标注模型训练、数据增强算法),并拓展至工业检测、智慧城市等垂直领域,推动多模态大模型训练数据的标准化与规模化生产。

结语


Tiger 项目通过"自动化工具链+RAG 技术+多模态处理"的核心架构,为 AI 工程师提供了高效、专业、协作友好的数据集构建平台,显著降低了多模态大模型的训练门槛。随着人工智能向行业深度渗透,此类开源平台将成为推动技术普惠与产业创新的关键力量。


数据标注平台开源!面向多模态、大模型训练的高价值数据标注平台,整一套赚钱!

源代码

https://www.gitcc.com/hawakey/tiger-llm-datastor


GitHub 项目用 AI 评估 342 个职业:哪些工作受 AI 影响最大?深度分析

本文分析了 Karpathy 创建的 GitHub 项目,该项目使用 AI 模型对美国 342 个职业的"AI 暴露度"进行评分,揭示了数字化程度高的职业(如软件开发者)评分最高,而体力劳动职业评分最低。文章强调暴露度高不等于职业消失,而是工作方式将被改变,并对比了中国版项目的类似结论,适合关心职业趋势和 AI 影响的读者。

Tags:

Karpathy 用 AI 给美国 342 个职业打了个分,看哪个职业受 AI 影响最大。

然后这个项目太火,他就给删了。

他从美国劳工统计局抓了 342 个职业的数据,然后用 Gemini Flash 模型给每个职业打了一个 0-10 分的 AI 暴露度。

简单说,暴露度就是:这个职业的工作有多少比例可以搬到电脑上完成。

能全在电脑上干的就高,必须动手动脚的就低。

做完之后做成了一个热力图:

图片

矩形的面积代表这个职业的从业人数,颜色代表 AI 影响的分数。

你可以切换不同维度来看:AI 暴露度、薪资中位数、就业增长率、学历要求。

项目上线后直接炸了,Elon Musk 转发了,各大媒体都报道了。

然后 Karpathy 把项目删了。

他后来在 Twitter 上发了条消息解释:

"This was a Saturday morning two hour vibe coded project... It's been wildly misinterpreted, so I took it down."

翻译一下:周六早上花两个小时 vibe coding 搞了个东西,被全网严重误读了,所以撤了。

图片

他还专门强调了一点:

"The 'exposure' was scored by an LLM based on how digital the job is. This has no bearing on what actually happens to these occupations."

暴露度只是看这个职业有多数字化,跟职业会不会消失是两回事。

后来有人克隆了项目重新部署,Karpathy 又把仓库恢复了。

但这个上线→爆火→删除→恢复的过程本身,已经说明问题了:数据和解读之间隔着一道巨大的鸿沟。

01
数据说了什么

几个关键数字:

342 个职业被评估,平均 AI 暴露度约 5 分(满分 10),42% 的职业评分在 7 分以上

7 分以上大概涉及 5990 万工作者,接近一半的美国劳动力。

工作内容在数字层面可以被 AI 大规模渗透。

图片

哪些职业得分最高?

软件开发者、数据科学家、计算机研究科学家、翻译人员、市场研究分析师、精算师、数学家。

清一色 9 分,而且基本都是高薪白领。

得分最低的呢?

建筑工人、屋顶工、电工、水管工、厨师、理发师。大多 1-2 分。

规律很清晰:

  • 坐在电脑前干活的,AI 暴露度最高

  • 需要动手的,暴露度最低

高薪更容易受影响?

这个项目最有意思的地方在交叉对比。

你切换一下维度,会发现一个扎心的趋势:AI 高暴露度职业和高薪高学历高度重合

图片

过去二十年最吃香的那些工作,写代码的、做数据分析的、写文档的、做翻译的,恰恰是 AI 最容易渗透的。

而那些被认为是门槛不高的蓝领工作,反而在 AI 面前不会受影响。

这跟十年前大家的预期完全相反。

那时候都觉得最先被淘汰的是流水线工人,结果发现 AI 最擅长的是坐在工位上用电脑干的事。

02
中国版也来了

madeye 用类似的思路做了一个中国版本,覆盖了 250 个中国职业。

数据源换成了国家统计局的数据和 2024 年国民经济和社会发展统计公报。

中国版的结论和美国版方向一致,具体看数据。

图片

哪些中国职业 AI 暴露度最高?

软件工程师、前端开发工程师、证券分析师、投行分析师、翻译、电话销售,都是 9 分。

数据分析师、AI 工程师、UI 设计师、测试工程师、大数据工程师、算法工程师、银行柜员,8 分。

图片

暴露度最低的呢?

建筑工人、装修工人、水暖工、钢筋工、混凝土工,都是 1 分。种植业农民、渔民、林业工人,也全是 1 分。

还有中式厨师、西式厨师、面点师、消防员,也都是 1 分。

图片

搬家工人最低 0 分。

有一个细节挺值得注意的。

中国版的平均暴露度是 5.0,比美国版(5.3)略低。而且中国暴露度 7 分以上的职业占 31%(76 个),美国那边是 42%。

这跟中国的就业结构有关。

中国第一产业大概 22.8%,第二产业 29.1%,第三产业 48.1%。美国第三产业占比超过 80%。

说白了,中国有更大比例的劳动力在干 AI 难以渗透的实体工作,所以整体暴露度会偏低一些。

03
有个事必须说清楚

这篇文章最想说的其实是这段。

AI 暴露度高,不等于工作会消失。

Karpathy 自己反复强调过这一点,甚至不惜删掉整个项目来防止误读。

举个例子:软件开发者评分 9 分,最高档。

图片

但想想看,一个工程师用 AI 编程助手,效率可能提升 3 倍。

这意味着需要的工程师数量可能不会减少,反而可能增加。

因为开发成本大幅下降,原来做不起的项目突然变得可行了。需求端释放大量新需求,最终需要的工程师总数可能比现在还多。

只不过工作方式变了,不会再手搓了。

历史上这种事发生过很多次了。

电子表格出现后,会计师没有被淘汰。因为成本降低,每家公司都开始做财务分析,会计师数量反而大幅增长。

编译器出现后,程序员没有被淘汰。

因为编程成本降低,软件行业爆发式增长。

AI 暴露度高,真正意味着的是:这个职业的工作方式会被改变,但工作本身未必会减少。

04
真正该想的事

所以这个项目真正告诉我们的,是一个更本质的问题:

你的工作有多少成分可以被数字化?

如果一个程序员 80% 的时间在写代码,20% 的时间在理解需求、做架构决策、和团队沟通。

那 AI 帮你把 80% 效率提升 3 倍后,省下的时间会投入到那 20% 更有价值的事情上。

如果一个翻译 90% 的时间在逐字翻译,10% 的时间在做文化适配和语言润色。

那 AI 会把那 90% 的时间压缩掉,翻译工作的价值将完全取决于剩下 10% 的能力。

建议你自己打开这两个项目看看,热力图比文字直观得多。

美国版:https://github.com/karpathy/jobs中国版:https://madeye.github.io/jobs/

打开之后切换不同颜色维度,把自己的职业找出来看看。

你会对数字化这个词有全新的理解。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

GTC 2026现场:光轮智能成Physical AI隐形巨头,参与定义仿真标准

GTC 2026大会上,具身智能独角兽光轮智能成为Physical AI领域的关键基础设施提供商。文章揭示其技术被用于黄仁勋演示的机器人demo,并已加入Newton开源引擎技术委员会,参与定义行业标准。适合关注AI、机器人及前沿科技发展的读者,了解Physical AI时代仿真、数据与评测的核心趋势。

Tags:

听雨 发自 凹非寺
量子位 | 公众号 QbitAI

GTC 2026,比往年更热。

主会场座无虚席,台下三万人、线上数百万观众同步观看。

从大模型到机器人,再到Physical AI,几乎所有人都在讨论同一个问题:

AI,如何真正进入现实世界?

黄仁勋台上布道,各路AI公司则在台下争奇斗艳。

但今年现场内外,一家不造机器人、也不做大模型的公司,却在Physical AI多个关键环节中反复出现。

它就是当下最炙手可热的具身智能独角兽——光轮智能

台上台下,光轮的身影可谓"无处不在":

老黄主题演讲中,演示了多个机器人仿真demo——机器人叠衣服、拉紧皮带,背后用的就是光轮的技术。

图片

光轮的展台Booth 1406,位置也是相当核心,就在入口一进来的地方,旁边就是三星、美光等存储芯片巨头,还有Together AI、Lambda、Global AI等AI Infra重量级玩家。

图片

开幕当天,光轮展台被围得里三层外三层,热度居高不下。

图片

仔细一瞅,今年的GTC大会上,主舞台、产品展区、主题演讲,哪哪儿都有光轮的身影,Physical AI的氛围也是持续沸腾。

再加上光轮智能的合作名单,从大模型公司到Infra公司,从具身智能企业再到车企,那叫一个通吃。

连世界模型公司,比如"AI教母"李飞飞的World Labs,也都跟它有关系。

大家逐渐意识到,在Physical AI领域,提供数据与仿真基础设施的光轮智能,已经成为了行业生态中不可替代的存在

Physical AI爆发:Infra成为新焦点

过去几年,GTC的聚光灯始终追随着大模型与机器人本体。

从ChatGPT掀起生成式AI浪潮,到人形机器人纷纷亮相,大家的目光主要停留在台前——模型有多聪明,机器人能做什么。

但今年的GTC,风向变了

老黄在主题演讲中宣布了一个数字:

2025-2027年,以Blackwell和下一代Rubin为代表的新一代AI计算平台,将带来约1万亿美元规模的收入机会。

图片

此话一出,现场一片沸腾。

Physical AI也头一次成为GTC的核心主题,与生成式AI平起平坐。

简单来说,AI的发展可以分为三步:

第一步是感知:AI学会看和听。人脸识别、语音助手问世,AI开始理解这个世界。

第二步是生成:ChatGPT、Midjourney横空出世。AI不仅会看,还会写会画,成了超级"键盘侠"。

现在到了第三步:Physical AI。AI要从"理解世界"变成"进入世界",从屏幕后面走出来,真正去干活。

但问题来了,你要让一个人形机器人在工厂里拧螺丝,不可能让它在现实中摔几千次跤来试错。成本太高,风险太大,速度太慢。

它需要在仿真环境里"先训练、再落地"

图片

这就是Physical AI的底层逻辑:在数字孪生中生成无限场景、测试无数策略、积累行为数据,然后把训练好的"大脑"下载到实体机器人身上。

也正因如此,一个关键的变化出现了:决定行业上限的不再是模型本身,而是仿真、数据与评测验证的基础设施

没有高精度的物理仿真,机器人就学不会受力反馈;没有规模化的数据生成,模型缺少训练燃料;没有闭环的评测迭代,能力也无法持续提升。

Physical AI时代的竞争,已经从"谁有最好的模型",变成了"谁有最好的训练场"

光轮智能所构建的,正是这样一套面向Physical AI的数据与仿真基础设施

这套底层能力已经被行业广泛采纳。国际主要具身智能团队中超过80%的仿真资产与仿真合成数据,都来自光轮智能。

隐形基础设施已经出现

在GTC现场,会发现一个值得注意的现象:光轮并不张扬,却同时占据了Physical AI的多个关键席位

可谓是"隐形"的巨头。

在主舞台上,老黄展示的多个机器人仿真demo,背后所使用的仿真训练技术几乎都由光轮提供。

比如Peritas AI训练的手术室辅助机器人,它可以轻松从架子上拿取物品:

图片

以及Isaac Lab Arena的多机器人训练场景、机械臂的精细操作……几乎所有机器人仿真画面,背后都采用了光轮的技术。

图片

关键在于,这些系统并非"可以用光轮,也可以不用"。

在涉及接触力学、柔体建模、材料属性等关键环节时,如果没有经过真实测量与校准的物理参数体系,仿真结果将无法迁移到真实世界。

这套Physical AI系统之所以成立,本身就建立在光轮所提供的物理世界建模能力之上。

而且更重要的是,光轮正在从"用工具的人",变成"定规则的人"。

就在几天前,光轮正式宣布加入了Newton的技术指导委员会(TSC)

图片

图片

Newton是什么?NVIDIA、Google DeepMind、Disney Research三家巨头联手搞的开源物理仿真引擎,也是Linux Foundation的顶级项目。

那个在GTC舞台上和老黄对话的可爱机器人角色雪宝(Olaf),背后的物理引擎就是Newton。

图片

而TSC是Newton的核心技术决策层

里面大佬可不少:Google DeepMind仿真负责人Erik Frey、MuJoCo核心开发者Yuval Tassa、NVIDIA仿真技术负责人Miles Macklin等等,都汇聚于此。

现在,光轮智能创始人兼CEO谢晨博士作为公司代表加入该委员会,与这些大佬平起平坐,共同决定Newton往哪走、技术标准怎么定、下一代功能长什么样。

这也意味着,光轮不只使用引擎,而是参与定义引擎。

而且,与其他参与者不同,光轮智能并不只覆盖某一个技术点。

NVIDIA定义计算,DeepMind推动算法,Disney探索极端场景,而光轮智能是目前唯一同时打通世界建模、数据生成、物理测量、参数校准与评测闭环的公司。

就像CUDA定义了AI计算,Linux定义了操作系统,光轮智能,正在定义Physical AI时代的基础设施

图片

在GTC现场,光轮也直接把一整套Physical AI底座真正搭了出来。

他们的三个展位,分别对应着物理AI领域的三大核心命题——World、Behavior、Eval

World的核心,是构建与真实物理世界对齐的仿真世界。

现场摆着一个"物理测量工厂",可以看到一台机械臂在标准化实验平台上反复执行按压、拉伸、扭转等动作,对不同材质与结构的物体施加精确可控的外力。

图片

Behavior的核心,是规模化生产驱动模型训练的行为数据,涵盖仿真遥操与真人第一视角人类视频数据。

图片

操作路径、力控变化、决策时机,以及细微的犹豫、调整与策略选择——这些经验都会被沉淀下来,并转译为可训练的数据结构。

再与仿真遥操记录、真人第一视角视频相互补充,逐步形成一张既具规模、又保留人类策略细节的行为数据网络。

Eval的核心,则是RoboFinals评测体系

它是业内首个难度足够高、具备工业级标准、并支持前沿大模型的仿真评测平台,能够以工业级标准,衡量机器人基础模型的真实能力进展。

图片

这并非三个孤立的demo,而是构建出了一套完整的Physical AI基础设施

此外,具身智能Infra的整套方法论,实际也开始被布道。

在现场,光轮在GTC一口气举办了六场演讲,座无虚席,主题层层递进,把自己构建整套Infra的方法论都讲透了:

世界怎么建——物理真实的仿真环境如何搭建;

数据怎么来——规模化合成数据生产管线;

能力怎么测——工业级评测标准与闭环验证。

图片

通过布道演讲,光轮逐步构建出一条完整的Physical AI基础设施叙事:以物理真实的世界构建为基础,以规模化数据生成为支撑,以工业级评测标准为闭环。

GTC的第一晚,光轮还办了一场Physical AI的Party,参与人数超过了350人

图片

机器人公司的创始人、顶尖高校的教授、开源社区的核心贡献者、一线工程师,纷纷齐聚一堂。

场面非常火爆,有跳舞的机器人,战斗的机器人,据说还有一台装着机械臂的Cyber Truck(doge)

Party结束后,还有很多人意犹未尽,纷纷在X上求照片……

这场Party的火爆,则是另一个信号:展现出光轮的行业号召力,正在聚拢整个Physical AI社区。

光轮正在连接仿真、模型、机器人与应用等多方角色,逐步形成一个围绕其展开的行业生态网络。

春江水暖鸭先知,物理AI时代的航船已经启航。

Physical AI的基础设施正在被定义

LLM时代,大家拼的是GPU+数据——谁卡多、谁数据量大,谁就能炼出好模型。堆料就是正义。

但Physical AI时代,这套玩法行不通了。

你可以有世界上最好的大模型,但如果机器人分不清"摸到的是桌子还是墙",搞不清"用多大力才不会捏碎鸡蛋",那它永远走不出实验室。

Physical AI能走多远,还得看仿真的精度、数据的规模、评测的标准——这套基础设施有多扎实。

这也是为什么,GTC 2026释放出了一个清晰的信号:行业竞争的主战场,已经从"模型层"下沉到了"基础设施层"

图片

在这个背景下,回头看光轮在GTC上的表现,会更容易理解其意义。

当一家公司同时出现在GTC主舞台,进入仿真引擎治理层、打造完整系统、输出工程方法,并构建起生态网络时,它的角色已经发生变化。

光轮智能不只是实力强,而是逐渐成为了行业生态中的一层"基础设施"

当Physical AI从概念走向工程、从愿景走向产业,真正决定上限的底层基础设施,正在被重新定义。

而这场变化,才刚刚开始。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

开源多模态数据标注平台Tiger:大模型训练降本70%

Tiger是国内领先的开源多模态数据标注平台,面向大模型训练,通过自动化工具链、RAG技术及多模态处理,降低70%人工成本,标注准确率超95%,支持千人级团队协作与私有化部署,适合AI工程师及企业高效构建训练数据集。 Tags: 数据标注平台 开源工具 多模态标...