2026年5月21日星期四

腾讯ARC联合清华Pixal3D:单图生成重建级精度3D模型(开源)

Pixal3D由腾讯ARC与清华大学联合提出,论文被SIGGRAPH 2026收录。该技术实现像素级对齐、重建级精度的单图生成3D,保真度超越TRELLIS等主流模型。已开源代码并上线Hugging Face在线试用,无需专业建模技能即可生成高精度3D资产,适用于设计、游戏、元宇宙等场景。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

最近3D生成模型火得一塌糊涂,TRELLIS、HY3D 这些模型已经能生成相当不错的3D资产了。但有一个核心痛点一直没解决 —— fidelity(保真度)。

什么意思?就是你给一张图,模型生成的3D模型,从原来那个视角看过去,到底像不像原图? 答案是:大部分模型都不太行。因为它们在一个"规范空间"里生成形状,然后用注意力机制把图像信息"注"进去,像素和3D点之间的对应关系是模糊的。

近期,腾讯ARC实验室联合清华大学等机构推出的Pixal3D技术 直接把这个问题干掉了。 它不再在规范空间里生成,而是直接在像素对齐的视角下生成3D,让每个像素都能找到自己对应的3D点。结果?保真度直接逼近3D重建的水平!这不是小改进,这是范式级的飞跃

图片

相关链接

• 在线试用:https://huggingface.co/spaces/TencentARC/Pixal3D

• 开源代码:https://github.com/TencentARC/Pixal3D

• 论文链接:https://arxiv.org/abs/2605.10922

论文介绍

图片

Pixal3D论文《Pixal3D: Pixel-Aligned 3D Generation from Images》已被SIGGRAPH 2026(计算机图形学顶会)收录,由腾讯ARC实验室、清华大学团队联合完成,聚焦图像生成3D的像素保真度核心痛点。

论文指出,现有3D生成方法多在规范空间建模,通过注意力机制注入图像特征,导致2D-3D对应关系模糊,细节易失真。为此,研究团队借鉴3D重建思路,设计像素反向投影条件机制,将多尺度图像特征显式映射到3D特征体,从根源消除对应歧义。

实验证明,Pixal3D不仅可生成高质量3D资产,更将像素保真度提升至重建级别,且能自然适配多视图生成与场景合成任务,兼具创新性与实用性。

方法概述

Pixal3D核心由三大模块构成,形成完整像素对齐3D生成链路,全程以“像素对齐”为核心,兼顾质量与效率:

1.  像素对齐结构化隐表示学习:通过稀疏VAE将像素对齐的稀疏符号距离函数(SDF)压缩为高效稀疏隐变量,平衡精度与效率;

2.  图像反向投影条件器:提取图像全局与局部特征,经反向投影将2D特征升维为3D特征体,建立明确的像素-3D关联,彻底解决对应模糊问题;

3.  两阶段生成流程:先基于密集特征体预测粗粒度3D结构,再通过稀疏特征体细化几何细节,最终解码生成高精度网格。

实验结果

实验对比了Pixal3D与主流模型TRELLIS 2、HY3D V3.1,从四大维度展现碾压级优势:

图片
图片
图片
图片

✅ 像素保真度:生成的3D资产与输入图像像素对齐度显著领先,精准还原纹理细节(如插画线条、物体花纹);

几何细节:结构无扭曲、无缺失,边缘锐利、层次清晰,还原物体真实形态;

✅ 多场景适配:在复杂物体、日常场景、艺术风格等场景中均稳定输出高质量结果;

✅ 拓展能力:支持多视图生成(融合多视角特征,一致性更强)、场景合成(生成物体分离、细节完整的3D场景)。

结论

Pixal3D的问世,为图像生成3D领域提供了像素对齐的全新技术范式,有效解决了长期存在的2D-3D对应模糊、细节失真难题。

该技术最大的价值的是:大幅降低高精度3D资产的生成门槛,无需专业建模技能,单张图像即可生成可用3D模型。

作为腾讯ARC实验室在AIGC 3D领域的重磅成果,Pixal3D开源后将助力3D设计、游戏开发、元宇宙场景构建、数字藏品等多个领域,推动AIGC从2D图像向3D空间的深度落地,未来有望成为3D AIGC领域的核心基础技术之一!

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

2026中国AIGC值得关注的企业与产品图鉴:深水区落地标杆

2026年度中国AIGC产业峰会发布值得关注的企业与产品图鉴。基于数百份申报及数十位专家、投资人意见,评选出覆盖底层算力、基础模型到行业应用的全产业链标杆。帮助从业者看清技术扎根深度、场景贴合度与商业闭环能力,找到真正从试点走向常态的落地案例。

Tags:

组委会 发自 凹非寺
量子位 | 公众号 QbitAI

中国生成式AI,正在穿越产业深水区。

大家讨论的不再只聚焦参数规模、模型排名和谁又刷新了Benchmark,讨论的焦点来到AI到底有没有真正进入业务流程、有没有真正创造生产力,以及谁能率先跑通下一阶段的应用闭环。

我们比任何时候都更需要看清,谁真正在深水区里游出了姿态。

与此同时,行业也进入了新一轮分化,真正的产业化阶段正在到来。当行业从狂热回归理性,真正决定价值的不再是概念的新旧,而是技术扎得多深、场景贴得多紧、商业跑得多远。

在这样的背景下,第四届中国AIGC产业峰会正式发布:

  • 2026年度值得关注的AIGC企业
  • 2026年度值得关注的AIGC产品

市场需要经过验证的引领者,行业需要经得起审视的标杆答案。

这份榜单,正是为此而来。

本次评选收集到了数百份来自企业与产品团队的申报,量子位结合过去一年生成式AI企业与产品的实际表现、用户反馈与行业影响力,并参考数十位行业专家、投资人、技术负责人及产业从业者意见,评选出最终结果。

2026年度值得关注的AIGC企业

其中,2026年度值得关注的AIGC企业覆盖了从底层算力、基础模型到行业应用的全产业链环节。

这些入选者,或在技术纵深上持续突破,或在商业化落地上跑通了闭环,或在垂直场景里扎下了深根。他们凭借扎实的技术创新能力与可验证的产业实践,共同推动AIGC从“可用”走向“好用”,从“试点”走向“常态”。

它们分别是:

图片

2026年度值得关注的AIGC产品

2026年度值得关注的AIGC产品则横跨AI内容创作、智能客服、代码辅助、视频生成、企业知识管理、工业设计等多个赛道。

这些产品,有的以技术架构的革新刷新了性能天花板,有的以极致的场景适配重新定义了用户体验,有的则以稳健的市场增长证明了AI产品的商业可行性。

它们在技术创新与实际价值的交汇处,推动着AIGC产业生态走向成熟。

它们分别是:

图片

从2023年的技术爆发,到2024年的模型竞赛,再到2025年、2026年的应用落地与产业融合,AIGC正在快速走向下一阶段。

我们希望,这份榜单能够为身处产业深水区的从业者锚定方向,也为正在发生的AI变革留下一个扎实的注脚。

潮头之上,行者无疆。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

Karpathy加入Anthropic!盘点他5个硬核开源项目(含100美元训练ChatGPT)

Andrej Karpathy正式加入Anthropic的Claude预训练团队。本文盘点他开源的5个硬核GitHub项目:nanochat(100美元从头训练ChatGPT)、autoresearch(AI自动调参跑实验)、llm-council(多模型辩论得出答案)、jobs(评估342种职业的AI影响风险)、以及持久化个人知识库方案。适合AI开发者、研究者及关注职业风险的人,所有项目均可直接运行,单GPU即可上手。

Tags:

昨天 Karpathy 发了一条推,说自己正式加入 Anthropic 了。

图片

OpenAI 联合创始人,特斯拉前 AI 总监,斯坦福 CS231n 主讲人,Eureka Labs 创始人。

兜兜转转,最后站到了 Anthropic 这边。

这次他去的是 Claude 预训练团队,跟着 Nick Joseph 干,还要新拉一支队伍专门研究怎么用 Claude 做 AI Coding。

消息一出,X 上直接炸了。 

Karpathy 再 GitHub 上影响力也挺大的,开源了很多有影响力的开源项目。

图片

这个人的风格很鲜明,用最少的代码,讲最深的道理。

没有花里胡哨的架构,没有一堆依赖,核心逻辑经常就几百行,但每一个都值得反复看。

挑出 5 个最有代表性的项目推荐一哈。

01

花 100 块训练你自己的 ChatGPT

Karpathy 说 100 美元就能从头训练一个自己的 ChatGPT 出来。

nanochat 就是干这个的。

图片

它的定位很简单:The best ChatGPT that $100 can buy. 100 美元买到的最好 ChatGPT。

你租一台云 GPU 服务器,跑一个脚本,4 小时之后就能在类 ChatGPT 的 Web 界面里跟自己训练的模型聊天了。

image

从自定义 Rust tokenizer 到分布式训练再到 Web 推理服务,完整的一条链路全在一个仓库里搞定。

代码刻意保持 hackable,意思是你可以随便改着玩。不是那种配了一堆依赖你不敢动的框架,而是你打开看一遍就能理解整个流程的那种。

这个项目也是 karpathy 在他的 AI 教育公司 Eureka Labs 推出的课程 LLM101n 的毕业项目。

课程教你怎么从零构建 LLM,nanochat 是最终产物。

说白了,这个项目是给那些想搞懂 ChatGPT 完整链路的人准备的。比读论文有用 100 倍,因为你真的能跑起来。

最近听张小 jun 的播客,姚顺宇在面试 Anthropic 之前好像也研究了这个项目。

开源地址:https://github.com/karpathy/nanochat

02

让 AI Agents 自动帮你做研究

这个项目是 karpathy  所有仓库里 Star 最多的。

是一个让 AI 自己跑实验的工具。

autoresearch 做的事情很简单但很炸裂:在单张 GPU 上,让 AI agents 自动基于 nanochat 进行训练实验和科学研究。

图片

训练 LLM 的时候,人类研究员通常在调超参数、跑实验、看结果、分析日志、再调参数、再跑一轮。

autoresearch 把这个循环自动化了。

AI 自己调参,自己跑实验,自己分析结果,然后决定下一步做什么。

门槛很低,单张 GPU 就能跑。但它代表的思路很重要:AI 不只是被研究的对象,它也可以是做研究的人。

图片

这是 karpathy 对 AI 辅助科研的探索方向。

目前这个领域还很早期,但想想看,如果 AI 能自己做研究,那进步速度就不是线性的了。

开源地址:https://github.com/karpathy/autoresearch

03

让多个大模型开会辩论给你答案

问一个问题,Claude 写一个答案,GPT 写一个答案,Gemini 也写一个。

然后让它们互相点评打分,最后由一个主席模型汇总出最终答案。

这就是 llm-council 的玩法。

图片

它是一个本地 Web 应用,看起来像 ChatGPT,但背后的机制完全不同。

你输入问题,它通过 OpenRouter 把问题同时发给多个 LLM,每个模型独立作答,然后互相评审和排名,最终由 Chairman LLM 综合出最优回答。

karpathy 认为 LLM 集成的潜力被严重低估了。

想想也有道理。

单个模型有偏见、有盲区、有幻觉。但如果你让多个模型交叉验证,互相挑刺,最后综合出来的答案质量会高很多。

这个思路不光适用于问答。任何需要决策的场景,比如方案评审、代码审查、投资分析,都可以用多模型辩论的方式来做。

配置也很简单,通过 OpenRouter 随意组合模型,想加谁加谁。有人已经 fork 出来加了 Ollama 本地模型支持,还有人做了更现代的 UI。

开源地址:https://github.com/karpathy/llm-council

04

给全美国 342 种职业打分

这个项目 Stars 不多,但可能是最值得普通人看的一个。

你的工作被 AI 影响的概率有多大?

karpathy  直接把全美国的职业都算了一遍。

图片

他从美国劳工统计局爬取了 342 个职业的数据,覆盖了全美 1.43 亿个岗位。

然后让 LLM 对每个职业打一个 0-10 分的 AI 曝光度评分——分数越高,被 AI 被影响的风险越大。

最后做成了一个交互式 treemap 可视化。

图片

点进去就能看到每个职业的详细信息:薪资中位数、从业人数、预期增长率,以及 AI 替代风险评分。

数据一目了然。

而且这个项目发布后还有个小插曲,一度被删除,后来又重新上线。

X 上讨论很热烈,很多人拿自己的职业去查,看看自己是不是该学点新技能了。

其实也有一个中国版的:madeye.github.io/jobs

开源地址:https://github.com/karpathy/jobs在线体验:https://karpathy.ai/jobs/

05

越用越聪明的个人知识库

这个是卡帕西在 2026 年 4 月发的一篇 Gist,但引发了巨大反响,5000 多 Stars,评论区全是各种开源实现。

我之前也写过文章,可以看看。

图片

表达的意思是:大多数人用 AI 和文档交互的方式是 RAG,上传一堆文件,AI 检索相关片段,生成答案。

问题是每次提问,AI 都要从头检索和拼凑。

没有任何积累。 问一个需要综合五篇文档的复杂问题,AI 每次都要重新找到相关片段再拼起来。上次的成果全丢了。

卡帕西的思路是 让 LLM 增量构建和维护一个持久化的 Wiki。

你添加一个新来源(文章、论文、播客笔记),LLM 不只是索引它,而是读完之后把关键信息整合进已有的 Wiki 里。

更新实体页面、修改主题摘要、标注新旧数据的矛盾点、加强或挑战已有的综合结论。

知识编译一次,然后持续更新,而不是每次提问都从头来。

整个系统有三层:

Raw sources:你的原始文档,LLM 只读不写
The wiki:LLM 生成和维护的 Markdown 文件,实体页、概念页、比较分析、综述
The schema:配置文件(比如 CLAUDE.md),告诉 LLM 怎么组织 Wiki、怎么处理新来源

三个核心操作:Ingest(摄入新来源)、Query(提问)、Lint(定期健康检查,找矛盾、过时信息、孤立页面)。

卡帕西自己的用法是左边开着 Claude Code,右边开着 Obsidian。

Claude 修改 Wiki,他在 Obsidian 里实时浏览结果。用他的话说:Obsidian 是 IDE,LLM 是程序员,Wiki 是代码库。

这篇 Gist 发布后,社区涌现了大量开源实现:有人做了桌面应用、有人做了 VS Code 插件、有人加了知识图谱、有人做了完整的研究工作流。

评论区简直是一个 AI 知识管理工具的生态孵化器。

开源地址:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

06

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

腾讯ARC联合清华Pixal3D:单图生成重建级精度3D模型(开源)

Pixal3D由腾讯ARC与清华大学联合提出,论文被SIGGRAPH 2026收录。该技术实现像素级对齐、重建级精度的单图生成3D,保真度超越TRELLIS等主流模型。已开源代码并上线Hugging Face在线试用,无需专业建模技能即可生成高精度3D资产,适用于设计、游戏、元宇...