2026年4月9日星期四

Seedance2。0人脸审核+宫格分镜:剧情环环相扣技巧

用Seedance2.0人脸审核与宫格分镜让剧情更连贯。适用于视频创作者,工作流详见飞书链接。

Tags:

工作流在飞书里

https://my.feishu.cn/wiki/KrKow7S6ziML2IkuhWdc0vlQnnc?from=from_copylink


AI日报:MiniMax2。7本周末开源,千问3。6Plus调用破万亿

本日报汇总2026年4月7日AI行业核心动态:MiniMax 2.7确认本周末开源,进一步降低Token成本;阿里千问3.6 Plus登顶OpenRouter调用榜,单日突破1万亿Token;奥特曼首次回应Sora停用,称算力短缺是主因;另有Seedance 2.0支持JSON精控视频、多项融资与技术突破。适合AI开发者与从业者快速掌握开源、算力及模型调用趋势。

Tags:

AI 日报 · 2026年04月07日

AI资讯

1、Xoople获1.3亿美元B轮融资,卫星采集AI地面真值数据

2、红熊AI获2.1亿A轮,记忆科学加速全模态大模型

3、OpenAI控诉马斯克反竞争并促美方调查

4、中国大模型调用量暴增31%,连赢美国五周

5、微软探索高温超导配电,数据中心趋近零损耗

6、清华AIR开源OpenBioMed Skills重塑药研AI流程

7、通义千问深度研究升级:一站式智能财经分析

8、中国大模型周调用量破12.9万亿,增速领跑全球

9、AI芯片拉动存储涨价,三星Q1利润暴增

10、《纽约客》曝奥尔特曼操权引爆OpenAI信任危机

11、MiniMax 2.7本周末开源,Token成本继续下探

12、奥特曼首谈Sora停用:算力短缺成主因

13、阿里千问3.6 Plus登顶OpenRouter调用榜破万亿

14、宇树移动机器人专利:半椭圆机身单雷达全景感知

15、活体大鼠神经元实现实时AI时序计算新突破

16、迪士尼前工程师携Midjourney推会呼吸仿生机器人

17、剑桥研究:AI数据中心热岛效应或升温9.1℃

18、Anthropic锁定谷歌博通多吉瓦TPU产能

19、Entropy Corridor推理干预:不重训实时纠偏幻觉

20、OpenAI联手Anthropic与Google反制模型复制

21、博通携手谷歌共研TPU至2031并供Anthropic算力

22、苹果ICLR论文:无关语句让大模型算数崩盘

23、Meta新AI官首模将发,Llama开源转混合

24、GAIR开源daVinci-LLM-3B并公开全训练轨迹

25、Seedance 2.0上线Arcads:JSON提示精控视频

26、OpenAI开源IH挑战:用指令层级强化大模型安全

最新开源

1、90个本地大模型项目合集:Gemma 4+Ollama实战

2、AI奖学金与助学贷款智能推荐平台开源

3、三行代码修复LLM提示词含名GDPR风险

4、本地语音克隆管线开源:12GB显卡可跑

5、OCaml机器学习示例合集:小而精的入门仓库

6、本地优先企业级RAG与LLMOps一体化管线

7、像素置换重排:不生成也能匹配参考图

8、ResuMate开源:五模型协同智能润色简历


📰 最新资讯


01 · Xoople获1.3亿美元B轮融资,卫星采集AI地面真值数据

 🏷 行业动态

西班牙卫星初创Xoople完成1.3亿美元B轮融资,由Nazca Capital领投。公司瞄准企业级AI“可信数据”痛点,打造专用卫星星座采集高精度地面真值数据,为训练与验证模型提供可靠基准,有望提升遥感与行业AI的可用性与决策质量。

配图
配图

主要亮点:

  • • B轮融资1.3亿美元,Nazca Capital领投
  • • 专注“地面真值”数据,解决AI训练验证可信性
  • • 自建专用卫星星座,面向企业级AI应用落地

02 · 红熊AI获2.1亿A轮,记忆科学加速全模态大模型

 🏷 行业动态

红熊AI宣布完成2.1亿元A轮融资,由华禹创投领投,老股东与多家机构跟投,创始团队亦追加投资,投后估值突破15亿元。公司以“记忆科学”技术赋能全模态大模型,意在构建可持续技术护城河,推动大模型能力长期化与产品化落地。

配图
配图

主要亮点:

  • • 2.1亿元A轮落地,投后估值突破15亿元
  • • 华禹创投领投,多家机构与老股东跟投
  • • 以“记忆科学”赋能全模态大模型,构建护城河

03 · OpenAI控诉马斯克反竞争并促美方调查

 🏷 行业动态

OpenAI已向加州与特拉华州总检察长举报,称马斯克借诉讼及联合竞争对手等方式阻挠其发展与AGI使命推进。双方诉讼预计本月开庭。该事件或加剧AI头部竞争的监管审视,影响融资、合作与行业治理走向。

配图
配图

主要亮点:

  • • OpenAI向两州总检察长举报马斯克反竞争
  • • 指控其以诉讼与联合对手手段阻碍AGI推进
  • • 双方诉讼本月庭审,或引发更严监管关注

04 · 中国大模型调用量暴增31%,连赢美国五周

 🏷 行业动态

最新一周(4月6日当周)中国AI大模型调用量达12.96万亿Token,环比增长31.48%,已连续五周超过美国。同期全球调用量为27万亿Token,环比增长18.9%。中国增速显著高于全球平均,反映应用落地、算力供给与生态活跃度同步提升,对产业竞争格局形成强化。

配图
配图

主要亮点:

  • • 中国周调用量12.96万亿Token,环比增长31.48%
  • • 连续五周超越美国,增长势头保持强劲
  • • 全球周调用量27万亿Token,中国贡献增速更突出

05 · 微软探索高温超导配电,数据中心趋近零损耗

 🏷 技术突破

微软研究高温超导技术,用“零电阻”输电重塑云端配电架构,以应对AI时代数据中心的高功率、高密度负载。该方案可显著减少线缆电能损耗与热积聚,缓解散热压力并突破输电距离限制,未来或替代传统铜铝布线,提升数据中心能效与扩容能力。

配图
配图

主要亮点:

  • • 以高温超导实现近零电阻传输,显著降低能耗
  • • 减少电流损耗与热积聚,缓解数据中心散热瓶颈
  • • 突破输电距离限制,潜在替代铜铝布线体系

06 · 清华AIR开源OpenBioMed Skills重塑药研AI流程

 🏷 开源项目

清华AIR与水木分子开源OpenBioMed Skills,将药研专家决策流程沉淀为可执行的Agent Skill代码。首批45项核心技能覆盖生化药研、蛋白设计、单细胞组学与数据检索等领域,降低生物医药研发工程门槛,推动研发链路从工具化迈向全流程智能化与可复用自动化。

配图
配图

主要亮点:

  • • 把专家决策流程代码化为可执行Agent技能
  • • 首批开源45项核心技能,覆盖五大药研场景
  • • 降低研发工程门槛,加速全流程智能化落地

07 · 通义千问深度研究升级:一站式智能财经分析

 🏷 产品更新

通义千问“深度研究”新增专业财经分析模块,采用Agentic架构接入同花顺实时金融数据,覆盖全球万只股票行情与百万份财报及公司资料,可从需求解析、数据检索到信息整合全链路自主分析,提升投研效率与决策质量,推动AI投研产品化落地。

配图
配图

主要亮点:

  • • Agentic架构驱动端到端自主投研分析流程
  • • 接入同花顺实时数据,覆盖全球万只股票行情
  • • 整合百万份财报与公司资料,支持深度研判

08 · 中国大模型周调用量破12.9万亿,增速领跑全球

 🏷 行业动态

中国AI大模型应用规模迎来爆发:周调用量达12.96万亿Token,环比增长31.48%,在全球竞速中显著领先美国。阿里、小米等企业稳居榜单前列,显示中国在算力与应用落地协同推进,正以更高频、更大规模的调用推动产业加速升级。

配图
配图

主要亮点:

  • • 周调用量12.96万亿Token,环比增长31.48%
  • • 中国调用规模远超美国,应用侧优势凸显
  • • 阿里、小米等位居前列,跻身全球第一梯队

09 · AI芯片拉动存储涨价,三星Q1利润暴增

 🏷 行业动态

三星电子发布Q1业绩预告,预计营业利润达57.2万亿韩元,显著超出市场预期并同比大幅增长。核心驱动来自AI基础设施需求爆发,带动AI芯片相关存储需求与价格上行,推动公司利润强劲反弹,也强化了存储行业景气回升信号。

配图
配图

主要亮点:

  • • Q1营业利润预计57.2万亿韩元,远超预期
  • • AI基础设施需求激增,成为利润反弹主引擎
  • • AI芯片带飞存储需求与价格,行业景气回暖

10 · 《纽约客》曝奥尔特曼操权引爆OpenAI信任危机

 🏷 行业动态

《纽约客》调查称,超百名OpenAI内部人士与前高管指控CEO奥尔特曼长期存在欺骗与权力操控,并在关键事件中影响决策走向,导致组织内信任裂痕扩大。事件或加剧治理合规压力,影响公司战略稳定、对外合作信心与AI行业的伦理治理讨论。

配图
配图

主要亮点:

  • • 超百名内部人士被指向媒体提供不当行为线索
  • • 多名前高管指证其操控事件与决策流程
  • • 指控引发内部信任危机与外部治理审视升级

11 · MiniMax 2.7本周末开源,Token成本继续下探

 🏷 开源项目

国产大模型MiniMax 2.7因OpenClaw插件走红,官方确认本周末开源,意在进一步降低开发者使用与部署成本。模型自3月发布后迭代迅速、调用量领先,并在软件工程与专业办公两大能力上同步增强,或加速生态扩展与行业落地。

配图
配图

主要亮点:

  • • 官方确认周末开源,降低开发与调用门槛
  • • OpenClaw插件带火,生态联动效应明显
  • • 软件工程与专业办公能力双向提升,面向落地

12 · 奥特曼首谈Sora停用:算力短缺成主因

 🏷 行业动态

奥特曼透露Sora“熄火”并非技术卡壳,而是算力与芯片资源极度紧缺。OpenAI需将有限GPU优先投向更高优先级项目,引发内部资源竞争。此事凸显生成式视频落地对计算资源的高消耗,或加速行业在算力采购、调度与效率优化上的竞赛。

配图
配图

主要亮点:

  • • 停用原因非技术问题,而是算力缺口巨大
  • • 有限芯片资源需优先保障更高优先级项目
  • • 生成视频高耗算力,促进行业加速效率与调度竞争

13 · 阿里千问3.6 Plus登顶OpenRouter调用榜破万亿

 🏷 行业动态

阿里Qwen3.6-Plus在OpenRouter周榜拿下全球大模型调用量第一,并连续四天位居日榜榜首。其单日调用量首次突破1万亿Token,成为平台首个达成该里程碑的模型,体现千问在真实流量与生态采纳上的强势竞争力。

配图
配图

主要亮点:

  • • OpenRouter周榜调用量全球第一,热度与采用率领先
  • • 连续四天霸榜日榜,稳定保持高强度使用
  • • 单日破1万亿Token,成平台首个达成里程碑模型

14 · 宇树移动机器人专利:半椭圆机身单雷达全景感知

 🏷 技术突破

宇树科技一项移动机器人专利获授权,王兴兴团队以“上细下粗”的半椭圆球形机身结合独特感知系统,实现单雷达全景感知。该方案显著简化感知架构,降低硬件与算力成本,并提升数据处理效率,有望推动移动机器人更低成本、更易量产的落地应用。

配图
配图

主要亮点:

  • • 半椭圆球形机身结构,优化雷达视野覆盖
  • • 单雷达实现全景感知,减少传感器堆叠与标定
  • • 简化感知链路,降低成本并提升处理效率

15 · 活体大鼠神经元实现实时AI时序计算新突破

 🏷 技术突破

日本团队训练大鼠皮层神经元,在实时机器学习框架下生成复杂时序信号,并与高密度微电极阵列、微流控结合构建“闭环储备池计算”系统。结果展示生物神经元可参与AI信息处理,为类脑计算与低功耗智能硬件打开新路径。

配图
配图

主要亮点:

  • • 训练活体皮层神经元生成复杂时序信号
  • • 微电极阵列+微流控搭建闭环储备池计算
  • • 验证生物神经元用于AI实时信息处理潜力

16 · 迪士尼前工程师携Midjourney推会呼吸仿生机器人

 🏷 产品更新

Animotion Robotics创始人朱圣杰联手Midjourney联合创始人John Jiang发布首款DIY仿生机器人Éloi,瞄准“会呼吸”的拟生命体体验,探索具身智能在物理世界的自然交互与情感连接。团队融合迪士尼机器人经验与AI芯片能力,或为家庭与创客生态带来新范式。

配图
配图

主要亮点:

  • • Éloi定位DIY仿生机器人,强调拟生命体“呼吸”表现
  • • 迪士尼Imagineering背景加持,强化工程与交互设计能力
  • • 结合AI芯片与具身智能,探索情感共生式人机交互

17 · 剑桥研究:AI数据中心热岛效应或升温9.1℃

 🏷 研究论文

剑桥大学研究发现,AI数据中心除高耗能外,其运行废热会形成明显热岛效应,使周边地表温度最高升约9.1℃,影响半径可达10公里,潜在波及超3.4亿人。该结论为算力基础设施选址、散热技术与环保监管提出更紧迫的约束与优化方向。

配图
配图

主要亮点:

  • • 废热引发热岛效应,地表温度最高升9.1℃
  • • 热影响范围可达10公里,外溢效应显著
  • • 潜在影响超3.4亿人,促使选址与监管升级

18 · Anthropic锁定谷歌博通多吉瓦TPU产能

 🏷 行业动态

Anthropic与谷歌、博通签约,提前锁定多吉瓦级下一代TPU算力,计划自2027年起逐步上线,用于训练与部署更前沿的Claude模型。此举直面智能体服务24小时运行带来的算力暴涨,以更稳定的硬件供给支撑模型迭代与业务扩张。

主要亮点:

  • • 多吉瓦级TPU产能提前锁定,保障长期供给
  • • 算力自2027年逐步上线,服务Claude训练部署
  • • 面向智能体全天候运行,提前应对算力暴涨

详情链接: 

https://x.com/testingcatalog/status/2041280355412385841


19 · Entropy Corridor推理干预:不重训实时纠偏幻觉

 🏷 技术突破

Entropy Corridor提出非侵入式推理时技术,认为幻觉源于模型过度自信而非不确定性。它通过约束双向范围内的分层激活熵,定位并处理“过度自信层”,实现从检测走向实时纠正。在TruthfulQA上幻觉率减半且真实性保持,延迟开销低于2%,为低成本部署提供新路径。

主要亮点:

  • • 推理阶段限制分层激活熵,非侵入式可即插即用
  • • 针对过度自信的特定层干预,实现实时纠正而非仅检测
  • • TruthfulQA幻觉率减半,真实性保持且延迟开销低于2%

详情链接: 

https://x.com/elfatone82/status/2041258848992768289?s=46


20 · OpenAI联手Anthropic与Google反制模型复制

 🏷 行业动态

OpenAI、Anthropic与Google宣布协同行动,针对中国市场的模型权重窃取与架构抄袭等复制问题强化知识产权与资产保护。此举显示头部实验室在安全与合规上形成共识,也折射全球AI竞争加剧下,技术壁垒、治理机制与跨机构联防将成为行业新常态。

主要亮点:

  • • 三大AI实验室罕见结盟,形成联合防护阵线
  • • 聚焦模型权重与架构抄袭,强化知识产权保护
  • • 安全合规与资产防护升温,影响全球竞争格局

详情链接: 

https://www.bloomberg.com/news/articles/2026-04-06/openai-anthropic-google-unite-to-combat-model-copying-in-china


21 · 博通携手谷歌共研TPU至2031并供Anthropic算力

 🏷 行业动态

博通与谷歌签署长期协议,共同开发未来TPU,并为谷歌下一代AI机架提供网络与关键硬件,合作延续至2031年。同时Anthropic自2027年起将获得约3.5GW TPU算力访问。该合作打通芯片、机架与算力供给链路,强化AI基础设施的稳定扩容能力。

主要亮点:

  • • 博通与谷歌长期共研未来TPU,合作延续至2031年
  • • 博通将为谷歌下一代AI机架提供网络组件及关键部件
  • • Anthropic自2027年起获约3.5GW TPU算力访问权

详情链接: 

https://x.com/gaganghotra_/status/2041285522950385930


22 · 苹果ICLR论文:无关语句让大模型算数崩盘

 🏷 研究论文

苹果在ICLR 2025提出GSM-NoOp评测,给GSM8K题目替换数字或插入无关描述,测试25款模型。多模型准确率因“干扰句”大幅下滑(如GPT-4o 94.9%→63.1%),暴露其更像关键词驱动的模式匹配而非真正推理,对金融、法律与教育应用构成风险。

主要亮点:

  • • GSM-NoOp用无关语句与数字替换系统测鲁棒性
  • • 干扰句致多模型暴跌:GPT-4o降至63.1%
  • • 关键词触发算子选择,示例提示也难纠正

详情链接: 

https://x.com/ylecun/status/2041295545495380356


23 · Meta新AI官首模将发,Llama开源转混合

 🏷 模型发布

Meta将在新任首席AI官亚历山大·王带领下发布首个新模型家族。受Llama 4表现与竞争压力影响,开源策略改为“混合”:最大模型保持专有,部分版本在安全与专有成分剥离后再开源。代号Avocado的文本模型因不及Gemini 3推迟至5月,成败关乎千亿美元级投入与生态信任。

主要亮点:

  • • 143亿美元入股Scale AI并引入王,重建AI战略
  • • 开源由“发布即开”改为混合,最大模型专有
  • • Avocado测试落后Gemini 3,发布时间推迟至5月

详情链接: 

https://x.com/gaganghotra_/status/2041290614462091770


24 · GAIR开源daVinci-LLM-3B并公开全训练轨迹

 🏷 开源项目

GAIR发布30亿参数基础模型daVinci-LLM-3B,不仅开源权重,还罕见公开完整训练轨迹、各阶段检查点与数据处理决策,使预训练更透明可复现。项目含200+消融实验,覆盖数据配比、训练动态与评估有效性;采用两阶段课程学习,总计约8万亿token,强化数学与代码推理,利于社区验证与改进。

主要亮点:

  • • 开源权重+训练轨迹+中间检查点,复现实验更完整
  • • 200+消融实验系统拆解数据质量、混合与评估设计
  • • 两阶段课程学习训练8万亿token,增强数学与代码推理

详情链接: 

https://huggingface.co/SII-GAIR-NLP/davinci-llm-model


25 · Seedance 2.0上线Arcads:JSON提示精控视频

 🏷 产品更新

Seedance 2.0 视频生成模型已登陆 Arcads AI,并针对 JSON 结构化提示词深度优化,可在摄影参数、运动动力学、环境与光照、物理模拟及情绪氛围等维度精确控片。其支持3秒视频参考、最多9张参考图与音频参考输入,强化多模态可控生成,有望提升商用视频生产效率与一致性。

主要亮点:

  • • 原生优化JSON提示词,实现多维度结构化精确控片
  • • 可定义机位、焦距、景深与动态模糊等专业镜头参数
  • • 支持3秒视频、9图与音频参考,多参考生成更一致

详情链接: 

https://x.com/EHuanglu/status/2041132328655954201


26 · OpenAI开源IH挑战:用指令层级强化大模型安全

 🏷 开源项目

OpenAI发布IH-Challenge数据集,用强化学习训练模型在指令冲突中按“系统>开发者>用户>工具”优先级执行。基于该方法的GPT-5 Mini-R在CyberSecEval 2与提示词注入评测更强,显著提升对恶意工具指令和外部注入的鲁棒性,同时保持帮助率稳定,为智能体时代的可控行为提供关键机制。

主要亮点:

  • • 开源IH-Challenge,专测指令冲突与来源可信度
  • • RL训练遵循指令优先级,降低主观评估与过拒绝
  • • GPT-5 Mini-R在注入与工具攻击评测中更鲁棒

详情链接: 

https://finance.sina.cn/stock/jdts/2026-04-06/detail-inhtpzzx6007103.d.html?vt=4


🔭 最新开源


01 · 90个本地大模型项目合集:Gemma 4+Ollama实战

 🏷 开源项目

该仓库汇集90个可落地的本地LLM生产级项目,基于Gemma 4与Ollama,提供完整Python作品集与实践范式,覆盖从部署、推理到应用集成的关键链路,为企业与开发者提供低成本、可控的数据本地化方案,推动本地AI应用快速迭代。

主要亮点:

  • • 90个生产级本地LLM项目清单与示例代码
  • • 基于Gemma 4 + Ollama实现离线推理与部署
  • • 完整Python作品集,便于复用与二次开发落地

详情链接: 

https://github.com/kennedyraju55/90-local-llm-projects


02 · AI奖学金与助学贷款智能推荐平台开源

 🏷 开源项目

Bharathwajpm 在 GitHub Trending 发布开源项目 studynanba-ai,以 AI 为学生提供奖学金与助学贷款的个性化推荐与申请指引。项目采用 TypeScript 构建,强调可落地的教育金融咨询体验,有望降低信息差并提升申请决策效率。

主要亮点:

  • • 基于学生画像智能匹配奖学金与贷款选项
  • • 提供申请路径与材料准备的个性化指导
  • • TypeScript 技术栈,便于二次开发与集成

详情链接: 

https://github.com/Bharathwajpm/studynanba-ai


03 · 三行代码修复LLM提示词含名GDPR风险

 🏷 开源项目

该开源项目聚焦LLM提示词中意外携带人名等可识别信息导致的跨境传输与GDPR合规风险,提出仅用三行Python即可完成自动清理/替换方案,帮助开发者在提示工程与调用链路中快速降敏,降低合规成本与数据泄露隐患。

主要亮点:

  • • 检测并处理提示词中的人名等个人信息
  • • 三行Python实现快速脱敏与合规加固
  • • 面向跨境调用场景降低GDPR违规概率

详情链接: 

https://github.com/mahadillahm4di-cyber/mh-gdpr-ai.eu


04 · 本地语音克隆管线开源:12GB显卡可跑

 🏷 开源项目

GitHub Trending 项目 tdorsi/voice-gen 开源一套完全本地的语音克隆流程,结合 MOSS-TTS 与 QLoRA,在约 12GB 显存的 GPU 上即可训练/适配与推理。它降低了语音克隆门槛,减少对云端依赖,利于隐私与离线部署,并推动个人与中小团队快速验证语音应用。

主要亮点:

  • • 全本地语音克隆流程,离线运行更注重隐私
  • • 结合 MOSS-TTS 与 QLoRA,低显存也能微调
  • • 面向 12GB GPU 门槛,便于个人与小团队上手

详情链接: 

https://github.com/tdorsi/voice-gen


05 · OCaml机器学习示例合集:小而精的入门仓库

 🏷 开源项目

Fuwn 开源了一个以 OCaml 为主的小型机器学习示例合集,聚焦用函数式语言实现常见 ML 流程与代码范式。虽体量不大,但有助于补齐 OCaml 在 ML 生态中的实践参考,降低学习与迁移成本,并为教学、原型验证提供轻量素材。

主要亮点:

  • • 以 OCaml 编写的机器学习示例集合,强调可读可练
  • • 展示函数式范式在训练与推理流程中的实现思路
  • • 适合作为 OCaml 进入 ML 领域的教学与入门模板

详情链接: 

https://github.com/Fuwn/ocaml-machine-learning


06 · 本地优先企业级RAG与LLMOps一体化管线

 🏷 开源项目

Sentinel-LLM 提供生产级、本地优先的 RAG+LLMOps 全流程方案,集成 Airflow 自动化文档摄取、Qdrant 向量存储与 RAGAS 幻觉评估护栏,并覆盖端到端可观测性与模型生命周期管理,助力企业更稳健地落地可控、可监测的生成式AI应用。

主要亮点:

  • • Airflow驱动自动化文档摄取与任务编排
  • • Qdrant向量库支撑高性能检索与扩展
  • • RAGAS幻觉护栏+全链路可观测性监控

详情链接: 

https://github.com/Isha-Das-06/Sentinel-LLM


07 · 像素置换重排:不生成也能匹配参考图

 🏷 开源项目

Pixel-permutator 提供一种“只重排不合成”的图像变换思路:在不创建、删除或生成像素的前提下,将输入图像像素排列调整为更接近参考图。项目强调确定性与内存安全,并以神经特征引导与预览可视化提升可控性,适用于风格/布局迁移与可解释实验。

主要亮点:

  • • 像素仅置换重排,不引入新像素或内容
  • • 确定性与内存安全,便于复现与部署
  • • 神经特征引导+预览可视化,增强可控调参

详情链接: 

https://github.com/er-del/Pixel-permutator


08 · ResuMate开源:五模型协同智能润色简历

 🏷 开源项目

ResuMate 是一款免费开源的 AI 简历增强工具,采用 5 代理流水线:Claude、Gemini、Grok、Perplexity 分析各段落,由 GPT-4o 综合择优改写。它把多模型评审机制产品化,提升简历优化的一致性与可解释性,对求职工具与多代理应用范式有示范效应。

主要亮点:

  • • 五模型分工评审简历各部分,降低单模型偏差
  • • GPT-4o 汇总多方建议并执行最佳改写,强调择优融合
  • • TypeScript 实现的开源项目,便于二次开发与集成

详情链接: 

https://github.com/AliHuzain/resumate


以上内容由 AI 汇总,数据来源于网络公开平台。

加州大学Adobe提出OmniRoam:单图生成可控全景视频,实现360°无限漫游

加州大学与Adobe联合提出OmniRoam框架,支持从单张图片生成可控全景视频,实现360°无限漫游。该方法解决了传统模型的视角限制和场景一致性问题,支持用户指定相机轨迹,适用于VR/AR及3D重建。论文、主页及代码已开源。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在视频生成领域,传统透视视频模型受限于视角和场景覆盖范围,难以实现高质量的长距离场景漫游。为了解决这一问题,加州大学尔湾分校、加州大学圣地亚哥分校及Adobe Research等机构的研究人员共同提出了OmniRoam,这是一种可控全景视频生成框架,通过利用全景表示的丰富单帧场景覆盖率和长期时空一致性,实现了高质量的长距离场景漫游。OmniRoam不仅在视觉质量、轨迹可控性和长期全局一致性方面表现出色,还拓展了实时生成和3D重建的应用边界。

图片


这是一个基于网络的交互式系统,用于使用 OmniRoam 模型生成全景视频。该系统为视频生成的预览、自动生成和优化阶段提供了用户友好的界面。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/abs/2603.30045
  • 主页:https://yuheng.ink/project-page/omniroam/
  • 仓库:https://github.com/yuhengliu02/OmniRoam
图片

unsetunset论文介绍unsetunset

图片

OmniRoam旨在解决透视视频模型在场景建模中的局限性,通过提出一种可控全景视频生成框架,实现了高质量的长距离场景漫游。该框架利用全景表示的丰富单帧场景覆盖率和长期时空一致性,通过预览和精修两个阶段,逐步生成高分辨率、长时间的全景视频。此外,OmniRoam还引入了闭环一致性评估指标,科学量化场景级视频生成中的长期全局一致性。

unsetunset方法概述unsetunset

图片

OmniRoam 的技术架构巧妙结合了几何约束与扩散模型,主要包含三大核心模块:

  1. 球面潜在扩散模型 (Spherical Latent Diffusion Model, SLDM)
    • 核心重构:摒弃传统的平面VAE,设计了专为360°全景图优化的球面变分自编码器。
    • 优势:直接在球面潜空间中进行去噪生成,天然消除了经纬度映射带来的极点畸变和接缝问题,确保全景图的几何完整性。
  2. 长时一致性记忆机制 (Long-Horizon Consistency Memory) 突破难点:如何解决长距离漫游后的“遗忘”问题(即回到原点时场景是否一致)?
    • 解决方案:引入全局场景记忆库,记录已生成区域的语义和几何特征。当相机漫游回已访问区域时,模型通过循环一致性损失(Loop Consistency Loss)强制当前生成结果与记忆库对齐。实验显示,其循环一致性得分是自回归基线方法的近两倍。
  3. 可控相机轨迹引导 (Controllable Camera Trajectory Guidance)
    • 灵活交互:支持用户通过指定相机路径(如前后移动、左右旋转、上下俯仰)来控制视频内容。
    • 技术细节:将相机位姿参数作为条件注入到扩散模型的注意力层中,使模型能够根据预设轨迹精准渲染对应视角的画面,实现“指哪打哪”的漫游体验。

unsetunset实验unsetunset

图片
  • 定量比较。该方法在所有评估指标上均优于先前的方法,实现了更优的视觉质量、更强的轨迹可控性和更高的循环一致性。FAED、SSIM 和 LPIPS 均基于 81 帧进行评估,而循环一致性则基于完整序列进行评估。
  • 定性比较。该方法生成的全景视频能够紧密跟随输入轨迹,并保留输入图像中更清晰的细节,而以往的方法通常会产生模糊的伪影或语义不一致的内容。
图片
图片

unsetunset结论unsetunset

OmniRoam作为一种可控全景视频生成框架,通过全局到局部的生成策略、相机轨迹控制的解耦设计、混合数据集构建以及闭环一致性评估指标,实现了高质量的长距离场景漫游。其在视觉质量、轨迹可控性和长期全局一致性方面均表现出色,并拓展了实时生成和3D重建的应用边界。随着代码的正式开源,OmniRoam有望推动视频生成领域的发展,为沉浸式3D漫游、虚拟现实、增强现实等领域带来更加便捷和高效的视频生成工具。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

Seedance2。0人脸审核+宫格分镜:剧情环环相扣技巧

用Seedance2.0人脸审核与宫格分镜让剧情更连贯。适用于视频创作者,工作流详见飞书链接。 Tags: Seedance2.0 人脸审核 宫格分镜 视频工作流 剧情剪辑技巧 工作流在飞书里 : http...