2026年5月13日星期三

AI日报:800+真实AI案例库开源,本地PDF问答助手与电商欺诈检测

本期AI日报整理2026年5月13日最新AI动态,重点推荐三个GitHub开源项目:收录Google、Meta等150+公司800+生产级AI案例库;基于Streamlit+LangChain+Ollama的本地大模型驱动PDF智能问答助手;面向电商金融交易的机器学习欺诈检测与交易分类项目。适合开发者、数据工程师及电商平台风控团队参考。

Tags:

AI 日报 · 2026年05月13日

AI资讯

1、AntAngelMed开源医疗语言模型发布,三榜权威评测登顶

2、何恺明团队ELF连续扩散模型以更少数据高效生成文本

3、具身智能产业拐点已至:政策资本技术三线共振

4、Android迈向智能系统,苹果微信OpenAI动态齐发

5、微软发布百智能体安全系统刷新漏洞发现能力

6、谷歌Gemini深融Android开启跨应用自动化

7、Meta发布Muse Spark打通全线AI产品生态

8、LibTV打通AI视频创作全流程并支持Agent自动编排

9、推测解码现注意力漂移,新归一化将接受长度翻倍

10、Google首次发现AI用于零日攻击并成功拦截

11、Isomorphic Labs获21亿美元融资加速AI新药临床

12、微软以色列高管离职牵出Azure涉军事AI争议

13、physics-intern助Gemini理论物理测试创SOTA

14、TabPFN-3发布:表格模型速度精度双跃升

15、LaST-R1以隐空间推理刷新具身智能泛化上限

最新开源

1、800+真实AI系统案例库开源走红GitHub

2、本地大模型驱动的智能PDF问答助手开源

3、基于Python与Streamlit的智能简历分析开源工具

4、MoodTune:用Gemini驱动情绪音乐推荐体验

5、电商欺诈检测与交易分类机器学习项目开源


📰 最新资讯


01 · AntAngelMed开源医疗语言模型发布,三榜权威评测登顶

 🏷 行业动态

由浙江省卫生健康信息中心、蚂蚁健康与浙江省安诊儿医学人工智能科技有限公司联合研发的开源医疗语言模型AntAngelMed正式发布。该模型基于Ling-flash-2.0架构,采用MoE设计,总参数达100B但仅激活6.1B参数,性能约等同于40B密集模型,推理速度超过200 tokens/s。在权威医疗基准测评中,AntAngelMed表现突出:在OpenAI发布的HealthBench评测中超越...

详情链接:
https://developer.aliyun.com/article/1734271


02 · 何恺明团队ELF连续扩散模型以更少数据高效生成文本

 🏷 研究论文

何恺明团队发布连续扩散语言模型ELF,将文本生成全过程放在连续嵌入空间去噪,最后一步才解码为词元,显著简化训练与采样流程。该模型仅用105M参数、45B训练词元和32步采样,就实现高质量生成,展现出连续扩散路线在大模型时代的效率与潜力。

主要亮点:

  • • 全程连续嵌入去噪,最终一步统一解码
  • • 仅32步采样,实现更高生成效率
  • • 少数据小参数下仍取得优质文本表现

详情链接:
https://arxiv.org/pdf/2605.10938


03 · 具身智能产业拐点已至:政策资本技术三线共振

 🏷 行业动态

2026年具身智能进入爆发前夜:首次获政府工作报告定调,资本一季度融资超300亿元,技术路线从数字智能迈向物理交互。产业正由实验室快速走向工业、服务与消费市场,区域集群成形,万亿级新赛道加速开启。

主要亮点:

  • • 政府工作报告首提具身智能,产业地位显著提升
  • • 一季度融资210起超300亿元,头部估值迅速跃升
  • • 大脑小脑协同架构推动工业与消费场景落地

详情链接:
https://finance.sina.com.cn/jjxw/2026-05-05/doc-inhwwezc3952105.shtml


04 · Android迈向智能系统,苹果微信OpenAI动态齐发

 🏷 行业动态

Google宣布Android由传统操作系统升级为以Gemini为核心的智能系统,推动输入、语音与代操作能力全面进化;苹果酝酿iOS 27相机与系统应用重构;微信明确否认访客记录功能;Ilya披露仍持有OpenAI约70亿美元股权,折射AI产业竞争、平台生态与治理博弈同步升温。

主要亮点:

  • • Android转向智能系统,Gemini成为核心中枢
  • • iOS 27相机将大改,并加入视觉智能Siri模式
  • • Ilya披露持有OpenAI约70亿美元营利实体股权

详情链接:
https://finance.sina.com.cn/world/2026-05-13/doc-inhxsttz4827225.shtml?cre=tianyi&mod=pchp&loc=7&r=0&rfunc=17&tj=cxvertical_pc_hp&tr=12


05 · 微软发布百智能体安全系统刷新漏洞发现能力

 🏷 产品更新

微软推出面向安全攻防的新型多模型智能体系统,整合100多个专用智能体协同挖掘可利用漏洞,并在CyberGym安全基准中取得领先成绩。该系统已提前用于“补丁星期二”前的漏洞排查,协助修复16个漏洞,显示出AI在企业级安全自动化中的现实落地价值。

主要亮点:

  • • 整合超100个专用智能体协同发现安全漏洞
  • • 在CyberGym安全基准测试中取得领先表现
  • • 已协助修复16个漏洞并开放私有预览注册

详情链接:
https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/?v=1


06 · 谷歌Gemini深融Android开启跨应用自动化

 🏷 产品更新

谷歌发布Gemini Intelligence,将Gemini作为系统级能力深度嵌入Android,使其能理解上下文、跨应用执行多步骤任务,并在用户确认后完成关键操作。这不仅提升手机交互效率,也标志着AI助手正从问答工具迈向真正可执行的个人操作系统入口。

主要亮点:

  • • Gemini将率先登陆三星Galaxy与Pixel新机
  • • 支持跨应用完成购物、出行等多步骤任务
  • • Chrome版Gemini可总结网页并执行自动浏览

详情链接:
https://www.163.com/tech/article/KSPT252600097U7T.html


07 · Meta发布Muse Spark打通全线AI产品生态

 🏷 产品更新

Meta正式推出基础模型Muse Spark,并接入WhatsApp、Instagram、Facebook等全线产品,强化语音对话、实时视觉识别与购物推荐能力。该模型以紧凑高速、多模态感知和复杂推理见长,标志着Meta正加速把统一AI能力嵌入社交、内容与硬件生态,提升其平台竞争力。

主要亮点:

  • • Muse Spark驱动Meta AI覆盖社交与智能眼镜
  • • 支持自然语音打断、多语言切换和实时生成图像
  • • 融合视觉理解、购物推荐与现实场景即时辅助

详情链接:
https://www.testingcatalog.com/meta-unveils-muse-spark-ai-model-and-new-contemplating-mode/


08 · LibTV打通AI视频创作全流程并支持Agent自动编排

 🏷 产品更新

LibTV是LiblibAI推出的AI视频创作平台,以无限画布和节点工作流串联剧本、分镜、角色设定到成片剪辑全流程。平台既服务人工精控,也向龙虾等Agent开放自动调用能力,显著降低视频生产门槛,推动AI从辅助生成走向自主创作执行。

主要亮点:

  • • 无限画布节点编排,支持构建可复用创作模板
  • • 一键生成25宫格分镜、角色三视图与剧情推演
  • • 龙虾等Agent可自动搭建流程并一句话生成短片

09 · 推测解码现注意力漂移,新归一化将接受长度翻倍

 🏷 研究论文

研究首次揭示推测解码草稿模型中的“注意力漂移”现象:生成链加深时,注意力会从提示词转向自身新生成token,导致长上下文和模板扰动下性能下滑。团队通过后归一化与逐隐藏状态RMSNorm抑制残差幅度失控,使草稿接受长度显著提升,为大模型低成本高吞吐推理提供了更稳健的新方案。

主要亮点:

  • • 首次发现草稿模型存在注意力漂移现象
  • • 新归一化方案令模板扰动接受长度最高翻倍
  • • 长上下文、多轮对话与代码任务均获稳定增益

详情链接:
https://arxiv.org/abs/2605.09992


10 · Google首次发现AI用于零日攻击并成功拦截

 🏷 行业动态

Google披露首个已知利用AI发现并武器化零日漏洞的案例,并在攻击大规模展开前成功阻断。这表明AI已从辅助防御走向赋能进攻,显著提升漏洞挖掘、恶意代码伪装与攻击隐蔽性,也让全球网络安全攻防进入更复杂的新阶段。

主要亮点:

  • • 首现AI发现并武器化零日漏洞案例
  • • Google在攻击扩散前成功拦截威胁
  • • 多国背景攻击者用AI强化漏洞利用

详情链接:
https://the-decoder.com/google-says-it-stopped-a-mass-cyberattack-after-ai-was-used-to-discover-a-zero-day-exploit/


11 · Isomorphic Labs获21亿美元融资加速AI新药临床

 🏷 行业动态

由DeepMind联合创始人Demis Hassabis领衔的Isomorphic Labs完成21亿美元B轮融资,将重点升级AI药物研发平台IsoDDE,并推动候选药物进入临床试验。这不仅显示AI制药正从发现阶段迈向临床转化,也反映资本市场对医疗AI商业化前景的强烈看好。

主要亮点:

  • • 21亿美元B轮融资,规模显著刷新行业关注度
  • • 资金将用于扩展IsoDDE平台与研发效率提升
  • • AI制药从靶点发现进一步走向临床验证阶段

详情链接:
https://the-decoder.com/alphabets-isomorphic-labs-raises-2-1-billion-to-scale-ai-drug-discovery-toward-clinical-trials/


12 · 微软以色列高管离职牵出Azure涉军事AI争议

 🏷 行业动态

微软以色列分部高管因内部调查离职,事件焦点指向Azure云平台可能支持加沙军事行动中的大规模监控与AI目标选择。此事不仅暴露云计算与军事AI结合的敏感边界,也再度引发科技巨头在战争场景中的伦理责任与治理争议。

主要亮点:

  • • 内部调查指向微软以色列分部涉军合作
  • • Azure被曝可能支撑监控与AI目标选择
  • • 科技公司军事参与再掀伦理治理讨论

详情链接:
https://the-decoder.com/microsoft-ousts-its-israel-chief-following-reports-that-azure-quietly-powered-military-ai-targeting-in-gaza/


13 · physics-intern助Gemini理论物理测试创SOTA

 🏷 技术突破

physics-intern是一套面向理论物理难题的智能体框架,通过将研究级问题拆解并交由多个专职代理协作求解,显著增强大模型推理能力。在高难度CritPt基准上,它将Gemini 3.1 Pro准确率从17.7%提升到31.4%,刷新SOTA,凸显智能体在专业科研场景的落地潜力。

主要亮点:

  • • CritPt准确率由17.7%跃升至31.4%
  • • 多智能体协作拆解研究级理论物理问题
  • • 验证智能体框架在科研场景的实用价值

详情链接:
https://x.com/huggingface/status/2054229013065859342


14 · TabPFN-3发布:表格模型速度精度双跃升

 🏷 模型发布

TabPFN-3作为新一代表格基础模型,在无需训练和调参的前提下,实现了更大规模、更快推理和更强精度。它可在单张H100上处理百万行数据,并在TabArena中显著领先主流方法,推动表格AI在工业分析、时间序列与可解释建模中的落地。

主要亮点:

  • • 单张H100可高效处理100万行表格数据
  • • 推理较前代提升10至1000倍,SHAP加速120倍
  • • TabArena显著领先AutoGluon等方法超200 Elo

详情链接:
https://docs.priorlabs.ai/quickstart


15 · LaST-R1以隐空间推理刷新具身智能泛化上限

 🏷 技术突破

LaST-R1通过在隐空间先行模拟物理过程,把具身智能从海量模仿训练推进到物理理解驱动的新阶段。该模型仅用1条轨迹数据就在LIBERO取得99.9%成功率,真实机器人表现也大幅提升,展示出极强泛化与鲁棒性,为通用机器人落地打开新路径。

主要亮点:

  • • 隐空间物理推理让机器人先想后做
  • • 1条轨迹预热即达99.9%平均成功率
  • • 真实机器人成功率由52.5%升至93.75%

详情链接:
https://t.cj.sina.com.cn/articles/view/5976494120/1643a102800102occw?finpagefr=p_103


🔭 最新开源


01 · 800+真实AI系统案例库开源走红GitHub

 🏷 开源项目

GitHub Trending 项目“awesome-ml-llm-case-studies”汇集来自 Google、Meta、Netflix、Uber、Airbnb 等150多家公司的800多个机器学习与大模型系统设计案例,聚焦生产级AI实践而非理论,适合工程团队快速借鉴落地方案,也为行业观察前沿架构与应用趋势提供高价值样本。

主要亮点:

  • • 收录150多家公司真实ML与LLM案例
  • • 覆盖800多个生产级系统设计实践
  • • 强调可落地AI架构经验而非纸面理论

详情链接:
https://github.com/hackThacker/awesome-ml-llm-case-studies


02 · 本地大模型驱动的智能PDF问答助手开源

 🏷 开源项目

这是一个结合Streamlit、LangChain、FAISS与Ollama本地大模型的PDF问答开源项目,可围绕文档内容实现自然语言检索与回答。它展示了低门槛搭建私有化知识问答系统的路径,对企业文档智能化和本地AI应用落地具有参考价值。

主要亮点:

  • • 集成本地LLM实现私有化PDF问答
  • • 基于FAISS构建高效文档向量检索
  • • 采用Streamlit快速搭建交互式界面

详情链接:
https://github.com/atharvakanase01-gif/GenAI-PDF-QA-Assistant


03 · 基于Python与Streamlit的智能简历分析开源工具

 🏷 开源项目

这是一个开源的 AI 简历分析项目,基于 Python 与 Streamlit 构建,面向简历内容解析与智能评估场景。项目以轻量化应用形态降低了 AI 招聘工具的开发门槛,也为求职辅助、人岗匹配与招聘效率优化提供了直观参考,具备一定实践推广价值。

主要亮点:

  • • 使用 Python 和 Streamlit 快速搭建
  • • 聚焦简历解析与智能分析应用场景
  • • 以开源形式提供轻量化招聘辅助方案

详情链接:
https://github.com/atharvakanase01-gif/AI-Resume-Analyzer


04 · MoodTune:用Gemini驱动情绪音乐推荐体验

 🏷 开源项目

MoodTune_AI 是一款结合 Gemini AI、情绪识别与 Spotify 嵌入播放的开源音乐推荐 Web 应用,并以现代化 Streamlit 界面提升交互体验。它展示了生成式 AI 在个性化内容分发中的落地潜力,也为 AI+娱乐产品提供了轻量级原型参考。

主要亮点:

  • • 融合 Gemini AI 与情绪检测实现个性化荐歌
  • • 集成 Spotify 嵌入播放提升听歌闭环体验
  • • 基于 Streamlit 快速搭建现代化音乐应用

详情链接:
https://github.com/AldythNahak/MoodTune_AI


05 · 电商欺诈检测与交易分类机器学习项目开源

 🏷 开源项目

该项目面向电商金融交易场景,结合机器学习实现欺诈检测与基于欺诈特征的交易分类,展示了从风控识别到交易分析的完整思路。虽为课程项目,但贴近真实业务需求,对零售金融、电商平台和风控实践具有一定参考价值。

主要亮点:

  • • 聚焦电商金融交易中的欺诈识别与分类任务
  • • 采用机器学习方法构建实用型风控分析流程
  • • 以 Jupyter Notebook 形式开源便于学习复现

详情链接:
https://github.com/theMHD-120/FraudDetection-Classification-ECommerce-Project


以上内容由 AI 汇总,数据来源于网络公开平台。

ICML 2026字节OmniShow:文本/图像/音频/姿态四模态统一视频生成,工业级可控方案

字节跳动等机构联合推出OmniShow,首次实现文本、参考图、音频、姿态四模态统一的视频生成框架。支持人-物交互、音画同步、姿态驱动等全场景,提供工业级可控生成方案。模型开源在即,适合AI研究者、电商演示、数字人及短视频创作者使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

由字节跳动、港中文、港大、莫纳什大学联合推出的OmniShow,聚焦人 - 物交互视频生成(HOIVG),首次实现文本 + 参考图 + 音频 + 姿态四模态统一控制,一套模型搞定参考生视频、音画同步、姿态驱动等全场景任务,是业内唯一支持完整 RAP2V 范式的端到端框架,在自建基准 HOIVG-Bench 上全面登顶 SOTA,为电商演示、数字人、短视频创作提供工业级可控生成方案。

图片
图片

unsetunset相关链接unsetunset

  • 主页:https://correr-zhou.github.io/OmniShow
  • GitHub仓库:https://github.com/Correr-Zhou/OmniShow
  • 论文:https://arxiv.org/abs/2604.11804

unsetunset论文介绍unsetunset

图片

OmniShow 针对人 - 物交互视频生成(HOIVG)任务,首创统一多模态条件框架,解决传统模型无法同时兼容外观、语音、动作、语义的痛点。模型支持 R2V、RA2V、RP2V、RAP2V 四种生成范式,以单一架构实现四模态协同。核心突破包含统一通道式条件注入、门控局部上下文注意力、解耦后联合训练三大技术,兼顾可控性与画质。团队构建 HOIVG-Bench 评测基准,覆盖 135 组样本与多维度指标。实验显示,OmniShow 在音画同步、身份保留、物理合理性、运动连贯性全面领先,是首个实现全条件可控的 HOI 视频模型,代码即将开源,大幅降低高质量交互视频创作门槛。

unsetunset方法概述unsetunset

图片

OmniShow 采用端到端统一架构,以三大技术实现多模态精准对齐。统一通道式条件注入通过伪帧扩展与通道拼接,轻量注入参考图与姿态信息,保留预训练生成能力;门控局部上下文注意力将音频打包为局部上下文,用掩码注意力实现帧 - 段精准对齐,配合自适应门控稳定训练;解耦后联合训练先分别训练 R2V 与 A2V 专家模型,经权重插值融合后联合微调,高效利用异构数据。整体流程无需级联模型,在统一 DiT 架构下完成全模态条件编码与时序去噪,输出最长 10 秒连贯视频,同时保证人物身份一致、音画精准同步、物理交互自然。

unsetunset实验结果unsetunset

图片
图片
图片
图片
  • 基准:自建 HOIVG-Bench,含 135 组样本,覆盖外观、同步、姿态、物理合理性等指标。
  • R2V:视频质量、运动质量双第一,面部相似度与细节保留领先基线。
  • RA2V:音画同步得分 8.612,面部相似度 0.810,口型与肢体对齐精度行业顶尖。
  • RP2V:姿态误差 AKD 最低,PCK 精度更高,动作还原更精准。
  • RAP2V:业内唯一支持全条件生成,综合效果大幅优于级联方案。
  • 定性:身份稳定、音画精准、动作自然、物理交互合理,支持数字人播报、视频混编等场景。

unsetunset使用教程unsetunset



# 1. 克隆仓库
git clone https://github.com/Correr-Zhou/OmniShow.git

# 2. 安装依赖
cd OmniShow
pip install -r requirements.txt

# 3. 下载预训练模型
python scripts/download_models.py --model omnishow-base

# 4. 文档转演示
python doc_to_show.py --input report.docx --output presentation.pptx

# 5. 数据转可视化演示
python data_to_show.py --input sales.csv --output dashboard.pptx

# 6. 自定义模板配置(可选)
python customize_style.py --theme corporate --color blue --font sans-serif

unsetunset结论unsetunset

OmniShow 首次实现四模态统一人 - 物交互视频生成,建立 HOIVG 领域新范式与评测标准,兼具学术创新性与工业实用性。模型以简洁架构实现极致可控与高质量输出,可直接落地电商、短视频、数字人等场景。未来将优化长视频生成、动态物体交互与实时推理速度,拓展多角色协同与复杂场景生成,推动 AI 视频从 “随机生成” 迈向 “精准可控” 的工业化时代。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

AI日报:800+真实AI案例库开源,本地PDF问答助手与电商欺诈检测

本期AI日报整理2026年5月13日最新AI动态,重点推荐三个GitHub开源项目:收录Google、Meta等150+公司800+生产级AI案例库;基于Streamlit+LangChain+Ollama的本地大模型驱动PDF智能问答助手;面向电商金融交易的机器学习欺诈检测与交...