这量也太大了。。。
今年I/O大会的明星之一,让Google提前两周放出优化版,我当时就写过一篇评测文章:用AI把一段视频变成可视化网页,Google的新模型又卷飞了。绝对的亲儿子。
如果说2.5 Pro是全能冠军,那2.5 Flash就是速度型选手。
谷歌把这玩意称为"最高效的劳模模型"。
Gemini 2.5 Pro本身就已经够厉害了,现在Google又给它加了个超强模式,Deep Think。
在超难的数学和编程基准测试中表现惊人。
这玩意其实大家对OpenAI很熟的话其实完全能找到对应的,就是那个至今依然是我主力模型的o1 pro,用将近几分钟的推理时长,来换取更高的质量。
o3 pro没发,结果Gemini 2.5 Pro Deep Think先发了,不过这两个哥们都是期货。
Google也还在搞安全评估,只会先给信任的测试者用。
谷歌还秀出了一项前沿研究,一个实验性的文本扩散大模型。
不是传统的通过预测下一个Token来生成内容,而是通过逐步细化噪声来并行生成内容。
今年他们展示了整合多模态交互的新功能Gemini Live。
基本源自去年的研究Project Astra,它探索的是能理解你周围世界的通用 AI 助手。
比如它知道,你物理考试快到了,它不仅提醒你,还能根据你的笔记、教授的材料,甚至手写笔记给你出个性化考题。
针对C端用户,谷歌在Gemini应用中引入了全新的Agent Mode(代理模式)。
这是一个让普通用户也能支使 AI 去网上替自己办事的功能。
举个例子,你和室友想找房子,预算、需求一大堆,按以往你得刷无数网页,现在只需把这些要求一股脑告诉 Agent Mode。
然后你就可以解放双手,让Gemini在背后替你上网找房源,它会自动跑去 Zillow等房产网站搜索符合条件的房子,并调用Mariner帮你针对特定条件筛选。
当发现心仪房源时,它还能用自动表单提交帮你预约看房。更牛逼的是,这个智能代理会持续替你刷更新的房源,一直忙活到你喊它停为止。
不过,目前,Gemini应用中的Agent Mode仍在实验阶段,谷歌说很快向订阅用户推出实验版,又是一个饼。
Flow是这次Google憋出来的一个大招,一个全新的AI电影制作工具,直接把Veo、Imagen和Gemini的能力全揉进去了。
感觉,就是直接对标Sora。
比如你就可以点个点个"+"号,直接描述"在后座加一只10英尺高的鸡",Flow也能给你整出来,而且角色、场景风格还能保持一致。
谷歌去年推出的Veo 2曾让业界惊叹不已,在文生视频这块真实感确实强到离谱。这一次,他们乘胜追击发布了新一代的Veo 3。
它在画质和逼真度上更上一层楼,尤其对物理的理解更深厚了,比如重力、光照、材质这些现实规律。
然而Veo 3 最大的突破在于它首次加入了原生音频生成。
也就是说,你让它生成的视频里不光有画面,还有背景音效、环境声甚至角色对话同步出现。
"让 AI 画两个森林里的动物聊天"这曾是天方夜谭,但现在 Veo 3 真能做到。
还有船长的表演和说话,自然的跟真人一样。
而且,好消息是,Veo 3在发布当天即开放使用,直接上线了上面的Flow平台。
坏消息是,只有氪了125刀的Ultra会员才能用。。。
而且这玩意血贵,一条视频150点数,Ultra会员一个月也才12500好像,我随便跑了下,就只剩9000了。
给大家看看我实测的几个效果,没太深入的测,都是随手跑的。
首先,确实能说话能表演有音效了,这个是真的牛逼。
Prompt:A wide shot, post-apocalyptic setting: Dim industrial floodlights cast harsh shadows over a dusty underground hangar. A battle-scarred rebel commander stands atop a metal crate, addressing a crowd of grim-faced survivors. Commander: "This isn't just about survival anymore. Tonight, we take back Sector 9!"
物理规律史诗级进步,能落地能转能跑起来了,甚至,还能投篮了。
Prompt:The robot in the high air lands, smashing stones and tumbling, quickly gets up to adjust its posture, locks onto the target, then bursts into accelerated running. The camera follows the action with rotation and sliding, the rhythm of movement is fast, the landing and rolling are smooth without cuts. The scene is a nighttime city alley, with neon lights reflecting off the metal body.
Prompt:The girl jumps and shoots the basketball; the camera follows the ball as it flies from her hand, spinning into the net after soaring over the defender. The ball falls into the hoop's net and slowly bounces back. The audience erupts, cheering loudly. The camera finally zooms in on a close-up of the girl landing with a smile, evoking a passionate and inspiring mood.
Imagen 4 是他们最新一代的文本生成图像模型。
这代模型他们说画质有质的飞跃,颜色更丰富、细节更精致,连光影质感和水滴等微小元素都栩栩如生。
谷歌搜索去年引入的 AI 概览(AI Overviews)功能在今年 I/O 上交出了一份很牛逼的成绩单。
每月已有超过15亿用户在消费搜索生成的AI摘要。
AI Overviews会在你搜索时于结果顶部产出一个由Gemini模型生成的简述,还附带信息来源引用。
经过一年的打磨,这些AI概览的质量和相关性不断提高,而且随着最新Gemini 2.5系列模型的应用,生成结果准确性更高、覆盖面更广,并支持更复杂的问题了。
目前 AI 概览功能已经在包括美国、印度在内的40多个国家/地区上线,并支持多语种查询。
Google还放了一个数据,就是自从有了AI概览,用户在搜索上的投入度也有所提升,每日搜索量出现了额外两位数百分比的增长。
这个增长量,和Google这个体量,还是很恐怖的。
如果说AI概览还只是小试牛刀,那今天谷歌端上来的主菜,AI Mode,就是对搜索体验的全面重构。
Sundar Pichai 在台上宣布,谷歌正在推出一种端到端的AI搜索体验。
启用AI Mode后,你可以提出更长更复杂的问题,甚至不像以往那样非得精简成关键词。
Google,这个全世界最牛逼的搜索巨头,终于也全面拥抱AI搜索了。
大会现场直接宣布,AI Mode当天起作为实验新功能,向美国所有用户开放。
可以说,AI Mode是谷歌对搜索范式的一次重塑,他们也终于,从"搜索结果列表"转向"对话式报告"了。
有几个小的点。
个性化搜索结果: AI Mode能根据你过去的搜索记录,甚至接入Gmail信息(当然,你得同意),给出更贴心的建议。比如你搜旅游攻略,它知道你喜欢户外,还会结合你邮件里的航班酒店信息,推荐行程。
Deep Search(深度研究): 对于需要深入研究的问题,AI Mode能同时发出几十甚至上百个搜索请求,然后把信息汇总成一份专家级的、带引用的报告,一个小型的DeepReaserch。
复杂数据分析与可视化: 问棒球运动员的数据,AI Mode不仅能列表格,还能直接生成图表给你看。 然后大概在今年夏天,会上线更详细的体育和金融问题的分析。
AI帮你办事儿: 整合了Project Mariner的能力,AI Mode能帮你搞定一些实际操作。比如你想买球赛门票,告诉它你的要求,它能帮你搜遍各大网站,比较价格和座位,最后直接把你引到付款页面。以后订餐厅、预约服务也能用。
AI购物更爽:找地毯?AI Mode能根据你的描述(比如家里有四个熊孩子),推荐耐用、易清洗的款式,还会给出购买链接和注意事项。最绝的是虚拟试衣功能,上传你的照片,就能看衣服上身效果,背后是专门为时尚训练的图像生成模型。
今年绝对是Agent大年。
Agent技术方面,谷歌发了Project Mariner。
这个研究项目可以看作是 AI 驱动的自动化浏览器助手,就是那种一个能在网络上代替你执行操作的Agent。
去年12月作为早期原型推出以来,Mariner 进步神速,现在它已经学会了多任务处理,能同时监督多达10项任务并行执行。
Mariner已开始通过Gemini API向开发者提供其用电脑的能力。
它可以连接 GitHub,自动拉取和提交代码等等。
不过必须接Github才能用,对我这种开发小白还是非常的不友好。。
这次在 I/O 大会上谷歌宣布将其正式推出独立应用,并登陆Android 和 iOS 平台。现在,无论是在手机还是网页上,你都可以随时随地调用 NotebookLM 来整理笔记和知识。
轻便、适合全天佩戴,内置摄像头、麦克风、扬声器,甚至可选的镜内显示屏。
现场演示了戴着眼镜,Gemini就能识别你看到的东西(比如墙上的乐队照片),回答你的问题,播放音乐,导航,甚至识别之前喝过的咖啡品牌并找到咖啡店。
还有实时翻译功能,两人用不同母语交流,眼镜能实时显示翻译字幕。
一上来就演示就直接炸场了。
还搞了联名,Gentle Monster和Warby Parker是首批合作伙伴,Google这么多年还是爱眼镜的啊。
今年晚些时候,惠普将推出首批Google Beam设备。
这项技术能让不同语言的人进行自然流畅的对话,翻译能匹配说话者的语气、语速甚至表情。 现在已经可以直接在Google Meet里用上了,目前支持英语和西班牙语,更多语言和企业版会陆续推出。
第七代TPU,专门为AI的思考和推理大规模应用而设计,性能比上一代提升10倍。今年晚些时候会上线Google Cloud。
为了应对AI生成内容难以辨别的问题,Google升级了SynthID,新的SynthID Detector能检测图片、音频、文本或视频中是否包含SynthID标记,哪怕只是一小部分。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、刘扬
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论