2026年5月14日星期四

北京百度Create2026大会:秒哒App手机生成APP安装包,无需编程

百度Create2026大会发布秒哒App,用户通过手机对话即可生成APP安装包、网页或小程序,无需了解服务器、API或打包流程。适合无技术背景的普通人和创意者,如8岁小孩用其制作拼伞小程序。注意生成前需仔细确认需求文档。目前安卓版已上线,iOS即将推出。

Tags:

今天一早,我去了北京国家会议中心,参加百度Create 2026 AI开发者大会-超级个体主论坛

图片

主要是受百度秒哒邀请,作为分享嘉宾之一上去聊了一下,分享了一点自己对AI时代一些创作和vibe coding的看法。

坦率地讲,我对于百度的产品一直都比较谨慎的。

但是这次接受秒哒邀请,是我真的觉得这个产品确实是百度一个还不错的东西。

可能很多人还不知道秒哒是个啥,这玩意大概就是一个能帮你开发产品的Agent产品。

这里并不是说秒哒就能跟原生的Claude Code和Codex这种超级Agent产品开发出来的质量是一个级别了,坦诚的讲还有一些差距,我在大会的分享上也说了,主要是对很多的普通人来说,秒哒的优点是,全链路适配,对国内生态友好,适合绝大多数的普通人上手。

这次大会上,甚至还上线了APP版,你现在不仅可以在手机上搓网页、小程序了,甚至,你可以在手机上搓APP。。。

对,直接搓一个可以在手机上安装的安装包出来。

图片

而且,这些东西,也都集成了后端和数据库,都不需要你操心。

这个是我觉得最大的一个优点。

要知道,在一个人人皆可vibe coding的年代,要开发一个APP,要做别人也能用上的产品,对绝大多数小白来说,其实并不简简单单是写代码了。

就像这样的帖子,应该很多朋友刷到过。

图片

我今天上台分享的时候,也聊到了这一块。

图片

你想做一个真正的产品给别人用,并不只是需要写代码。

你得有服务器给你跑着服务。同时还涉及到很多操作。

像我自己公司自己为了能让大家把自己搓的产品都部署到线上给所有人一起用,所以去火山租了服务器,然后做了系统隔离等等,封装成了一个skill,才能让大家稍微低成本的去解决一些服务器部署之类的大家比较难以理解的事。

图片

因为你要让普通人理解服务器、后端、API啥的概念,还是有点太难了。

那如果是做App的话,就还有像打包成APK、签名,上架这些流程要做。

这些对很多普通用户来说,其实会遇到不少问题,甚至极其劝退。

而你用秒哒,其实只要准确的描述出你的需求,跟它对话,什么服务器,什么前端后端数据库,什么API,你都不用管,交给AI就行,

最后你直接到手一个App安装包,App体验链接和二维码,直接安装开始用就行。

这也是为什么,虽然秒哒跟Claude Code这种顶级产品在开发质量上相比还是有一些差距,但我依然觉得它还是足够有价值的原因。

我也随手做了一个小东西给大家演示下,今天早上演讲的的时候,我展示是之前用网页版秒哒搓的,这个是我抽空用手机搓的App。

我之前分享过自己写日记的习惯,这次百度开发者大会上我也分享了我们公司小伙伴的idea,做一个记日记的网站。

但网站其实没有手机上点个APP记日记方便,所以我也拿秒哒App简单搓了一个APP。

图片

功能很简单。

每天对着APP记点日记,把今天的事儿讲一下。

除了能记日记之外,还有一个很有意思的点,就是APP会自己根据你讲的这些,每天晚上12点,这一天结束的时候,根据你今天的日记,自动给你生成一张四宫格的小漫画,来描述你这一天做了什么。

所以很多时候,我也把它称为,暖心日记,也让那天的回忆更加具象化。

要是想分享给谁看的话,也更简单直观。

这里隐私起见,我就瞎编了一个日记给大家看看效果。

文字框里就是我写的日记,下面,就是12点的时候生成的小漫画。

图片

说实话这个App我也没怎么搓,就跟它对话了几轮。

这里简单给大家看看开发的整个过程。

打开秒哒App,在创作栏,先点一下App,然后简单提了我的需求。

图片

那这里的流程,也很常规了。它会先给我生成一份需求文档。里面包括了应用概述,用户与使用场景,页面结构与功能说明,业务规则与逻辑,异常与边界情况,验收标准等等等等。

图片

这块的需求文档,建议大家还是详细确认一下,不管是秒哒,还是Claude Code或者Codex,千万别不看需求文档,就直接点创作了,这块是基石,一定要确认好。

确认好了以后,点击立即创作,它就会直接开始生成App了。

然后如果有什么想让它加,或者让它改的,后面直接跟它聊就行了。

我和它简单对话了几轮。

图片

没啥大毛病,我提的需求都实现了。

前面这部分就是正常的写代码,没啥特别的。

我自己最有用的是它能直接打包App,发布这一块。

图片

点页面右上角的三个点。

图片

就可以打包导出应用安装包了。

图片

这里还可以选发布。

发布成功后你就可以复制链接,或者发二维码让别人体验了。

秒哒也提供了应用广场,去帮你开发的应用推曝光。在发布页面点上架就行了。

图片

总之,整个过程跑完,你会发现从想法,到开发出一个可用的App,就这么简单。

我也把这个日记本App安装到我自己的一个手机上了。

之前我基本都是coding的网页,第一次在手机上看到自己做的APP图标,点开它启动的那个感觉,还是挺奇妙的。

图片

整个过程就是究极简单和方便,一个手机对话就完事了。

说实话,非常的简单方便,我甚至感觉可以给我妈装一个,她指不定能搓出个什么花来。。。

想要自己上手试一试的朋友,安卓机可以直接去应用商店搜秒哒App,iOS也快上了。

图片

网页端的地址我也放在这里:

https://www.miaoda.cn/

我有时候觉得,AI这一波最被低估的事情之一,就是它对普通人创造力的解锁。

AI行业里,确实很多很多极客们,玩各种AI产品玩的非常非常的开心,但是把镜头拉远一点,其实本来就在玩各种agent的人只是少数,更多的可能是那些本来可能没机会,像我一样没有什么技术背景,但是有想法,想去做一个产品的普通用户。

这张图,真的可以放很多很多遍。

图片

过去他们的产品想象力,只能停在脑子里。

那现在有了各种各样vibe coding的工具,哪怕他不是Claude Code那种可以帮你干出九十多分那种牛逼的东西。

但它可以在你真的就是一点开发都不懂的前提下,帮你做出一个70分的还不错的东西。

而这样的70分,其实就是从0到1。

大会第一天其实就有一个具体的例子。

一个8岁的小朋友上台,二年级,名字叫扑满。

这小朋友在班里搞了个哒哒打伞。放学下雨没带伞的同学就在走廊上喊一声,带伞的就来跟他拼伞一起出校门。但只在一个班里玩有个问题,隔壁班听不见。他就想,要是有一个全校都能用的哒哒打伞工具就好了。

然后他就用秒哒一句句对话,就把这个可用的小程序搓了出来。

图片

他原话是这么说的。

AI就像哆啦A梦,我只要对着它说出我想要的,它就能从口袋里掏出来,甚至比我想要的还要神奇。

一个8岁的小孩,已经在用对话搓自己的小程序了。

AI时代,创意,第一次直接拥有了生产力。

这句话其实不光是给秒哒的,也是给这一整波AI浪潮的一个相当好的注脚。

对我这种用顺手了Claude Code的人,坦诚的讲,秒哒可能不是我的菜, 但对很多很多可能对技术没有那么了解,对那些脑子里一直有想法、却从来没机会动手的人。

够了。

就像我在大会上分享的。

人类每一次创造工具的迭代,路径其实都挺像的。

最早只有僧侣才能抄经,后来有了印刷术,谁都能印册子。

最早只有摄影师在棚里端着设备拍片,后来有了数码相机和手机,谁都能开始拍摄。

最早发表观点是媒体的特权,后来互联网一来,人人都可以开始表达观点。

每一次门槛往下塌一点,就会有一大批本来在场外的人,涌进来。

这一次,轮到了App、轮到了产品。

每个人,都可以在手机上搓出自己想要的App。

做一个产品,可能会像慢慢变的,像发朋友圈一样自然。

至少在今天,对扑满,对我,对每一个明天会拿起手机第一次尝试搓出点什么东西的人来说。

创造,从未如此自由。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、tashi

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

字节跳动视觉生成模型GRN:边画边改,超越扩散与自回归

字节商业化技术团队提出视觉生成第三种路线GRN(生成精炼网络),让AI像人类一样边画边改、知错就改。相比扩散模型,GRN实现复杂度感知采样,简单少画复杂多画;相比自回归模型,解决误差累积和量化损失。支持文生图、文生视频,2B参数模型在VBench超越CogVideoX和Wan2.1。HuggingFace提供在线体验,适合AI开发者与研究者。

Tags:

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

ber!这个五一假期,我也是真够忙的:

自拍、电影、追剧、街头采访、听音乐会,还抽空回老家结了次婚……

(咳咳)不卖关子了,其实以上这些,通通都是AI生成。

但u1s1,就这逼真的眼神和动作,也太对味了!

它们都出自字节商业化技术团队研发的新一代视觉生成模型,更妙的是——

它的底层架构,不是主流的扩散模型,也并非近来大火的自回归模型,而是全新的第三条路

图片

这篇研究论文,提出了另一种AI视觉生成构想:

让AI像人类一样画画,不仅可以边画边改,还能复杂多画、简单少画。也就是生成精炼网络GRN(Generative Refinement Networks)

简单来说,如果把AI视觉生成比作在白纸上作画,那么现有的扩散和自回归模型各有各的优缺点。

先说扩散模型,作为目前最常用的视觉生成架构,还是有两把刷子的,其所生成的视频几乎能够以假乱真。

但实则它的绘画过程还像个笨拙的学生,无论是画简单的一颗苹果,还是复杂的巴洛克壁画,都必须老老实实一笔一笔画,所以即使是复杂度天差地别的画作,也要花费相同的时间步数。

自回归模型这边,虽然天生具备画面复杂度感知,但由于需要先将颜色离散化,画作始终缺乏高频细节。

它还粗心大意没有橡皮,前面一笔画错了,不仅不改,还会“自由发挥”越画越离谱。

GRN则从根本上解决了这些问题,知错就改,可以在画的过程中就不断修改细化,直到满意为止。

图片

比如下面这些风格多样的头像,都是生成精炼网络所画。

图片

再比如这些,all by GRN。

图片

类别生图、文生图、文生视频、图生视频,GRN样样手拿把掐。

毕竟懂的都懂,“允许犯错、及时纠正”,这套一以贯之的思路真的很字节范儿~(doge)

实测架构性能

说一千道一万,咱再来仔细实测看看。

目前GRN T2I模型直接在HuggingFace就能体验(https://huggingface.co/spaces/hanjian/GRN)

可以自行调整参数,比如提示词相关性、创意发散程度等。

图片

先来生成一张80年代家庭照片。

一张80年代生日派对上拍摄的全家福。一个小男孩吹灭奶油蛋糕上的蜡烛,家人围绕在他身边鼓掌。

图片

很有CCD老照片那味儿了~

再上难度,让GRN尝试生成一张漫画:

Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
两名男子身着深色西装、系红色领带、头戴黑色礼帽。二人均佩戴墨镜,手持左轮手枪,枪口直指观者。两人神情冷峻,着装与气场透着威严感与威慑感…

图片

一眼望去,配色大胆、风格鲜明,角色与构图也搭配和谐。

文生视频这边,作者开源了2B模型,同时提供了一个Discord网站Demo,大家登录Discord之后,点击下面这个链接就可以体验:http://opensource.bytedance.com/discord/invite。

在左侧导航栏,可以找到GRN-T2V 2B模型,然后在聊天框输入/generate_video [提示词]即可。

图片

先来一个单人简单场景的测试:

A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
一名身穿橙色上衣、戴着眼镜的男子站在红砖墙前,手持并展示一个深灰色的圆柱形物体。

人物皮肤、面部细节和动作流畅度都不像是只有2B参数的模型~

再看看一个多人舞蹈、镜头快速推进的例子,也没有出现画面畸形的情况。

A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
一场直播画面中,一支韩国流行偶像团体在绚丽的舞台灯光下登台表演,舞步灵动富有张力,演唱着一首偏爱夜间相约主题的歌曲。

另外,各种复杂的人物动作和镜头调度,也都能一步到位,还原得相当丝滑。

妥妥成片级表现,直接给到夯!

这就引出了新的问题——

为什么团队要执意跳出舒适区,探索一套全新的生成范式呢?

AI视觉生成的第三条路

这就源自团队对现有主流技术路线的洞察——

  • 扩散模型:虽然生成质量高,但不够智能。它对所有样本,无论复杂与否,都分配相同的迭代步数,缺乏自适应能力。
  • 自回归模型:通过似然估计,天然具有复杂度感知能力。但一方面,受限于离散token化,存在严重的信息损失。另一方面,存在误差累计和误差传播的问题,早期错误无法修正,于是越错越离谱。

而GRN则是对二者的扬长补短,同时兼顾全局精调和内容复杂度感知。

其核心架构包括三个部分:

1、层次二叉树量化(HBQ)

首先针对自回归模型的离散损失,HBQ采用近乎无损的离散编码,能够避免在压缩过程中丢失信息,同时实现图像与视频的统一建模。

图片

具体来说,它将VAE编码后的连续特征映射到[-1, +1]区间,然后通过二叉树结构进行多轮二进制量化。

这样重建误差就会随着量化轮数增加逐渐被分配到更精细的量化区间,量化误差随着轮数指数级衰减,理论上可以实现完全无损的量化。

最终将获得M个二进制标签,分别代表从粗到细的信息层次。

其中,GRN包含两种预测目标,GRN_ind是将通道维度的M位二进制合并成一个整数标签进行预测,更适合简单量化轮数少的情况;GRN_bit则是直接逐位预测二进制值,更适合量化轮次高、模型大、任务复杂的情况,比如视频生成。

另外,二者均采用多token并行预测,以提升生成速度。

2、全局精炼网络(GRN)

至于解决误差积累问题,GRN引入了全局精调过程,模拟人类绘画过程,从随机token图开始,逐轮开始修改迭代。

图片

首先每一步的生成状态都由两部分组成:

  • 当前已经生成的内容,也就是已画好的部分([F] token)
  • 随机token,模拟空白画布 ([R] token])

然后Transformer就会基于当前状态,预测一个更优的token图。

这个过程中,GRN需要自己从当前输入判断哪些是画好的[F] token,哪些是随机的[R] token,然后对所有token都输出一个refine后的结果。

当然,如果GRN判断是画好的[F] token,倾向于复制输出。对于[R] token,需要根据全局上下文的token推断应该画上什么。

更新策略:模型从100%的随机[R] token出发,每迭代一步,就从前一轮的生成结果中随机选取 比例的token填充上去作为[F] token,其余 比率的token仍然保留为随机[R] token。

随着迭代的进行, 从0%逐渐增长到100%,最终完成画作。

咳咳咳,敲重点!

在每步更新时, 比例的[F] token都是随机选的,也就是说,之前填上的[F] token并不是万事大吉了,后面的迭代中不一定被选中,研究人员把它叫做“token擦除

另外,就算某些token被多次选中,随着模型看到的信息越来越多,这些token也不会一成不变,而是会被模型更优的预测结果代替,研究人员把这种机制叫做“token精调”

通过这个全局refine的更新机制,确定的token不断增多,不确定的token反复改写,就像一个画家一样,真正做到了边画边改,生成效果也越来越好,彻底解决了自回归模型错误累计、错误传播的老大难问题!

3、复杂度感知采样

为了避免扩散模型一刀切的计算分配方式,GRN采用熵来衡量画面复杂度。

计算每一步预测的平均熵,熵低意味着样本简单,可以分配较少的推理步数,熵高则意味着样本复杂,需要分配更多的精炼步数。

应用复杂度感知采样后,在对步数最敏感、参数量最小的130M模型上,推理步数能够从总共50步变成了20~40步,平均24步,而gFID仅仅从3.56略微上升到3.79(gFID数值越小越好),真正做到了简单少画、复杂多画!

并且,简单的样本20步就能搞定,复杂的样本GRN也只分配了40步。

基于此,实验结果显示,GRN在多项基准测试中均刷新了SOTA记录。

首先在ImageNet 256×256的图像重建上,HBQ达到了0.56 rFID,远超SD-VAE (0.87)、RAE (0.62)、VAR0.85)、Open-MAGVIT2(1.17)

在视频重建时,8轮HBQ效果与连续VAE基线标准相当,说明HBQ无需增加隐层通道数,就能在更高的压缩率下逼近连续编码质量。

而将隐层通道从16提升至64,PSNR就会从30.40跃升至33.97,性能媲美当前最优的Wan 2.1,但比特数减少了4倍

图片

在类别-图像生成(C2I)任务中,GRN‑G(2B)的FID值为1.81,IS值为299.0,超越了DiT‑XL/2、SiT‑XL/2、VAR‑d30、LlamaGen‑XXL、JiT-G主流生成模型。

另外,相比于MaskGIT(227M),GRN‑B(130M)参数量仅为前者的一半,但性能实现反超,FID从6.18降至3.56。

这也就意味着,GRN的全局精调不仅彻底解决了AR误差积累问题,生成质量同时还超越主流扩散模型。

图片

在文生图(T2I)任务中,GRN_bit 2B在GenEval上得分0.76,超过同为2B参数的SD3 Medium、Infinity,因为2B的参数量限制,落后于其他6B~20B等大模型,不过研究人员表示,GRN这种类似语言模型的离散token建模,有很好的scaling特性,他们会在未来推出更大的模型。

图片

在文生视频(T2V)任务中,2B参数的GRN最高可支持480p2~10秒高保真视频生成,在VBench测试中,超越5B的CogVideoX、14B的Wan 2.1等模型,以及所有同规模的AR和扩散模型

图片

另外,消融实验也证明了全局精调、复杂度感知模块在GRN中的关键作用。

总的来说,在同等参数量下,GRN已经实现了比扩散模型与传统自回归模型更聪明的生成

它证明,在扩散和自回归这两条既定路径之外,视觉生成还有新的可能。GRN同时解决了量化损失、误差累计、复杂度感知生成的三个问题,在AR和Diffusion中间架起了一座桥梁。

如果再脑洞大开一下,现在的dLLM或许也可以借鉴GRN的思路。

dLLM也是一次性生成,一旦早期token出错,后面就只能将错就错,如果像GRN一样,引入全局精调,也许模型在生成文本后,还有机会推翻之前写的内容。

这也不失为一个好的破局之道。

此外,GRN证明了纯血离散token是能够做好图像和视频生成的。从长远来看,能够更好地统一图像、视频、文本token,显著提升模型的多模态理解与生成能力。

相比自回归模型,GRN重建上限更高,对抗误差累计能力更强;相比扩散模型,GRN能更聪明地分配计算步数。GRN用优雅的设计解决了一直以来困扰自回归和扩散模型的难题。

论文链接:https://arxiv.org/abs/2604.13030
代码链接:https://github.com/MGenAI/GRN
HuggingFace链接:https://huggingface.co/spaces/hanjian/GRN
项目主页:https://mgenai.github.io/GRN/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

北京百度Create2026大会:秒哒App手机生成APP安装包,无需编程

百度Create2026大会发布秒哒App,用户通过手机对话即可生成APP安装包、网页或小程序,无需了解服务器、API或打包流程。适合无技术背景的普通人和创意者,如8岁小孩用其制作拼伞小程序。注意生成前需仔细确认需求文档。目前安卓版已上线,iOS即将推出。 Tags: ...