2026年4月13日星期一

AI大会后感悟:AI越强大,线下真实体验越重要

本文作者在花费数百万元举办AI大会后,分享了6点深刻感悟。核心观点是AI虽消灭信息差但无法替代真实体验。文章适合关注AI趋势、个人成长及线下活动价值的读者。核心亮点包括:品味需亲身经历、人脑参数源于丰富性、线下偶遇的不可替代性。作者强调,在AI时代,主动参与线下活动是缓解焦虑、积累独特竞争力的关键。

Tags:

AIFUT结束了。

两天,四场,1500多人,几十位嘉宾,从早上9点到下午6点,线上观众有将近200万,展区还是有几千人前来体验。

然后就这么过完了,结束的晚上,我跟伙伴们在聚餐,办庆功宴,大家真的是累并自豪着。

虽然亏了不少钱,但是大家都还是觉得,这事是非常有价值的。

三个月筹备,最后几天几乎所有人都没怎么睡,嗓子也都哑了,腿也站废了,整个人像被抽空了一样。

回到家,其实已经凌晨12点多了,躺在床上,但是有一种想法,总是还是想表达出来,不写出来,我真的有点睡不着。

那就是一句话或者一个观点:

AI越强大,线下的真实,越重要。

这两天,真正让我最震撼的,其实不是任何一个AI技术或者是AI产品。

是我在散场以后,遇到的一个一个的观众。

他们有人是有人是从广州飞来的,最早的飞机,当天晚上就要走,还有武汉的、太原的、上海的、香港的、重庆的、南京的等等等等。

图片

这几千人,选择了在这两天,从各个城市赶到北京亦庄,在这个场域里面,待两天的时间。

他们明明可以等我们发公众号总结的,或者直接看线上直播,信息量上差不太多,甚至体验还更好,但他们还是来了。

这件事让我比三年前、比三个月前更加确定了一个判断。

AI越强大,线下越重要。

现在是凌晨3点17,脑子现在可能有点混乱,但是我还是想表达出来,也尽可能的说清楚。


一. AI消灭了信息差,但消灭不了体验差
其实过去很多年,人们去参加一场行业活动,最核心的动力是信息差。
因为台上的人知道一些你不知道的事,你花钱买票进场,就是为了获取这些信息。

但因为AI,所以现在这个逻辑不太成立了。

任何一场大会的内容,两三个小时之内就会被人整理成文字稿、拆解成短视频、被DeepResearch总结成一份报告。

你坐在家里,可能比坐在第一排的人获取信息还快。

我自己其实问过很多次我自己这个问题。

那我去现场的意义还是什么呢?

后来我觉得,因为信息和体验是两回事。

李继刚在台上说了一句让我印象特别深的话,人身上不可压缩的,是体验。

图片

是你跟世界的摩擦。

AI像一个巨大的压缩器,把我们和世界之间的摩擦全都压缩掉了。你不用亲自读一本书,AI给你总结。你不用亲自去调研,AI帮你跑数据。你不用亲自写代码,Claude Code帮你实现。

效率是高了,结果也拿到了。

但是你没有亲自下水。

我们的开场秀叫「泥与电的咏叹调」,川子的唢呐和虚拟歌手yuri还有机器人机器狗同台。

坦率的讲,你看视频也能看到这个画面。但当那个唢呐声在现场响起来的时候,一千多个人同时安静下来,那种现场的体验,我觉得这个是视频给不了你的。

AI可以压缩信息,但压缩不了体验。

信息差的时代正在过去,体验差的时代正在到来。

我现在可能更觉得,谁拥有更多的真实体验,谁在这个时代就拥有更大的优势。


二. 品味是活出来的
这次大会上,有好几位嘉宾不约而同提到了同一个词,品味。
并且,也改变了我自己的一些对于品味的理解和看法。

特效小哥008说,品味是这个时代真正的硬通货。AI只会从旧数据里找规律,用最美的滤镜和运镜做出标准精美的画面,但观众早就看腻了。品味这个东西迭代不出来,资本也买不来,培训课也教不会。

赵汗青说,宫崎骏的画风可以被一秒复制,但宫崎骏的审美不会因此被复制,因为那背后是音乐、叙事节奏、对环保和反战的思考,这些整体才构成审美。

图片
我以前一直觉得,品味肯定不是你看了多少好东西就能长出来的。
如果看就能解决问题,那每天刷小红书的人应该都是审美大师。
品味是刻意去练习出来的。
但,这次之后,我的答案,可能会有一点不一样了。

品味是你亲身经历了足够多的东西之后,从里面长出来的一种直觉。

你去过那个城市,在那条街上走过,闻过那个味道,跟那个人聊过天,你才知道什么是对的、什么是好的。这些东西不可能在屏幕上获得。

王智在聊AI能不能取代演员的时候说了一句话让我特别认同,先要好好生活,好好感知自己想要传达的东西,当你活得足够通透的时候,你一定会做出好的作品。

图片

AI时代大家都在焦虑怎么学AI、怎么用AI、怎么跟上AI。

但可能最被忽略的一件事是,你得先活得足够丰富,才有东西可以给AI。

品味这东西,是活出来的。

三. AI时代最大的竞争力是你自己的参数

罗振宇在台上讲了一个概念,我觉得特别值得拿出来聊聊,叫丰富性。

他说人要把自己作为产品来打造,第一级是独特性,第二级是丰富性,第三级是魅力。

图片

罗老师对这个东西的定义是,不是你知道的东西多,而是你身上的参数多、变量多。

你是一个设计师,但你同时也是一个游戏迷、一个i人、一个在北京生活了十年的人、一个喜欢吃路边摊的人、一个半夜会因为一首歌突然难过的人。

这些乱七八糟的参数,构成了你这个人的丰富性。而正是这些参数,决定了你能提出什么样的问题、做出什么样的判断、产生什么样的创意。

我之前看过一个等式我觉得很能代表这个东西。

大模型权重 ≈ 互联网共同经历 X 开发者taste;

人脑权重 ≈ 个人经历 X 基因。

你得找到自己的独特性,不能成为平均值。

所以,AI的参数是训练出来的,而你的参数,是活出来的。

而线下,就是我觉得打开参数最高效的方式。

说实话,办AIFUT之前,我对具身智能、对影视行业、对儿童教育这些领域的理解都是很浅的。

我并不会去主动问AI「影视行业的成本结构是什么」这种问题,因为我根本不知道这个问题存在。

但郑林老师坐在我面前,他自己就把这个聊出来了,「60%是人的成本,真正的制作只占十几个百分点」,这个认知就这么进来了。

图片

跟余轶南聊完机器人、跟谷大白话聊完教育也是一样,都是他们带着自己的人脑权重撞进来的。

这些,都是最独特的财富。

这些变量不会立刻有用,但它们会在未来某个意想不到的时刻跟你原有的认知碰撞出火花。

我觉得,这就是线下交流的复利。


四. 算法给你确定性,线下给你偶然性

这条我觉得是很多人没意识到的。

我们现在的生活,几乎被算法包裹了。你看什么内容、认识什么人、买什么东西、去什么地方,全部都是推荐系统在帮你做决策。

这个东西很舒服,但也很危险。

因为它在不断收窄你的世界。

你喜欢看AI内容,它就给你推更多AI内容。你关注了某一类人,它就给你推更多同类型的人。你的信息茧房越来越厚,你以为自己看到了很大的世界,其实你只是在一个越来越精致的小泡泡里打转。

而线下是算法管不到的地方。

你去参加一场活动,坐在你旁边的可能是一个做机器人的、一个拍电影的、一个13岁的独立开发者。

你们的算法画像可能完全不重叠,但你们因为同一个关键词坐在了同一个空间里。

有很多的话题,是靠偶然性,硬生生碰撞出来的。

坦率的讲,我觉得从线上来说,已经很难找到偶然性了。

可很多真正改变人生轨迹的事情,都是偶然发生的。

你遇到了一个人,听到了一句话,看到了一个场景,然后你的某个想法突然就被打开了。

我自己就是,我的世界,我的三年,很多时候,都是线下的偶然。

AI给你的是最优解。

但有时候你需要的不是最优解,而是一个你从来没想过的可能性。


五. AI时代,见面是一种最珍贵的信号
我之前那篇创业感悟里写过,我坚持线下办公。
当时有些人不太赞同,觉得AI时代了还非得线下?也太不AI Native了吧。
办完AIFUT之后我更加确定了。
不只是办公,在未来绝大多数场景下,线下见面,都会变成一种越来越有价值的信号。
因为线下见面的成本在变高。
当你可以在家用AI搞定越来越多的事情,你选择出门,选择花时间去见一个人、参加一个活动、去到一个地方,这个选择本身就在传递一个信号,就是我在乎这件事,我觉得它值得我亲自到场。
就像在电子邮件时代,你给人手写一封信,分量完全不一样。
其实并不是因为内容不同,是因为,你选择了一种更贵的方式。
同样的道理,在一个AI可以帮你开会、帮你社交、帮你处理几乎一切沟通的时代,你选择亲自到场,这个行为本身就代表了某种郑重。

商业上是这样,人际关系上也是这样。

AI让沟通变得越来越容易,也让沟通变得越来越廉价。

而有重量的连接,永远发生在你选择了那种更贵的方式的时候。

图片

六. 去做一件真实的事
最近的这两天,可能是我最不焦虑,几乎没有被各种AI热点轰炸的两天。
但发现,我过得好像更加的舒适一些。
见了那么多的朋友,聊了那么多我可能完全没有思考过的话题。
如果你最近也在焦虑,焦虑AI发展太快、焦虑自己跟不上、焦虑未来会怎样。

我的建议是,关掉手机,出门,去做一件真实的事。

去见一个朋友,去逛一条没走过的街,去参加一个活动,去学一个跟AI完全无关的东西。

你不需要所有时间都用来追AI。

你追不上的,没有人追得上。

但你可以让自己变成一个更有意思的人,一个参数更多的人,一个有更多真实体验的人。

这些东西不会过期,不会被迭代,不会因为下一个模型发布而变得没用。

我们办了两天的AI大会,全场聊的都是AI。
但最后留下来的,是人与人面对面时的那些眼神、笑声、和沉默。

这些东西,我说真的,跟AI无关。

只跟我们自己有关。


写在最后

AIFUT结束了,说不伤感是假的。

筹备三个月,熬了无数个深夜,浓缩成两天,然后就过去了。

无论如何,我都很想感谢,为了AIFUT倾情赞助和帮扶的朋友们。
经开区的领导们,丝塔芙、华兴资本、LibTV、百度秒哒、通往AGI之路、得到、Haivivi、昆仑万维、灵光、拍我AI、vbot、智谱AI、智元机器人等等等等,实在太多了,我就不一一列举了,真的感谢大家们的支持。
图片
第一次办这么大的活动,问题真的很多很多。有些环节没有达到我自己的标准,有些安排回头看可以做得更好。
来到现场的朋友们,如果有体验不好的地方,真的很抱歉,我们明年一定改。

但有一件事,我现在比以前更确定了。

AI时代,我们不缺工具,不缺效率,不缺信息。

我们缺的,是体验。

是真实的、带着体温的、不可压缩的体验。

所以,去线下吧。

去见该见的人,去做想做的事,去活成一个足够丰富的人。

然后你会发现,AI焦虑这个东西。

不知道什么时候。

就自己消散了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

2026年4月12日星期日

面壁智能开源语音大模型VoxCPM 2:支持音色克隆和30种语言9种方言

面壁智能联合清华团队开源VoxCPM 2语音大模型,2B参数、48kHz高保真音质。支持30种语言和9种中国方言,可用文字描述创造全新音色,支持5秒以上音频克隆声音并复刻情感。开源免费,提供完整工具链,适合出海、游戏配音、有声书等场景。

Tags:

面壁和清华团队又开源了个狠的。

继去年接连开源 VoxCPM 和 VoxCPM 1.5 之后。

面壁智能联合清华大学人机语音交互实验室,这次直接把参数量拉到了 2B,推出了新一代语音大模型 VoxCPM 2。

目前 X 上在热烈讨论。

图片

简单说:一个开源、免费、功能齐全的语音生成模型,配套工具箱也给你备齐了。

30 种语言、9 种中国方言、能凭空用文字创造声音、能克隆你的声音、48kHz 高保真音质。

而且是一个模型聚集多种功能,效果好且全。

01
VoxCPM 2 是什么

图片

VoxCPM 是面壁智能开源的语音大模型系列,从去年 9 月开始迭代,每次升级都很实在:

  • VoxCPM 1(2025.09):0.5B 参数,16kHz 采样率,中英双语 + 方言,3 秒参考音频克隆
  • VoxCPM 1.5(2025.12):0.8B 参数,44.1kHz 采样率,HuggingFace 下载量 5.5k+
  • VoxCPM 2(2026.04):2B 参数,48kHz 采样率,30 种全球语言 + 8 种中国方言

从 0.5B 到 2B,从 16kHz 到 48kHz,从中英双语到 38 种语言,每一代都在实打实地升级。

到了 VoxCPM 2 这一代,基本上把开源语音模型能做的事情全做了。

体验链接:https://voxcpm.modelbest.cn/开源链接:https://github.com/OpenBMB/VoxCPM/Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2
02
四大核心亮点

亮点一:30 种语言 + 9 种方言,一个模型走遍全球

VoxCPM 2 支持的语言覆盖面非常广。

VoxCPM 2 支持 30 种全球主流语言,中英日韩法德俄阿拉伯语这些不用说了。

图片

重点是还覆盖了东南亚八国语种:越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。

这个覆盖范围对出海企业来说太友好了,有人直接叫它东南亚版 ElevenLabs。

国内这边也没落下,9 种方言全部安排上:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。

说到方言这里多提一句,用的时候有个小技巧:你输入的文本得是方言本身的表达方式,不能拿普通话文本让它强行读出方言味道。

图片

亮点二:音色设计-不用选声音,直接造声音

这个功能是 VoxCPM 2 最让人兴奋的能力之一。

市面上大多数语音模型只能对固定音色做情感或风格控制,说白了就是给你几个预设音色,你在这几个里面挑。

VoxCPM 2 不一样,你可以直接用文字描述来创造一个全新的、之前根本不存在的声音。

然后再用这个声音去朗读任何文本,还能精确控制情感和风格。

操作也很简单,在控制指令里用自然语言描述你想要的声音就行,不需要任何特殊格式。

图片

几个描述词的例子感受一下:

基础风格:"年轻女性,温柔甜美"

质感风格:"浑厚低沉的口音男声,语速慢,带着从容"

画面感风格:"听着像个活泼的小姐姐在耳边轻快地说话,语速很快但声音很轻柔,俏皮的警告听起来一点也不凶,反而让人觉得很亲切"

因为大模型的生成特性,即便是相同的指令,每次生成的音色细节也会有微妙的随机变化,相当于每次都在给你匹配不同的 AI 声优。

这个能力打开的想象空间非常大,做游戏角色配音、做动画、做有声书,不再受限于固定的音色库了。

亮点三:克隆你的声音,还能复刻情感

音色克隆这个功能很多模型都有,但 VoxCPM 2 在这块做得更深。

它基于扩散自回归连续表征方法,相比传统的 Token-based 方法,能保留更多原始声音的声学信息和情感细节,信息损失更少。

最终效果就是克隆出来的声音相似度更高,真正做到声临其境

上传或录制一段音频,建议 5 秒以上,素材越充足效果越好,AI 就能提取并复制这个音色,用它念出你指定的任意文本。

更有意思的是,克隆不仅仅是复制。

你还可以在控制指令里加入辅助提示来改变原有声音的情绪和语速。

比如上传了一段日常说话的录音,你可以加一句"语速很快,清亮饱满",AI 就会保留原音色,但以你想要的语气来播报。

不过有一点要注意:音色克隆没法跨性别转换,用男声的参考音频让 AI 变成女声,大概率是不行的。

这个功能主要用来调整原声音的情绪、语速和演绎风格。

亮点四:48kHz 高保真,配音级表现力

VoxCPM 2 的采样率达到了 48000Hz,这是什么概念?

目前市面上主流的语音 AI 一般是 24000Hz,VoxCPM 2 直接翻倍,达到了高保真音频标准,也就是 CD 音质级别。

更高的采样率意味着能捕捉并还原声音的每一个细腻细节,告别传统 TTS 那种一听就知道是机器生成的感觉。

生成的语音在自然度、情感表达和韵律上达到了配音级别,可以直接用在影视配音、游戏、动画、有声书这些对声音表现力要求很高的专业场景里。

速度方面也不拉胯。

在 RTX 4090 上,RTF 指标为 0.13,也就是生成 10 秒钟的音频只需要 1.3 秒,处理速度是实时速度的 7.7 倍。

03
VoxCPM 2 的优势在哪

TTS 这个领域现在各家的基础能力都不差,差异主要体现在特色功能和技术路线上。

简单过一下 VoxCPM 2 的定位:

和 Index-TTS 相比,VoxCPM 2 在多语种能力上要强很多,30 种语言加 9 种方言的覆盖面摆在那里。

和 Qwen3-TTS 相比,VoxCPM 2 在音色克隆的真实性和任意音色可控上更有优势。

而且 VoxCPM 2 一个模型就聚合了多种功能,Qwen3-TTS 要实现同样的功能组合需要三个模型叠加。

图片

技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法在信息保留上天然优于 Token-based 方法,音色克隆更真实,声音细节表现的上限更高。

和 VibeVoice 相比,VoxCPM 2 在单人音色生成和多场景适配上做得更深入,尤其是视频配音这块。

和闭源模型比就更简单了:VoxCPM 2 开源、免费。

开发者这块面壁也把工具链准备好了:原生 Torch 推理、LoRA 和全参数微调、VoxCPM-NanoVLLM 高吞吐部署、ComfyUI 和 WebUI 扩展、ONNX 导出支持 CPU 快速推理,甚至还有 Rust 语言重构版本。

从一键上手到大规模部署都覆盖了。

体验链接:https://voxcpm.modelbest.cn/GitHub开源链接:https://github.com/OpenBMB/VoxCPM/Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

AI大会后感悟:AI越强大,线下真实体验越重要

本文作者在花费数百万元举办AI大会后,分享了6点深刻感悟。核心观点是AI虽消灭信息差但无法替代真实体验。文章适合关注AI趋势、个人成长及线下活动价值的读者。核心亮点包括:品味需亲身经历、人脑参数源于丰富性、线下偶遇的不可替代性。作者强调,在AI时代,主动参与线下活动是缓解焦虑、积...