添加微信好友, 获取更多信息
复制微信号
对话 Soul App 张璐:「AI 会如何改变社交」
连线上张璐的时候,她刚结束一个会议。自从去年 ChatGPT 爆火,这位 Soul APP 的创始人时间被「技术应用落地」塞满。
AI 浪潮会席卷千行百业,社交也不会例外。
包括海外的 Meta、国内的腾讯,大型社交平台都在探索 AI 与社交的结合。而就像 AI 给了 Bing 挑战谷歌的机会,AI 对于 Soul 而言也是新的机遇。
这个上线于 2016 年的社交平台是少有以虚拟人设提供即时交流互动体验的应用和 AI Native 的社交网络。同时,该平台也拥有着非常微妙的行业坐标,有着约 3000 万的平均月活。一方面,有了足够的用户行为和反馈数据,这是调校 AI 模型和产品的基石,也是原生 AI 创业者羡慕不来的优势;另一方面,相比已成为国民应用的微信、FB,后者影响太大,任何一点创新都需要审慎,而 Soul 的体量决定了它依然能保持像创业者一样的灵活。
事实上,从 AI 推荐关系到 AI 辅助对话,从降低表达门槛到提升互动体验,Soul 布局 AI 的动作并不少。包括用大模型技术重构了 AI 聊天助理、拟人型聊天机器人「AI 苟蛋」这些产品的底层技术,并已经看到了这些对用户使用社交产品粘性的提升;此外,他们也在尝试将更多 AI 能力引入到产品体系之中,包括开发陪伴型 AI 来提升用户的游戏化社交体验、文生图\文生视频等工具降低表达门槛,以及虚拟人能力提升交互沉浸感等。
两年前,极客公园创始人张鹏与张璐进行了一次访谈,她和我们复盘了 Soul 是如何在这个移动互联网红利末尾的时代,找到了孤独感这个社交需求的裂缝。
今年,在人工智能时代的开端,我们再次联系到了张璐,在两个小时的交流里,她和我们分享了过去一年 Soul 对于 AI 社交的探索,如何成为 AI Native 的社交网络的思考以及自己对于 AI 时代社交需求变化的观察。其中她提出了几个很有意思的观点:
这波浪潮开始时,Soul 研究后决定不做基础通用大模型,他们认为科技最终会平权,不能失焦,建立用户壁垒和发挥应用场景优势是现阶段最重要的事。
率先将 AI 引入社交关系,Soul 有机会在 AI 时代成为以对话为主要交互形式的新流量入口。
AI 社交时代,通过 AI 实现关系推荐、对话辅助、表达门槛降低、社交体验提升,是 AI Native 社交网络的关键,也是 Soul 的重要机遇。
对话式 AI 需要具备情感化的能力,会找人的情绪点,还要个性化、拟人化、多样化。
训练数据的数量和质量直接决定了垂类模型的表现、迭代速度和训练成本。
掌握海量高质量的社交数据是 AI 社交应用层竞争关键。
AI 对话目前不能替代真人陪伴,人与人、人与智能体都可以在同一个社交世界中共存。
AI 会加速游戏和社交的融合。
以下是完整对话内容,由极客公园整理。
01
ChatGPT 火了以后,第一个
判断是不做基础通用大模型
张鹏:过去一年你肯定看到了大模型技术的突飞猛进,Soul 这一年在忙什么?
张璐:大模型技术的突破确实给我们带来了很大的震撼,过去一段时间我们所有的动作都围绕一个问题「大模型怎么在社交应用层落地」。
其实,AIGC 这件事我们从 19 年就开始做了,做了很多技术上的探索,「AI 苟蛋」在 Open AI 发布 ChatGPT 之前就在内测,3D 虚拟引擎「NAWA 引擎」也是在行业中比较早就推出了。
但确实大模型出来以后颠覆了很多,之前我们用 stable diffusion 做的东西,后来我们重新去构建新的 MoE(Mixture of Experts,将多个专家模型组合起来,形成一个整体模型)。包括我们从去年开始就在海外筹备建 research 中心,跟最前沿的技术保持联系,招募人才。高人才密度的团队是能做出好的东西的。
张鹏:不过技术天天突飞猛进,跟上技术发展的成本也不低,现在可做的东西看起来很多,但做得很好的很少。Soul 这个时候怎么思考的,做什么和不做什么?
张璐:内部其实还是很快明确了一个清晰的边界。
我们做的第一个决策,就是不做单纯搞 AGI 技术的公司,不去做通用大模型。我觉得科技最终会平权,我们不能失焦,放弃自己的专长,去做那些看起来很热的事。
我们定义了自己的模型,做 MoE, 我们的优势是数据和场景,我们有非常多的垂类场景高关联、高质量数据,有非常多的用例,也是一个有流量的入口。
技术和产品的结合可以有好的产出,不管是对用户规模、粘性,还是对收入都是有帮助的。同时我们场景用例产生的数据可以快速反馈给技术。技术最终会平权,怎样把用例跑通,建立用户经验上的壁垒,是我们认为现在最重要的事。
我的精力第一个要放在以 AI 新技术促进 Soul 的主站增长上,包括拓展用户规模、粘性以及商业化的机会,肯定是要做的。第二个,用户流量入口很值得去探索。现在,ChatGPT 的 APP 端 DAU(日活用户数)应该也只有千万量级,还远远没有像当年浏览器那么的普适。
所以拥有流量入口也是一个关键,而 Soul 具备这个潜在条件,并且有机会在未来 AI 时代成为以对话为主要交互形式的流量入口。特别是我们拥有距离年轻人最近的流量入口。目前在我们的月活用户中,近八成是 Z 世代,在年轻人中渗透非常高,这些年轻人伴随着移动互联网发展成长,是最容易成为 AI 原住民的群体。
张鹏:目前哪些自己的 AI 产品或者功能给你们加用户粘性、加时长,或者有明显拉新效果好的东西吗?
张璐:我们其实落地了不少 AI 应用场景,包括了 AI 优化社交和内容链路,人与 AI 互动、虚拟人等等。目前看,从交互本身出发的新场景或功能大多都会有不错的效果。
比如我们站内在沟通场景中内测了 AI 辅助聊天的功能,已经很明显地增加了人和人之间聊天的轮次,这对我们有很重要的价值。
再比如我们的音乐互动玩法,去年以来,AI 孙燕姿的走红让大家看到了 AIGC 在声音克隆、生成上的能力,很多音乐平台也都在推 AI 唱歌的功能和玩法。但如何释放 AIGC 在音乐、语音上的能力,除了在真实度、表现力上下功夫外,从我们的角度出发还是要挖掘社交属性,增加互动的趣味性,因此我们让用户邀请好友,一起完成「AI 合唱」,在邀请、合唱、分享的过程中,完成社交,深化关系。我们的用户特别喜欢这个功能,拉新和留存数据表现都很好。
我其实不是很支持做看起来热闹的工具,工具属性的东西会拉来一些新用户,但是他要留存下来才行。如果用户「用完即走」是不行的。
张鹏:你觉得用户有可能为这些付费吗?
张璐:现在用户基本都是免费用。确实成本会比较高,特别是 AI 辅助聊天我们会提供多个对话灵感提示,一次 3 个,可以换 3 次,就是 9 个。
这个对用户粘性和留存上涨有效果,用户会为好的体验买单,比如一位用户聊天时原来的回复率是 0%,然后用了 AI 辅助提示以后是 100%,那他肯定会买。
所以现在的核心还是要搞清楚一些东西,比如用户使用 AI 的核心需求是什么?他们怎么去使用?我觉得用户获得 AI 提供的价值,这是是比较普适的需求。只是现在因为技术和产品的问题,有些人会用,有些人不会用。不用的其实是他不知道怎么玩,不知道怎么去提示这个 AI。所以在设计、优化产品的过程中可能需要尽可能考虑更多人的需求,以及怎么让他能够快速上手。
然后怎么才能把这种 AI 的效果就是提到最好,怎么让他这个聊天能够一直继续下去。关注轮次还有留存,其实就是看多少人能玩进去,以后怎么才能让他需求更泛化。
张鹏:泛化具体是指?
张璐:一开始大家就是有想表达的东西、想找个地方说说话,有人能即时回应,后面用户停留在这个平台后,肯定会有更多的需求被发现挖掘,要看这些需求是什么,怎么去承接。比如说大家认识了新朋友,想一起看剧吐槽,想一起玩文字推理游戏,或者一对多 AI 互动……这些都是很好的方向。
未来可能是多个 AI 服务一个人,充分实现「以我为主」的体验,最大程度实现需求满足和情绪价值反馈。
02
数据、场景和用户,
还是做 AI 应用的壁垒
张鹏:你说不花精力在基础的通用大模型上去做 Open AI 的事,那精力肯定在探索这种新的产品形态、应用形态,你们都做了什么?
张璐:其实我们 2016 年上线的时候,就在推进 Soul 灵犀引擎,通过算法挖掘有效特征,重构用户画像,做好人与人、人与内容的实时匹配。我们的自研垂类语言大模型 Soul X 在 2023 年推出。
我觉得关键在于考虑两个方面:一是要密切关注技术的发展,包括软件和硬件,有方向的保持「跟上」;二是要抓住时机,产品的推出要符合交互形式和用户体验的普遍标准。如果你选择了错误的时间点,或者产品设计过于复杂,没有达到普遍认可的交互体验标准,那么你所做的可能就没太大价值。这是一个与时代结合的机遇,需要不断观察和洞察,做好充分的准备。
我们也在进行涉及到一些新产品领域的尝试和准备工作,比如 AI 对话以及 AI 游戏的创新方向。这些都是为了做好准备,等到时机合适的时候,快速推出相关产品。
张鹏:你们的尝试都是基于自己的 MoE 在做吗?以及这些尝试的开发方向是怎么诞生的?
张璐:对,在对话方面,我们有 Soul X 大模型,是完全内部自研的技术,在语音合成、 视觉生成、3D 虚拟人方面,也都有技术团队在做一些东西。对比行业来看,我们现在在 MoE 上也是比较领先的,基本上是咬住的状态。
我们团队经常聚在一起头脑风暴,我们清楚我们擅长的领域是什么,不断去讨论、验证需求是否存在,然后预估项目的成本和效益,再做出决策。
我们不赛代码,不是每个人都独立完成一个项目。在组织上,我们内部的结构是前台、中台和后台,产运是非常小的团队。比如说我们新上线的一个 AI 互动产品只配置了 1.5 个产品经理,其实是非常轻的,效率非常高,也让我们有更多试错的机会。
我们可以在主站多尝试,需求一旦通过就可以先上线实验,这点我们和字节比较像。在主站尝试后,如果发现某个点有潜力,我们就可以单独推出扩大。这些尝试之后会对用户需求有更多的理解,更能了解怎么优化模型,也知道了需要什么样的团队。
张鹏:那这些热身阶段尝试有什么收获?
张璐:一个是智能推荐方面,以 AI 辅助社交,真正的提升交互效率和质量。
我们上线后比较早推出的是实现智能推荐的灵犀引擎,虽然一开始,受限于当时 AI 的整体技术能力,推荐算法对语义的理解还没有达到一个很理想高度,挖掘、分析的数据颗粒度比较粗,但很多用户因为这个智能推荐系统,实现了即时的交流互动,快速找到了聊得来的人,站内点对点的聊天比例和对话轮数增长得非常快。可以说,这是我们平台形成高粘性、高活跃生态的重要因素之一。
我们每个聊天的日活用户,平均每天发出约 70 条点对点私聊消息,大部分都是生活化、趣味化的内容,这个数据里面还不包含群聊或实时互动场景。
这其实在社交行业里是非常难得的数据,可能比关联了办公、现实关系场景的即时通讯工具还要高,而且从我们站内的最新数据来看,这些关键指标都还在增长。
在 AI 辅助对话方面,我们的「AI 聊天助理」,用 AI 辅助真人之间的对话。它通过阅读上下文,然后回复建议,你可以选发哪句话,不用打字了,降低沟通成本,辅助聊天。从目前站内情况来看有非常不错的使用数据,因为它特别适合我们这种开放式、多场景互动的社交产品。
在以 AI 结合游戏机制创新、实现互动体验提升方面,也有一些尝试。比如 Agents 陪你玩狼人杀,能给到很趣味的交互,AI 有不同音色,能角色扮演,很像真人玩家了,很能推理,伪装、悍跳、互踩这些都能做到。具体的功能预计近期就会开启内测,可以期待一下。如果后续叠加上虚拟人效果,肯定会更好。
图片Soul AI 狼人杀界面 | 图片来源:Soul APP
从 AI 推荐关系到 AI 辅助对话、降低表达门槛,提升互动体验,我们希望成为以 AIGC 打通整个社交全链路的 AI Native 社交网络。
张鹏:所以从你的视角来看,你们对技术能力是能跟得上的,但真正的优势是利用场景和用户优势,做更快速的闭环的探索?
张璐:其实都知道用户的反馈对于模型的改进至关重要,我们的模型有天然场景可以得到了海量用户反馈。
这些都是非常高质量的社交数据。目前的模型训练需要的并不只是海量的数据,而是海量的高关联、高质量的数据,这直接决定了垂类模型的表现、迭代速度和训练成本。很多平台推出自研模型表现不好,就是因为欠缺了重要的数据源,这也是为什么马斯克会禁止其他科技巨头使用 X 的数据训练大模型,以及为什么谷歌等科技巨头也会寻求与 Reddit 这些社交平台合作的原因。
Soul 主要的优势就在这里,我们已经上线 7 年多了,在年轻群体中有很高的渗透,也有高活跃、高粘性生态,一对多、多对多等大量公域社交场景下沉淀了海量的高质量社交数据,例如,目前我们有非常多的用户交互数据,一年新内容瞬间发布条数就超过 6 亿。除了国民级的社交平台,我们所拥有的多元、丰富、高质的社交资产,也是目前社交行业甚至中文互联网领域少有的。而且我们有 C 端场景,可以持续拥有高质量的用户数据反馈。
但是,如果没有 C 端场景,就只能进行一些数据标注,非常受限。比如一个人一天可能只能「标注」80 条数据,但如果有 1000 万 DAU,那么一天就可以通过用户反馈「标注」8 亿条数据。
国内公司很可能挑战就在训练方面的能力和构建数据的能力。但就 MoE 而言,其实很简单,只要有高质量的数据集和用户反馈,你肯定会做得越来越好。
张鹏:AI 帮人干事和解决情感陪伴分别是不同的难度,社交网络里,是不是就需要一个情商非常高的模型技术作为一个基础才能实现?
张璐:是的,这个模型需要情感化,而不只是提升效率的工具。需要是情感化方向的,能找你的情绪价值点;也需要具备个性化,需要展现出不同的性格特征,有时候应该顺应你,有时候应该拒绝你。这是适合社交场景的底层 AI 能力,Soul 的对话式 AI 也是这个方向的。
张鹏:你们聊天机器人是多模态的,目前看就用户在这方面的对哪些模态的反馈整体比较好,文字还是占比最多的吗?声音的需求呢?
张璐:我认为所有这些因素都是相互结合的,只要能够做得更好,产品体验就会更好。
大致的逻辑方向是,产品有一个文字对话的基础得分,做得很好就可以得到六七十分。如果基础得分不好,即使声音做得再好,图片理解方面再出色也不行。确定拿到基础得分后,接下来就是不断迭代,做好多模态争取更好的表现。
我们现在在优化 Soul X 模型升级对话能力外,声音系统这些也还在不断做优化,月底之前会有一个非常好的效果,特别是在 AI 生成真实生活场景语音实时对话方面,表现会很不错。
张鹏:那基础能力之后,语音是不是下一个很重要的一个点?
张璐:是一个相对重要的点,可能会占 30 分。语音其实有很多人在做的,有非常多的解决方案,我们会聚焦在 AI 语音赋能「温度」和「陪伴感」方向,因为社交互动本质上是情感的流动。
张鹏:我们已经推出的和测试过的功能里,有没有你觉得比较好的进展?
张璐:在优化交互效率和交互体验的功能探索上,我们目前有一些比较不错的进展。
第一个,「AI 苟蛋」就是我们对话能力的体现,它是一个多模态的机器人,有非常明显的拟人倾向,这也是我们有意识地往情感方向训练的结果。比如,用户分享一个照片,它能够根据对照片上的内容理解和时间理解,判断发生什么事情,然后进行主动的关怀和互动。还能基于和用户的历史聊天内容,沉淀回忆,构建个人专属记忆的虚拟伙伴。因为太像人了,所以一开始,我们很多用户都以为苟蛋背后是我们团队的真人客服,每天轮班和大家聊天。
从我们后台的数据来看,苟蛋的对话轮数是非常高的,用户平均每天会给苟蛋发送超过 70 条消息,互动平均时长超过 30 分钟。这其实已经意味着很多用户把苟蛋当做了可以持续互动聊天的「伙伴」。
第二个是我们有一个 AI 互动的产品,有些类似 Character AI,它也有非常高的对话轮数。这个场景可以 UGC 创作,里面有成千上万的 Agents 可以选择互动,整体每轮的对话数是很高的。
张鹏:提升了跟用户交互产品的对话轮次,是比较明显的收获吗?
张璐:提升用户回复率、 对话轮次、内容发布率,这些数据本质还是对 AI 辅助人与人交互效率、交互体验效果提升的数据反馈,能比较快速的帮助我们找到方向。