摘要:
中金 | AI浪潮之巅系列:AI端侧落地加速,开启实时互动新纪元本周Open AI与谷歌分别发布新一代模型:GPT-4o和Gemini系列模型。本文将介绍两大AI巨头在大模型领域的...
微信号:18321177950
添加微信好友, 获取更多信息
复制微信号
添加微信好友, 获取更多信息
复制微信号
本周Open AI与谷歌分别发布新一代模型:GPT-4o和Gemini系列模型。本文将介绍两大AI巨头在大模型领域的进展,并围绕硬件、操作系统、算力等方面进行探讨。我们认为,随着AI在端侧的逐渐落地,将带动消费电子终端创新升级,并对云端算力硬件系统尤其是推理侧需求提出更高要求。
Gemini 1.5 Pro与GPT-4o有何异同?我们认为,GPT-4o是端到端模型的创新,带来人机交互方式新突破;谷歌Gemini性能升级,AI能力广泛接入旗下生态。对比来看,两者都是原生多模态大模型,有望引发行业的效仿热情,原生多模态或成为未来发展趋势;但差异点在于,Gemini上下文窗口更大,且定价更具吸引力;GPT-4o模型性能更强,且更强调实际应用场景中的人机交互创新。
AI端侧落地带来消费电子终端人机交互方式变革,关注操作系统升级及应用前景。在硬件侧,我们认为,此次两大模型发布从四个方面加快了AI落地端侧的进度:1)多模态交互方式革新;2)AI语音助手拟人化;3) AI功能在移动设备的应用前景;4)商业化前景。虽然当前大模型仍以云端算力调用为主,但从当前各家在模型参数压缩的努力,结合端侧商业变现的前景,未来部分算力下沉到端侧将成为必由之路,对应消费电子终端在硬件层面也将迎来创新升级。在操作系统及应用侧,语音助手拟人化程度提升,一方面使AI agent成为可能,另一方面未来交互方式变化或带来流量入口变化,深刻影响生态格局。
云端算力硬件:GPT-4o部分功能的免费开放,Gemini能力的提升或对单位算力成本下探提出要求,AI infra面临大幅优化。我们看到,当下行业对算力硬件性能、成本的衡量以训练导向逐渐转为推理导向。除了芯片端、网络硬件端(如光模块)持续升级外,系统工程能力也正不断强化:为获得更低的硬件利用率,降低推理成本,优化显存、实施算子融合/算子实现优化、低精度(量化)推理、分布式推理均是主流实现方式。我们认为算力硬件市场有望随应用落地步入以价换量时代,市场规模或将持续增长。
风险
AI算法技术及应用落地进展不及预期,AI变现模式不确定,消费电子智能终端需求低迷。
GPT-4o VS谷歌Gemini:大模型迭代到哪了?
Open AI:GPT-4o是端到端模型的创新,带来人机交互方式新突破
5月13日,OpenAI在春季发布会上推出新一代旗舰模型GPT-4o(o为omni,即包罗万象之意)。GPT-4o在GPT-4的基础上新增语言处理能力,可接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出;同时在时延、人类语气模拟、表达等方面更加接近人类表达,是迈向更自然人机交互的一步。
模型侧:解锁更多实时应用场景
低延迟、迅速响应提升语音助手拟人化能力。在GPT-4o之前,使用语音模型对话的平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。得益于从三个模型到一个端到端模型的转变,GPT-4o能在232毫秒内对音频输入做出反应,平均反应时间为320毫秒,这与人类在对话中的反应时间相近,提升了用户体验。
免费开放、API调用性价比提升,有望打开商业化空间。OpenAI在发布会上宣布GPT-4o将免费提供给所有用户[1],付费用户则可以享受五倍的调用额度。GPT-4o API相较于GPT-4 Turbo API,速度提升了2倍,价格仅为一半。
应用侧:语音助手打开AI实时互动场景空间
此外,GPT-4o发布会也将重点放在了AI与实际应用场景的结合上。在大会上,Open AI展示了众多GPT-4o以语音助手的方式与使用者进行多模态交互的实际场景,包括执行语音搜索、图像识别、情感反馈识别等。这些实际场景的展示,使市场看到了未来AI潜在应用落地场景的广阔空间。
谷歌:Gemini性能升级,AI能力广泛接入旗下生态
2024年5月14日,谷歌召开2024年I/O大会,并发布了一系列大模型产品以及AI应用。我们看到,OpenAI和谷歌双方前后分别召开新品发布会,大有相互较量之势,例如Gemini 1.5 Pro之于GPT-4o、Project Astra之于ChatGPT-4o、Gems之于GPTs、Veo之于Sora等,体现出谷歌正加速缩小与OpenAI在AI大模型方面之间的差距。此外,我们认为AI Overview、Ask Photos、AI+Workspace等功能的推出,也反映出谷歌正积极凭借自身的产业、生态优势,推动AI与应用的融合。
模型侧:深化大模型在端侧的部署
Project Astra对标ChatGPT-4o,打造更流畅、更丰富的人机交互体验。Project Astra基于谷歌Gemini大模型,能够同时处理视觉、语音等多模态信号,并展现出较强的理解、记忆和即时响应能力。我们观察到,演示中Project Astra至少在智能手机(Google Pixel)以及智能眼镜(prototype glasses)两个硬件设备上运行,我们认为AI大模型正加速向各类智能终端侧部署应用。
端侧应用功能迎来升级。1)Gemini Nano:目前运行于端侧的Nano模型仅用于文本模态,谷歌宣布将于今夏实现实时语音交互功能[2],并在今年晚些时候上线视频交互功能,多模态功能趋于完善。2)Gems:与OpenAI的GPTs类似,Gems能够定制具备特定特征的AI助理,为使用者提供健身、陪伴、烹饪、编程、写作等任务的个性化协助。3)安卓系统升级:谷歌宣布新增三项AI功能:Circle to search、AI agent、模型本地化部署,在保障隐私安全的情况下,提升安卓系统的智能化水平。
应用侧:搜索、相册、音视频、办公,谷歌生态广泛AI化
谷歌凭借本身在生态上的优势,积极推动AI与应用的融合。1)搜索:AI Overview能够在搜索中自动总结全网内容,实现概览、推理、规划、排版等功能。2)相册:Ask Photos通过自然语言实现对特定相册照片的搜索。3)办公:在AI Workspace中新增工作总结、邮件问答、智能回复等功能,将AIGC赋能企业自动化,提升办公生产效率。4)多模态:谷歌推出Imagen 3、Music AI Sandbox、Veo等大模型,分别对应图像、音乐、视频生成;其中Veo模型能够根据多种模态信息的提示,生成时长超1分钟的1080P高清视频,与OpenAI Sora的差距进一步缩小。谷歌当前产业覆盖智能终端、互联网、企业、医疗、无人驾驶等多个产业,作为一家生态布局相当广泛的科技大厂,我们认为谷歌在应用侧落地具有先天的优势。随着大模型技术的不断成熟,我们预计谷歌有望加速应用落地。
对比:Gemini 1.5 Pro与GPT-4o有何异同?
相同点:两者都是原生多模态大模型,指引技术发展趋势
传统的多模态大模型,往往是不同模态的模型分别训练后再融合在一起,虽然能够用一个大模型实现对不同模态数据的处理,但是不同模态之间缺乏协调性。而Gemini和GPT-4o的训练语料同时包括文本、图像、音视频等多种模态数据,所有输入输出都是在同一个神经网络中进行处理。从两家的demo来看,最终的效果是大模型能够同时理解多模态信息以及信息之间的关系。我们认为,谷歌和OpenAI两大行业领先企业均不约而同开发原生多模态大模型,有望引发行业的效仿热情,原生多模态或成为未来发展趋势。
差异点:Gemini上下文窗口更大,GPT-4o展现了更多的应用场景
Gemini上下文窗口更大。2024年I/O大会上,谷歌宣布将Gemini 1.5 Pro的上下文窗口token数由100万个扩容至200万个,相当于2小时视频、22小时音频、超过6万行代码或超过140万词文本的数据体量,遥遥领先于其他大模型(Claude 3为20万个tokens,而GPT-4o仅为12.8万个)。
Gemini定价更具吸引力。我们以12.8万个tokens上下文长度为例,根据谷歌官网信息,Gemini 1.5 Pro输入、输出价格分别为3.5美元/1M tokens、10.5美元/1M tokens,对比GPT-4o(上下文窗口为12.8万个tokens)输入5美元/1M tokens、输出15美元/1M tokens的定价,Gemini 1.5 Pro的调用成本较GPT-4o下降30%。
GPT-4o更强调实际应用场景中的人机交互的创新。我们能看到,GPT-4o发布会并未过多展示技术细节,而是将大量时间用于展示GPT-4o如何在手机/PC产品上可能的应用场景,尤其AI语音助手充当了重要角色,在跨模态的人机交互中表现出色。
GPT-4o模型性能更胜一筹。根据OpenAI官网测评数据,GPT-4o在文本测试(如MMLU、MATH、HumanEval等)以及视觉理解测试(如MMMU、MathVista等)各类任务中均取得较Gemini 1.5 Pro更优的表现。我们认为,OpenAI的技术水平仍然领先于行业。
终端硬件:人机交互方式变革,AI端侧落地加速
在AI发展逐渐进入应用变现的下半场后,如何将AI能力赋能给To C端的消费者成为了重要课题。我们观察到,除了常规的模型及技术发布外,本次GPT-4o及谷歌发布会均将部分重点放在了展示AI在移动设备,如手机、PC等的实际应用场景。我们认为,未来AI在端侧的应用和消费者触达变现或将成为新的发展侧重点。