导语:灵动Ai发布了全新版本的大模型问答-4o,它实现了实时语音对话,时延达到了仅需320毫秒的水平,甚至超越了人类反应速度。问答-4o不仅可以处理文本、音频和图像的组合输入和输出,还在性能上远超竞品,包括了Claude 3 Opus、Gemini Pro 1.5以及开源版问答-4的Llama 3 400B。此次发布也被认为将推动AI算力的进一步爆发,带动智能音箱等端侧AI设备的大规模发展,值得关注。
?GPT-4o:更自然的人机交互,更低时延
OpenAI发布会重磅推出GPT-4o,新版大模型能够实现实时语音对话,平均时延为320毫秒。这个反应时间,已经达到了人类的级别!并且,它可以将文本、音频、图像任何组合作为输入和输出。在GPT-4o发布之前,通过语音模式(Voice Mode)与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
?性能碾压一众竞品,大模型竞争从未止息
在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「开源版GPT-4」Llama 3 400B。
?我们认为,在大模型中加入语音交互或将推动AI算力进一步爆发,原因如下:
?训练中或将采用原生音频数据,在GPT-4原有的文本等数据外,新增更多维度,或将带动预训练token数增加。假设Scaling Law持续发挥作用,大模型训练计算量有望随之大幅提升。
?人机交互需求惊喜表现,或将带动智能音箱等端侧AI爆发,AI推理侧有望迎来大规模放量。
?由GPT-4o引领的人机交互创新应用或将引发竞争对手新一轮追击,我们看好行业维度算力需求新一轮爆发。
?产业链相关标的:
智能音箱:国光电器、漫步者、佳禾智能等
算力链:寒武纪、海光、工业富联、沪电股份、胜宏科技等
IoT芯片:恒玄科技、晶晨股份、全志科技、瑞芯微、炬芯科技、中科蓝讯、乐鑫科技等
风险提示:技术、需求、竞争
暂无评论内容