问答-4o发布，开创音视频人机交互新时代，算力需求再度高涨！-玖儿的学习笔记

导语：灵动Ai发布了全新版本的大模型问答-4o，它实现了实时语音对话，时延达到了仅需320毫秒的水平，甚至超越了人类反应速度。问答-4o不仅可以处理文本、音频和图像的组合输入和输出，还在性能上远超竞品，包括了Claude 3 Opus、Gemini Pro 1.5以及开源版问答-4的Llama 3 400B。此次发布也被认为将推动AI算力的进一步爆发，带动智能音箱等端侧AI设备的大规模发展，值得关注。

?GPT-4o：更自然的人机交互，更低时延
OpenAI发布会重磅推出GPT-4o，新版大模型能够实现实时语音对话，平均时延为320毫秒。这个反应时间，已经达到了人类的级别！并且，它可以将文本、音频、图像任何组合作为输入和输出。在GPT-4o发布之前，通过语音模式（Voice Mode）与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。

?性能碾压一众竞品，大模型竞争从未止息
在传统基准测试中，GPT-4o在文本、推理和编码智能方面，达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉能力方面创下了新高。在文本评估中，GPT-4o几乎碾压一众模型，包括Claude 3 Opus，Gemini Pro 1.5，甚至是「开源版GPT-4」Llama 3 400B。

?我们认为，在大模型中加入语音交互或将推动AI算力进一步爆发，原因如下：
?训练中或将采用原生音频数据，在GPT-4原有的文本等数据外，新增更多维度，或将带动预训练token数增加。假设Scaling Law持续发挥作用，大模型训练计算量有望随之大幅提升。
?人机交互需求惊喜表现，或将带动智能音箱等端侧AI爆发，AI推理侧有望迎来大规模放量。
?由GPT-4o引领的人机交互创新应用或将引发竞争对手新一轮追击，我们看好行业维度算力需求新一轮爆发。

?产业链相关标的：
智能音箱：国光电器、漫步者、佳禾智能等
算力链：寒武纪、海光、工业富联、沪电股份、胜宏科技等
IoT芯片：恒玄科技、晶晨股份、全志科技、瑞芯微、炬芯科技、中科蓝讯、乐鑫科技等

风险提示：技术、需求、竞争

1、本网站名称：99学社
2、本站永久网址：https://www.xueshe9.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请点击跳转到免责声明页面处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END