OpenAI官宣全新AI大模型GPT-4o：支持多模态视觉/语音对话

作者：刘昕炜 05-14 10:37

相关舆情 AI解读生成海报

来源：爱集微 #OpenAI# #人工智能# #大模型#

1.1w

人工智能（AI）公司OpenAI 5月13日宣布，将推出全新AI大模型GPT-4o，支持文本、图像、语音多模态交互，并有着即时、逼真的语音对话功能。业界解读，此举是OpenAI为保持业界领先地位的最新举动。

OpenAI表示，GPT-4o的字母“o”表示“omni”，是迈向更自然的人机交互的一步——即接受文本、音频、图像的任意组合作为输入，并生成文本、音频、图像任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均响应时间320毫秒，这与人类在对话中的响应时间相似。此外，GPT-4o在英文和代码上的性能与GPT-4 Turbo相匹配，在非英语文本上的性能显著提高，同时API速度更快、成本降低50%。官方表示，与现有AI大模型相比，GPT-4o在视觉和音频理解方面尤其出色。

OpenAI在官网发布视频对GPT-4o进行了演示，用户可以与ChatGPT对话，获得无延迟的即时回复，并且支持在ChatGPT说话时将其打断，这一特性此前被认为是高阶人工智能语音助手的标志。

OpenAI CEO萨姆·奥尔特曼在博客文章中写道，“这感觉就像电影中的AI一样……与电脑交谈从来没有像这样自然，而现实确实如此。”

研究人员在视频中展示了ChatGPT的新语音助手功能，在一次演示中，ChatGPT可利用视觉和语音功能同时与一名研究人员交谈，帮助他解决了纸上的一个数学方程式。

在另一个演示中，GPT-4o大模型为ChatGPT赋予戏谑对话的能力，当研究者表示心情很好，夸赞ChatGPT时，ChatGPT使用语音进行风趣回应。

OpenAI首席技术官米拉·穆拉提（Mira Murati）在活动上表示，新的AI大模型将免费提供，因为它比公司之前的大模型更具成本效益。她说：“GPT-4o的付费用户将比免费用户拥有更大的容量限制。”该公司表示，GPT-4o将在未来几周内在ChatGPT上推出。

（校对/孙乐）

责编：张杰

来源：爱集微 #OpenAI# #人工智能# #大模型#

THE END

*此内容为集微网原创，著作权归集微网所有，爱集微，爱原创

刘昕炜

微信：Andix402857

邮箱：liuxw@ijiwei.com

1767文章总数

2727.9w总浏览量

最近发布

最新资讯

PDF 加载中...