日前,OpenAI发布了其最新人工智能模型GPT-4o,该模型将很快为部分ChatGPT产品提供支撑。升级后的ChatGPT能够快速响应来自实时对话伙伴的文本、音频和视频输入,同时以传达强烈情感和个性的语调与措辞进行对话。
根据OpenAI官网的介绍,GPT-4o可以在232毫秒内响应音频输入,其平均反馈时间为320毫秒,这与人类在对话中的响应时间相当接近。此前,当用户使用语音模式与ChatGPT通话时,存在明显的延迟,GPT-3.5平均需要2.8秒,而GPT-4的平均反馈时长则为5.4秒。语音模式由三个专门的模型来实现:一个模型先将语音转换为文本,然后GPT-3.5或GPT-4处理这些文本并生成回复,最后另一个模型将文本回复转化为语音。在此过程中,GPT-3.5/GPT-4无法直接处理语音的细微差别,比如语调、多个说话人的区分或背景噪声,也无法产生笑声、歌声或其他情感表达。
在现场演示中,OpenAI展示了升级版语音模式的情感模仿能力,此次演示涵盖了ChatGPT移动应用程序以及一个新的桌面应用程序。其以女性声音回应ChatGPT这个名字时,听起来更接近于2013年科幻电影《她》中由斯嘉丽·约翰逊配音的那种亲切声音,而非典型语音助手技术那种更为机械和模式化的回应。
加利福尼亚大学戴维斯分校的米歇尔·科恩对此评价道,新的GPT-4o语音交互更接近人与人之间的互动。究其原因,较短的延迟时间确实是一个重要因素,但更重要的是这种语音所产生的情感表达水平。
在与OpenAI员工的一次对话中,由GPT-4o驱动的ChatGPT就对话者沉重且急促的呼吸给出建议,说“哇,慢下来,你又不是吸尘器”,并建议他进行一次呼吸练习。
新版ChatGPT还能口头指导其对话伙伴解简单的线性方程,对计算机代码的功能进行解释,以及对一张显示夏季气温峰值的图表进行解读。在用户的要求下,该人工智能甚至多次讲述了一个虚构的睡前故事,在多种富有戏剧性的叙述方式之间切换,并以唱歌的方式结束。
OpenAI首席执行官萨姆·奥尔特曼在社交平台X上的一篇帖子中表示,新的语音模式将在未来几周内首先向ChatGPT Plus的付费用户提供。
OpenAI首席技术官米拉·穆拉蒂坦言,由GPT-4o驱动的新版ChatGPT,由于其整合和解释实时信息的方式,带来了新的安全风险。她说,OpenAI一直在努力构建“防止滥用的措施”。
“进行无缝的多模态对话非常困难,所以这些演示令人印象深刻。”新泽西州普林斯顿大学的彼得·亨德森说,“但是,当你添加更多模态时,安全性变得更加困难和重要——可能需要一些时间来确定这种模型利用的输入扩展可能导致的潜在安全故障模式。”
亨德森还表示,他好奇一旦ChatGPT用户开始分享实时音频和视频等输入,OpenAI的隐私条款会是什么样子,以及免费用户是否可以选择退出可能用于训练未来OpenAI模型的数据收集。
“由于该模型似乎是在云端托管的,如果用户通过互联网与模型共享桌面屏幕或持续录制音频或视频,那么对于这个特定的产品来说,这无疑会增加挑战,尤其是在考虑是否计划存储和使用这些数据时。”他说。
根据科恩及其同事的研究,一个更拟人化的AI聊天机器人也代表了另一种威胁:一个可以通过语音对话假装有同理心的机器人可能更亲切和更有说服力,这增加了人们更倾向于相信这种大型语言模型可能产生的潜在不准确信息和偏见刻板印象的风险。
“这对于人们如何从大型语言模型中搜索和接收指导具有重要意义,特别是因为它们并不总是生成准确的信息。”科恩说。