0°

ChatGPT重大更新:实现双向互动「听、说、看」

  从本质上讲,OpenAI正在为其聊天机器人赋予嘴巴和眼睛。

  据悉,OpenAI正在更新ChatGPT,以允许人工智能工具在与用户的交互中做到“看到、听到和对话”。本次更新推出后,使ChatGPT能够响应图像,理解口头提示,并使用聊天机器人的新声音与用户进行来回对话。这些变化使ChatGPT功能更加类似于Siri或亚马逊的Alexa,但是与Siri或Alexa不同,ChatGPT不需要唤醒词来进行“召唤”。

  总的来说,本次更新使得ChatGPT更具互动性,用户可以拍一张照片并向ChatGPT询问相关问题,不过本次更新并不是全部免费,图像和语音功能将在接下来的几周内,为每月20美元订阅ChatGPT Plus和Enterprise版本用户提供。

  OpenAI在公告中表示:“语音和图像为您提供了在生活中使用ChatGPT的更多方式。”“在旅行时拍一张地标的照片,并实时讨论它的有趣之处。当你回到家时,拍下你的冰箱和食品储藏室的照片,以弄清楚晚餐吃什么(并询问后续问题,以便按照食谱步骤制作)。晚餐后,至可以通过拍照、圈出问题集让它来帮助您的孩子解决数学问题。”

  “这不仅仅是因为打字很乏味,”OpenAI的产品负责人Joanne Jang在接受采访时告诉记者:“你们现在可以进行双向对话。”

  显然随着不断迭代,ChatGPT的功能在逐渐强大。此前福克斯新闻医疗撰稿人Marc Siegel博士在“The Big Money Show”中讨论了ChatGPT在做出医疗决策方面的准确性,结果显示如果ChatGPT扮演医生,成功率达72%,它在前不久甚至帮助一个苦寻良医许久的男孩找到了真实的病因,在全球引起巨大热议。

  针对本次的更新,据专业人士称更新后的ChatGPT新语音功能,将由文本转语音模型提供支持,该模型能够从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI还聘请专业配音演员来创作声音,允许ChatGPT以五种不同的声音说话,并利用OpenAI的开源语音识别系统Whisper将口语转录为文本。

  不过也有人士指出,新语音技术存在一些风险,例如可能发生欺诈或冒充。OpenAI在声明中表示:“新的语音技术能够从几秒钟的真实语音中生成逼真的合成声音,为许多创造性和可访问性的应用程序打开了大门,然而,这些新功能也带来了新的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性。”针对图像方面,ChatGPT的新的基于视觉的模型能够分析和响应图像,但这种模型也带来了新的挑战,并且该公司“已采取技术措施来显着限制ChatGPT分析和直接能力,因为这些系统应该尊重个人隐私。”

  不过针对本次更新,在业内引起讨论的同时,也有不少用户表示“没什么新意和突破”,随着OpenAI开发者大会的日益临近,不知道急于“独立”并在争取创造大额营收的OpenAI又会做出什么样的举措呢。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论