多模态ChatGPT来了!

in #cn2 months ago

刚刚,OpenAI 宣布了一项重大的技术进展:ChatGPT 现在不仅可以与用户进行文字交流,还能够“看到”和“听到”。这意味着用户不仅可以与其进行语音对话,还可以在对话中包含图像,为人工智能交互带来了前所未有的体验。

image.png

新功能概览

在未来两周,OpenAI Plus 用户将能够在 iOS 和 Android 平台上体验到 ChatGPT 的语音功能,而图像功能将在所有平台上推出。这些新功能为用户提供了更加直观的界面,使他们能够与 ChatGPT 进行语音对话,并向其展示他们正在讨论的内容。

例如,用户可以在旅行时拍摄地标的照片,并与 ChatGPT 实时讨论其中的有趣之处。回家后,他们可以拍摄冰箱和食品储藏室的照片,询问晚餐建议,并进一步获取食谱建议。此外,ChatGPT 还可以帮助用户的孩子解决数学问题,只需拍照并圈出问题集即可。

image.png

语音交互

新的语音功能由先进的文本转语音模型支持,该模型能够从文本和短暂的样本语音中生成类似人类的音频。OpenAI 与专业配音演员合作,为用户提供了五种不同的声音选择。此外,OpenAI 还使用其开源语音识别系统 Whisper,将用户的口语转录为文本。

图像交互

用户现在可以向 ChatGPT 显示一张或多张图像,无论是照片、屏幕截图还是包含文本和图像的文档,ChatGPT 都能够理解并回应。这得益于多模态 GPT-3.5 和 GPT-4 的支持,这些模型将其语言推理技能应用于广泛的图像。

安全与隐私

OpenAI 一直致力于构建安全且有益的 AGI。新的语音技术虽然为创意和可访问性应用打开了大门,但也带来了新的风险。为了确保安全,OpenAI 采取了技术措施,显著限制了 ChatGPT 分析和发表关于人员的陈述的能力。

什么时候可以用?

OpenAI 表示,Plus 和 Enterprise 用户将在接下来的两周内体验到这些新功能,并计划在不久的将来向更广泛的用户群体推出这些功能。

OpenAI 的这一新动态为 AI 交互带来了新的可能性,期待看到更多的应用和创新。

Sort:  

You've got a free upvote from witness fuli.
Peace & Love!

Upvoted! Thank you for supporting witness @jswit.

Coin Marketplace

STEEM 0.26
TRX 0.10
JST 0.031
BTC 41827.39
ETH 2200.95
USDT 1.00
SBD 5.09