多模态ChatGPT来了!
刚刚,OpenAI 宣布了一项重大的技术进展:ChatGPT 现在不仅可以与用户进行文字交流,还能够“看到”和“听到”。这意味着用户不仅可以与其进行语音对话,还可以在对话中包含图像,为人工智能交互带来了前所未有的体验。
新功能概览
在未来两周,OpenAI Plus 用户将能够在 iOS 和 Android 平台上体验到 ChatGPT 的语音功能,而图像功能将在所有平台上推出。这些新功能为用户提供了更加直观的界面,使他们能够与 ChatGPT 进行语音对话,并向其展示他们正在讨论的内容。
例如,用户可以在旅行时拍摄地标的照片,并与 ChatGPT 实时讨论其中的有趣之处。回家后,他们可以拍摄冰箱和食品储藏室的照片,询问晚餐建议,并进一步获取食谱建议。此外,ChatGPT 还可以帮助用户的孩子解决数学问题,只需拍照并圈出问题集即可。
语音交互
新的语音功能由先进的文本转语音模型支持,该模型能够从文本和短暂的样本语音中生成类似人类的音频。OpenAI 与专业配音演员合作,为用户提供了五种不同的声音选择。此外,OpenAI 还使用其开源语音识别系统 Whisper,将用户的口语转录为文本。
图像交互
用户现在可以向 ChatGPT 显示一张或多张图像,无论是照片、屏幕截图还是包含文本和图像的文档,ChatGPT 都能够理解并回应。这得益于多模态 GPT-3.5 和 GPT-4 的支持,这些模型将其语言推理技能应用于广泛的图像。
安全与隐私
OpenAI 一直致力于构建安全且有益的 AGI。新的语音技术虽然为创意和可访问性应用打开了大门,但也带来了新的风险。为了确保安全,OpenAI 采取了技术措施,显著限制了 ChatGPT 分析和发表关于人员的陈述的能力。
什么时候可以用?
OpenAI 表示,Plus 和 Enterprise 用户将在接下来的两周内体验到这些新功能,并计划在不久的将来向更广泛的用户群体推出这些功能。
OpenAI 的这一新动态为 AI 交互带来了新的可能性,期待看到更多的应用和创新。
You've got a free upvote from witness fuli.
Peace & Love!
Upvoted! Thank you for supporting witness @jswit.