多模态ChatGPT来了！

huangzuomin (75)in #cn • 3 years ago

刚刚，OpenAI 宣布了一项重大的技术进展：ChatGPT 现在不仅可以与用户进行文字交流，还能够“看到”和“听到”。这意味着用户不仅可以与其进行语音对话，还可以在对话中包含图像，为人工智能交互带来了前所未有的体验。

新功能概览

在未来两周，OpenAI Plus 用户将能够在 iOS 和 Android 平台上体验到 ChatGPT 的语音功能，而图像功能将在所有平台上推出。这些新功能为用户提供了更加直观的界面，使他们能够与 ChatGPT 进行语音对话，并向其展示他们正在讨论的内容。

例如，用户可以在旅行时拍摄地标的照片，并与 ChatGPT 实时讨论其中的有趣之处。回家后，他们可以拍摄冰箱和食品储藏室的照片，询问晚餐建议，并进一步获取食谱建议。此外，ChatGPT 还可以帮助用户的孩子解决数学问题，只需拍照并圈出问题集即可。

新的语音功能由先进的文本转语音模型支持，该模型能够从文本和短暂的样本语音中生成类似人类的音频。OpenAI 与专业配音演员合作，为用户提供了五种不同的声音选择。此外，OpenAI 还使用其开源语音识别系统 Whisper，将用户的口语转录为文本。

用户现在可以向 ChatGPT 显示一张或多张图像，无论是照片、屏幕截图还是包含文本和图像的文档，ChatGPT 都能够理解并回应。这得益于多模态 GPT-3.5 和 GPT-4 的支持，这些模型将其语言推理技能应用于广泛的图像。

OpenAI 一直致力于构建安全且有益的 AGI。新的语音技术虽然为创意和可访问性应用打开了大门，但也带来了新的风险。为了确保安全，OpenAI 采取了技术措施，显著限制了 ChatGPT 分析和发表关于人员的陈述的能力。

OpenAI 表示，Plus 和 Enterprise 用户将在接下来的两周内体验到这些新功能，并计划在不久的将来向更广泛的用户群体推出这些功能。

OpenAI 的这一新动态为 AI 交互带来了新的可能性，期待看到更多的应用和创新。

3 years ago in #cn by huangzuomin (75)

Sort:

fuli (66) 3 years ago

You've got a free upvote from witness fuli.
Peace & Love!

$0.00

jswit (75) 3 years ago

Upvoted! Thank you for supporting witness @jswit.

$0.00

STEEM 0.04

TRX 0.32

JST 0.087

BTC 59763.81

ETH 1570.73

USDT 1.00

SBD 0.42