ChatGPT 现在还可以理解图像和语音命令

OpenAI 不断改进 ChatGPT 聊天机器人。新版本允许用户通过语音和图像激活ChatGPT，带来了新的问题和担忧。那么新版本会带来什么以及何时推出？

OpenAI 对 ChatGPT 的大部分改动都与这款人工智能机器人的功能有关：它可以回答哪些问题，可以访问哪些信息等等。但这一次，它也改变了用户使用 ChatGPT 的方式。该公司推出了一个新版本，用户不仅可以通过在文本框中输入句子与人工智能机器人互动，还可以通过语音对话或上传图片来与它互动。这些新功能将在未来几周内向 Plus 会员开放，其他用户也将“很快”获得这些新功能。

语音指令部分并没有什么突破性的创新：你点击一个按钮，说出你的问题，ChatGPT 会将其转换为文本，并输入到一个大型语言模型中，获取答案后再将其转换回语音，以语音形式回答你。这应该类似于与 Alexa 或 Google Assistant 对话，只不过——OpenAI 希望——由于底层技术的改进，答案会更好。大多数虚拟助手似乎都在进行改造，以集成大型语言模型——而 OpenAI 目前在这方面处于领先地位。

OpenAI 出色的 Whisper 模型承担了大部分语音转文本的工作，该公司还推出了一款新的文本转语音模型，据说该模型能够“仅凭文本和几秒钟的语音样本就能生成类似人声的声音”。用户可以从五个选项中选择 ChatGPT 的语音，但 OpenAI 似乎认为该模型拥有更大的潜力。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。合成语音有很多有趣的用途，而 OpenAI 有望成为该行业的重要参与者。

无论如何，只需几秒钟的录音就能生成逼真的合成语音，这无疑为各种潜在的问题应用场景打开了大门。“这些功能带来了新的威胁，例如恶意行为者可能冒充公众人物等等，”该公司在宣布新功能的博文中写道。正因如此，该模型并未向公众开放，而是受到更严格的控制，仅限于特定应用场景和合作关系。

图片搜索功能有点类似于Google Lens。您拍一张照片，ChatGPT 会尝试理解您的问题并做出相应的回应。您还可以使用应用程序中的绘图工具使问题尽可能清晰，或者说出或输入与图片相关的问题。这就是 ChatGPT 的本质特别方便的地方：您可以在此过程中推动机器人并改进答案，而不是运行搜索，得到错误的答案，然后运行新的搜索。这与谷歌在多模式搜索方面所做的非常相似。

显然，在 ChatGPT 中加入图像也存在一些缺点。其中之一就是当 ChatGPT 用于“真人”时：OpenAI 表示，他们有意限制了“ChatGPT 分析和直接描述人的能力”，这既是为了保证准确性，也是为了保护隐私。这意味着，人工智能最科幻的设想之一——通过观察一个人的外貌来识别其身份——在短期内还无法实现。这或许是件好事。

ChatGPT 的鼎盛时期已经过去近一年了，OpenAI 似乎仍在试图找出如何在不产生新问题和缺点的情况下为其模型提供更多特性和功能。在发布新产品时，该公司试图通过有意识地限制其新型号的功能来走这条路线。但事实是这种方法并不总是有效。随着越来越多的人使用语音控制和图像搜索，并且随着 ChatGPT 越来越接近成为真正的多模式、有用的虚拟助手，维护所有这些保护措施将变得越来越困难。