ChatGPT 高级语音模式:你需要知道什么

OpenAI 本周向 ChatGPT Plus 和 Teams 用户推出了备受期待的 Advanced Voice,企业和教育客户将于下周开始使用。此次更新标志着人工智能语音交互的重大飞跃,为 ChatGPT 用户带来更自然、响应更灵敏的对话。

高级语音利用 GPT-4o,这是一种经过训练的完全多模态模型,可以原生理解语音元素。这与“标准语音”对话不同,后者依赖于单独的文本转语音和语音转文本模型。借助高级语音,您可以与 AI 进行更流畅、更情境感知的交互,并且它可以捕捉说话速度等非语言线索并以适当的情绪做出回应。

要开始高级语音对话,只需选择屏幕右下角的语音图标:

以下是 Advanced Voice 带来的主要功能:

  1. 五种新声音加入现有阵容,为用户提供九种不同个性的选择:Vale、Spruce、Arbor、Maple、Sol、Breeze、Cove、Ember 和 Juniper。
  2. 改进的口音识别功能使得跨各种英语方言的交流更加准确。
  3. 该系统目前支持超过 50 种语言,展示了其增强的多语言功能。
  4. 现在可以在语音对话中访问自定义指令和记忆功能,从而实现更加个性化的互动。

虽然使用新语音模式聊天很容易迷失方向,但请注意,使用限制会根据需求而波动。OpenAI 尚未明确说明 Plus 和 Team 用户的每日使用限制,但当您还剩 15 分钟时,您会收到通知。达到限制后,用户可以继续使用标准语音模式。


值得注意的是,Advanced Voice 尚未在欧盟成员国、英国、瑞士、冰岛、挪威和列支敦士登等几个欧洲国家推出。

OpenAI 已实施重要的语音交互隐私措施。您的对话中的音频片段与聊天记录一起存储,只要聊天记录存在,它们就会保留。如果您删除聊天,除非法律或安全要求,否则音频将在 30 天内被删除。如果您存档聊天,音频将被保留。

除非您通过数据控制下的“为每个人改善语音”设置明确选择加入,否则该公司不会在语音聊天音频片段上训练其模型。

在高级语音模式下与 ChatGPT 交互很难让人感觉非常自然。通过整合多模态理解,系统可以提供更符合语境、情感上更细腻的响应。这一发展可能为从客户服务到教育等各个领域更复杂的 AI 助手铺平道路。

随着人工智能的不断发展,高级语音模式等语音界面可能会在我们的日常数字交互中变得越来越普遍,并提供一种更直观、更易于与人工智能互动的方式。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注