Replica Designer Watches: 跨境电商资讯：遥遥领先的OpenAI慢下

2024-05-15

"如果发布的是 GPT-5，那 OpenAI 依然遥遥领先。如果是 AI Search 或者是语音助手，那就说明 OpenAI 没落了。"

一位 AI 大模型从业者告诉虎嗅，业内对 OpenAI 的期待太高，除非是 GPT-5 这样的颠覆式创新，否则很难满足观众的"胃口"。

虽然 Sam Altman 在 OpenAI 线上直播前，已经预告不会发布 GPT-5（或 GPT-4.5），但外界对 OpenAI 的期待早已是九牛拉不转了。

北京时间 5 月 14 日凌晨，OpenAI 公布了最新的 GPT-4o，o 代表 Omnimodel（全能模型）。20 多分钟的演示直播，展示了远超当前所有语音助手的 AI 交互体验，与外媒此前透露的消息基本重合。

虽然 GPT-4o 的演示效果仍可称得上"炸裂"，但业内人士普遍认为很难配得上 Altman 预告中的"魔法"二字。很多人认为，这些功能性的产品，都是"偏离 OpenAI 使命"的。

OpenAI 的 PR 团队似乎也预料到了这种舆论走向。发布会现场以及会后 Altman 发布的博客中对此解释道：

"我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。

当我们创办 OpenAI 时，我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反，现在看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，让我们所有人都受益。"

遥遥领先的 GPT-4o

"如果我们必须等待 5 秒钟才能得到'每个'回复，用户体验就会一落千丈。即使合成音频本身听起来很真实，它也会破坏沉浸感，让人感觉毫无生气。"

在 OpenAI 发布会前夕，英伟达 Embodied AI 负责人 Jim Fan 在 X 上预测了 OpenAI 会发布的语音助手，并提出：

几乎所有的语音 AI 都会经历三个阶段：

1. 语音识别或"ASR"：音频->文本1，例如 Whisper；

2. 计划下一步要说什么的 LLM：text1 -> text2;

3. 语音合成或"TTS"：text2 ->音频，例如 ElevenLabs 或 VALL-E。

经历 3 个阶段会导致巨大的延迟。

GPT-4o 在响应速度方面，几乎解决了延迟问题。GPT-4o 的响应音频输入的最短时长为 232 毫秒，平均响应时长 320 毫秒，几乎与人类相似。没有使用 GPT-4o 的 ChatGPT 语音对话功能平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒（GPT-4)。

GPT-4o 不仅通过缩短延迟极大地提升了体验，还在 GPT-4 的基础上做了很多升级包括：

1、极佳的多模态交互能力，包括语音、视频，以及屏幕共享。

2、可以实时识别和理解人类的表情，文字，以及数学公式。

3、交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至"即兴"唱歌。

4、超低延时，且可以在对话中实时打断 AI，增加信息或开启新话题。

5、所有 ChatGPT 用户均可免费使用（有使用上限）。

6、速度是 GPT-4 Turbo 的 2 倍，API 成本低 50%，速率限制高 5 倍。

"没落"的 OpenAI

"这些局限性的突破都是创新。"

有业内专家认为，GPT-4o 的多模态能力只是"看起来"很好，实际上 OpenAI 并未展示对于视觉多模态来说真正算是"突破"的功能。

这里我们按大模型行业的习惯，对比一下隔壁厂 Anthropic 的 Claude 3。

Claude 3 的技术文档中提到，"虽然 Claude 的图像理解能力是尖端的，但需要注意一些局限性"。

其中包括：

1、人物识别：Claude 不能用于在图像中识别（即姓名）人物，并将拒绝这样做。

2、准确性：Claude 在解释 200 像素以下的低质量、旋转或非常小的图像时，可能会产生幻觉或犯错误。

3、空间推理：克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务，例如读取模拟钟面或描述棋子的确切位置。

4、计数：Claude 可以给出图像中物体的近似计数，但可能并不总是精确准确的，特别是对于大量小物体。

5、AI 生成的图像：Claude 不知道图像是否是人工智能生成的，如果被问到，可能不正确。不要依赖它来检测假图像或合成图像。

6、不适当的内容：Claude 不会处理违反我们可接受使用政策的不适当或露骨的图像。

7、医疗保健应用：虽然 Claude 可以分析一般医学图像，但它不是为解释 CT 或 MRI 等复杂诊断扫描而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。

在 GPT-4o 网站发布的案例中，有一些与"空间推理"有相关的能力，但仍难算得上突破。

此外，从发布会现场演示中 GPT-4o 输出的内容很容易看出，其模型能力与 GPT-4 相差并不大。

Replica Designer Watches