0°

开源 Llama 2 春风得意、ChatGPT 惨遭嫌弃,OpenAI 表示不服!

  既开源又免费的 Llama 2 一经发布颇有席卷之势,成了最火爆的开源 ChatGPT 替代,国内外不少开发者及企业都跟风进行模型的研究和商业开发,比如这几天 OpenAI 传奇科学家 Andrej Karpathy 就用纯 C 语言打造了一个轻量版的 Llama 2 模型。而反观被称为大模型天花板的 GPT-4 则很不如意,深陷智商下降漩涡。

  ChatGPT 什么时候不聪明了?

  自今年三月 GPT-4 发布后,已经有不少的开发者和用户在 OpenAI 论坛提到使用 ChatGPT 时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭,有学者怀疑是 OpenAI 的系统修改和升级导致,通过削弱运算性能从而实现降本增效。然而由于 ChatGPT 闭源的属性,我们很难确定其背后的真正原因。

  OpenAI社区讨论GPT-4性能的帖子尤其热闹

  围绕 GPT 智商下降的讨论在 “How is ChatGPT’s Behavior Changing Over Time?” 论文的发布之下被推向了顶峰,来自斯坦福大学和加州大学伯克利分校的学者 Lingjiao Chen、Matei Zaharia 和 James

  既开源又免费的 Llama 2 一经发布颇有席卷之势,成了最火爆的开源 ChatGPT 替代,国内外不少开发者及企业都跟风进行模型的研究和商业开发,比如这几天 OpenAI 传奇科学家 Andrej Karpathy 就用纯 C 语言打造了一个轻量版的 Llama 2 模型。而反观被称为大模型天花板的 GPT-4 则很不如意,深陷智商下降漩涡。

  ChatGPT 什么时候不聪明了?

  自今年三月 GPT-4 发布后,已经有不少的开发者和用户在 OpenAI 论坛提到使用 ChatGPT 时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭,有学者怀疑是 OpenAI 的系统修改和升级导致,通过削弱运算性能从而实现降本增效。然而由于 ChatGPT 闭源的属性,我们很难确定其背后的真正原因。

  OpenAI社区讨论GPT-4性能的帖子尤其热闹

  围绕 GPT 智商下降的讨论在 “How is ChatGPT’s Behavior Changing Over Time?” 论文的发布之下被推向了顶峰,来自斯坦福大学和加州大学伯克利分校的学者 Lingjiao Chen、Matei Zaharia 和 James Zou 对 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 进行了任务测试,结果发现不同版本的结果出现显著的表现差异(漂移 drifting)。

  首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下,新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代码文本和注释,使回答变得繁杂冗长。同时,代码质量下降使得直接可执行代码生成的比例更低(GPT-4 从 3 月的 52%下降到 6 月的 10%)。这对于程序员们而言,可能在用 LeetCode 刷题时,自己答对的概率比 ChatGPT 还能高不少。

  而在解决数学问题方面,GPT-4 识别质数的能力从 3 月份几乎全对下降到 2.4%,而 GPT-3.5 的成功率暴涨至 86.8%。作者怀疑 GPT-3.5 相比较 GPT-4 更好地遵循了链式思维指示(Chain-Of-Thought),而新版 GPT-4 可能会在推理过程思维断裂而出错。

  在回答敏感问题方面,新版 GPT-3.5 较 3 月版更大胆,回答率从 4%增加到 8%。而新版 GPT-4 则更保守,从 21%下降到 5%。同时,GPT-4 的生成字符长度从 600 多个下降到大约 140 个,在拒绝回答时更简洁,提供的解释也更短。GPT-3.5 也发生了类似的现象。这表明新版 ChatGPT 的答案可能会更安全,但是也更怂、更不愿意解释。

  最后的任务是视觉推理。新版 GPT-4 和 GPT-3.5 的整体性能较三个月前有小幅提升,但依旧不高:GPT-4 的正确率为 27.4%,GPT-3.5 为 12.2%。值得注意的是,尽管整体性能更好,但 GPT-4 在之前没有犯的错误反而在新版里出现了,凸显了对于关键应用漂移监测的必要性。

  在论文中,作者并没有明确提及新版 ChatGPT 比较旧版性能有降级,仅仅是将观察到的漂移现象描述出来,并强调了持续评估 LLM 在生产应用程序中的行为的必要性,并建议用户和公司实施与上述四个任务类似的监控分析以保证其运行顺畅。

  Zou:“我们不完全了解是什么导致了 ChatGPT 响应的这些变化,因为这些模型是不透明的。调整模型以提高其在某些领域的性能可能会产生意想不到的副作用,使其在其他任务上变得更糟。”

  李飞飞的学生、英伟达资深 AI 科学家 Jim Fan 也表达了他对于这篇论文和 ChatGPT“反向”升级的观点。他认为,OpenAI 从 3 月到 6 月花了大部分精力做减负,导致了一些功能的损失。但同时,安全对齐(Safety Alignment)使编程变得冗余而让开发者徒增烦恼,削减成本可能会影响模型性能。

  OpenAI 回应:GPT 没有智商下降!

  面对如此多的讨论,OpenAI 否定了 ChatGPT 性能倒退的说法。OpenAI 产品副总裁 Peter Welinder 在一条推文中说:“我们并没有让 GPT-4 变得愚蠢。恰恰相反:我们使每个新版本都比前一个版本更智能。”他提出了一个猜想,“你用得越多,越能注意到以前没有看到的问题,”并鼓励大家把觉得 GPT 退化的截图发给他用以分析。

  从 OpenAI 发布的信息来看,新版本只是每三月一次例行的更新,以保证开发者一直能使用最好的模型。但同时 OpenAI 也发现,每三月一次的更新过于频繁,即使有三个月的延期,开发者仍然来不及升级他们的应用。因此,OpenAI 将最新的 OpenAI API 中对 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的支持延长到一年后的 2024 年 6 月 13 日,并表示部分情况会遇到模型回归的问题,可以通过发送更详细的 prompt 来解决。

  与此同时,OpenAI 也在集中改进被社区反馈的问题。例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布新版 ChatGPT 被提问时将不再一直以“作为一个由 OpenAI 训练的大语言模型,得到下面的结论…”为开头,这对于开发者们而言,能够更直接地获得反馈,同时对于 ChatGPT 来说,也从一定程度上减少了系统负担。

  开源才是答案?

  有趣的是,Chen 等人对 ChatGPT 测试的论文与 Llama 2 几乎同时发表,无论用途和用户,向所有人开放免费下载使用。“OSS LLM 不会这么保密。我们可以作为一个社区严格版本化和跟踪回归、诊断和修复所有这些问题,”Fan 在推文中提到。

  自 ChatGPT 横空出世之后,人人都在呼唤、渴求它的开源,然而终究是石沉大海。哪怕是当 OpenAI 创始人 Sam Altman 被直接问到关于开源的问题时,他的回答依然很巧妙地规避了 GPT 是否会开源,只是说“我们未来会有更多开源大模型,但没有具体模型和时间表”。这也是为什么 Llama 2 火速收获全球开发者及企业喜爱的关键所在。而对于搭建像 ChatGPT 一样封闭式的大语言模型,对于安全的不确定性、更持续透明的信息同步和维护依然是开发者最为迫切的需求。

Zou 对 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 进行了任务测试,结果发现不同版本的结果出现显著的表现差异(漂移 drifting)。

  首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下,新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代码文本和注释,使回答变得繁杂冗长。同时,代码质量下降使得直接可执行代码生成的比例更低(GPT-4 从 3 月的 52%下降到 6 月的 10%)。这对于程序员们而言,可能在用 LeetCode 刷题时,自己答对的概率比 ChatGPT 还能高不少。

  而在解决数学问题方面,GPT-4 识别质数的能力从 3 月份几乎全对下降到 2.4%,而 GPT-3.5 的成功率暴涨至 86.8%。作者怀疑 GPT-3.5 相比较 GPT-4 更好地遵循了链式思维指示(Chain-Of-Thought),而新版 GPT-4 可能会在推理过程思维断裂而出错。

  在回答敏感问题方面,新版 GPT-3.5 较 3 月版更大胆,回答率从 4%增加到 8%。而新版 GPT-4 则更保守,从 21%下降到 5%。同时,GPT-4 的生成字符长度从 600 多个下降到大约 140 个,在拒绝回答时更简洁,提供的解释也更短。GPT-3.5 也发生了类似的现象。这表明新版 ChatGPT 的答案可能会更安全,但是也更怂、更不愿意解释。

  最后的任务是视觉推理。新版 GPT-4 和 GPT-3.5 的整体性能较三个月前有小幅提升,但依旧不高:GPT-4 的正确率为 27.4%,GPT-3.5 为 12.2%。值得注意的是,尽管整体性能更好,但 GPT-4 在之前没有犯的错误反而在新版里出现了,凸显了对于关键应用漂移监测的必要性。

  在论文中,作者并没有明确提及新版 ChatGPT 比较旧版性能有降级,仅仅是将观察到的漂移现象描述出来,并强调了持续评估 LLM 在生产应用程序中的行为的必要性,并建议用户和公司实施与上述四个任务类似的监控分析以保证其运行顺畅。

  Zou:“我们不完全了解是什么导致了 ChatGPT 响应的这些变化,因为这些模型是不透明的。调整模型以提高其在某些领域的性能可能会产生意想不到的副作用,使其在其他任务上变得更糟。”

  李飞飞的学生、英伟达资深 AI 科学家 Jim Fan 也表达了他对于这篇论文和 ChatGPT“反向”升级的观点。他认为,OpenAI 从 3 月到 6 月花了大部分精力做减负,导致了一些功能的损失。但同时,安全对齐(Safety Alignment)使编程变得冗余而让开发者徒增烦恼,削减成本可能会影响模型性能。

  OpenAI 回应:GPT 没有智商下降!

  面对如此多的讨论,OpenAI 否定了 ChatGPT 性能倒退的说法。OpenAI 产品副总裁 Peter Welinder 在一条推文中说:“我们并没有让 GPT-4 变得愚蠢。恰恰相反:我们使每个新版本都比前一个版本更智能。”他提出了一个猜想,“你用得越多,越能注意到以前没有看到的问题,”并鼓励大家把觉得 GPT 退化的截图发给他用以分析。

  从 OpenAI 发布的信息来看,新版本只是每三月一次例行的更新,以保证开发者一直能使用最好的模型。但同时 OpenAI 也发现,每三月一次的更新过于频繁,即使有三个月的延期,开发者仍然来不及升级他们的应用。因此,OpenAI 将最新的 OpenAI API 中对 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的支持延长到一年后的 2024 年 6 月 13 日,并表示部分情况会遇到模型回归的问题,可以通过发送更详细的 prompt 来解决。

  与此同时,OpenAI 也在集中改进被社区反馈的问题。例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布新版 ChatGPT 被提问时将不再一直以“作为一个由 OpenAI 训练的大语言模型,得到下面的结论…”为开头,这对于开发者们而言,能够更直接地获得反馈,同时对于 ChatGPT 来说,也从一定程度上减少了系统负担。

  开源才是答案?

  有趣的是,Chen 等人对 ChatGPT 测试的论文与 Llama 2 几乎同时发表,无论用途和用户,向所有人开放免费下载使用。“OSS LLM 不会这么保密。我们可以作为一个社区严格版本化和跟踪回归、诊断和修复所有这些问题,”Fan 在推文中提到。

  自 ChatGPT 横空出世之后,人人都在呼唤、渴求它的开源,然而终究是石沉大海。哪怕是当 OpenAI 创始人 Sam Altman 被直接问到关于开源的问题时,他的回答依然很巧妙地规避了 GPT 是否会开源,只是说“我们未来会有更多开源大模型,但没有具体模型和时间表”。这也是为什么 Llama 2 火速收获全球开发者及企业喜爱的关键所在。而对于搭建像 ChatGPT 一样封闭式的大语言模型,对于安全的不确定性、更持续透明的信息同步和维护依然是开发者最为迫切的需求。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论