新研究显示 ChatGPT 变得越来越笨

fffmCQ.jpg

最近的研究引发了关于 ChatGPT 熟练程度的有趣讨论,特别是 GPT-3.5 和 GPT-4 版本。这两次迭代作为大型语言模型服务主导了市场。

然而,由于 2023 年 3 月至 6 月期间出现了令人困惑的性能高峰和低谷,一些人想知道“ChatGPT 是否变得更笨了?”

ChatGPT 更新不会超过旧版本

来自斯坦福大学和加州大学伯克利分校的知名学者仔细研究了ChatGPT 在各种任务上的熟练程度。此次综合评估的重点是三个月内观察到的表现的 巨大不一致

这种不协调不仅令人惊讶,而且令人惊讶。它强调了技术的本质以及 持续监控其质量的必要性。

报告中写道:“我们的研究结果表明,‘相同’[大语言模型] LLM 服务的行为可以在相对做空的时间内发生巨大变化。”

ChatGPT-4 与 ChatGPT-3.5 性能对比 ChatGPT-4 与 ChatGPT-3.5 性能对比。来源: arXiv

深入研究细节,GPT-4 的数学问题解决能力在识别素数时出现了令人震惊的熟练程度下降

事实上,准确率从 3 月份令人称赞的 97.6% 骤降到 6 月份令人震惊的 2.4%。相比之下,其前身 GPT-3.5 在同一时间段内表现出大幅改进,从 7.4% 飙升至 86.8%。

了解更多:什么是 ChatGPT 插件?查看我们的 20 佳精选

这种鲜明的对比让行业专家感到困惑,因为人们预计新版本将超过前任版本。这引发了人们对“更新”和“改进”如何真正影响人工智能能力的担忧。

缺乏详细解释和代码生成

当探讨敏感问题时,该研究描绘了另一个有趣的角度。从 3 月到 6 月,GPT-4 直接回答敏感查询的次数显着减少。这表明安全层得到了加强。

然而,当拒绝回答时,其生成的解释明显被截断。这引发了人们的猜测:该模型是否过于谨慎而损害了用户参与度和清晰度。

ChatGPT-4 与 ChatGPT-3.5 详细程度 ChatGPT-4 与 ChatGPT-3.5 详细程度。来源: arXiv

然而,情况并不全是阴郁的。该研究指出了 GPT-4 以及一定程度上 GPT-3.5 表现出边际改进的一个关键领域:视觉推理。尽管总体成功率仍然相对较低,但有证据表明其绩效有所改进。

了解更多: 2023 年您可以使用的最佳 ChatGPT 替代品

真正突出的是这项技术的不可预测性。 GPT-4 的代码生成能力在生成直接可执行代码方面表现出下降。这给依赖这些模型的行业带来了危险信号,因为不一致可能会对更大的软件生态系统造成严重破坏。

不能自满

这次深入分析的关键收获不是 GPT-4 和 GPT-3.5 性能的波动,而是关于人工智能效率无常的总体教训。

随着技术的快速进步,人们隐含着这样的假设: 新型号将超越其前身。这项研究挑战了这一观点。

对于大力支持 ChatGPT 的企业和开发人员来说,要传达的信息是定期监控和评估这些模型。随着人工智能技术不断向前发展,这项研究清楚地提醒我们,进步并不是线性的。

了解更多: 2023 年值得探索的 21 个最佳 ChatGPT 提示

全球使用 ChatGPT 的公司全球使用 ChatGPT 的公司。资料来源: Statista

更新总是更好的假设可能过于简单化,技术界需要正面解决这个问题。 GPT-4 和 GPT-3.5 在几个月内的不稳定行为加剧了保持警惕、评估和重新校准的紧迫性,以确保该技术以一致的熟练程度服务于其预期目的。

声明:该文观点仅代表作者本人,与炒币网无关。炒币网系信息发布平台,仅提供信息存储空间服务。对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,并不对文章观点负责。 提示:投资有风险,入市须谨慎。本资讯仅供参阅,不作为投资理财建议。

发表评论

登录后才能评论