https://www.tomshardware.com/news/chatgpt-response-quality-decline
研究人员绘制了 ChatGPT 响应质量惊人下降的图表
作者:马克·泰森 发表于 1 天前
例如,从 2023 年 3 月到 2023 年 6 月,Chat GPT-4 素数识别准确率从 97.6% 下降到 2.4%。
近几个月来,有关 ChatGPT 响应质量下降的轶事证据和普遍抱怨不断涌现。 来自斯坦福大学和加州大学伯克利分校的一组研究人员决定确定是否确实存在退化,并提出衡量有害变化规模的指标。 长话短说,ChatGPT 质量的大幅下降当然是无法想象的。
三位杰出学者 Matei Zaharia、Lingjiao Chen 和 James Zou 是最近发表的研究论文《ChatGPT 的行为如何随时间变化?》的幕后黑手。 (PDF) 今天早些时候,加州大学伯克利分校计算机科学教授 Zaharia 在 Twitter 上分享了这一发现。 他惊人地强调,“从 3 月到 6 月,GPT -4 在‘这个数是素数吗?一步步思考’上的成功率从 97.6% 下降到了 2.4%。”
GPT-4 大约两周前全面上市,并被 OpenAI 誉为最先进、功能最强大的模型。 它很快就向付费 API 开发人员发布,声称它可以为一系列新的创新人工智能产品提供支持。 因此,令人悲伤和惊讶的是,新研究发现在面对一些非常简单的查询时如此需要高质量的答复。
我们已经在上面的素数查询中给出了 GPT-4 最高失败率的示例。 研究团队设计了任务来衡量 ChatGPT 底层大语言模型 (LLM) GPT-4 和 GPT-3.5 的以下定性方面。 任务分为四类,衡量各种人工智能技能,同时评估性能相对简单。
解决数学问题
回答敏感问题
代码生成
视觉推理
下图概述了开放 AI 法学硕士的表现。 研究人员对 2023 年 3 月和 2023 年 6 月版本的 GPT-4 和 GPT-3.5 版本进行了量化。
ChatGPT 质量研究
(图片来源:Matei Zaharia、Lingjiao Chen、James Zou)
清楚地表明,随着时间的推移,“相同的”LLM 服务对查询的回答有很大不同。 在这段相对较短的时间内,可以看到显着的差异。 目前尚不清楚这些法学硕士如何更新,以及提高其某些方面表现的改变是否会对其他方面产生负面影响。 查看最新版本的 GPT-4 在三个测试类别中与 3 月份的版本相比“糟糕”了多少。 它在视觉推理方面仅以微弱优势获胜。
ChatGPT 质量研究
(图片来源:Matei Zaharia、Lingjiao Chen、James Zou)
有些人可能对这些法学硕士“相同版本”中观察到的质量参差不齐感到不安。 然而,研究人员指出,“由于 ChatGPT 的流行,GPT-4 和 GPT-3.5 都已被个人用户和许多企业广泛采用。” 因此,某些 GPT 生成的信息有可能影响您的生活。
研究人员表示他们打算在一项更长期的研究中继续评估 GPT 版本。 也许 Open AI 应该为其付费客户监控并发布自己的定期质量检查。 如果这一点还不清楚,那么企业或政府组织可能有必要检查这些法学硕士的一些基本质量指标,这可能会产生重大的商业和研究影响。
查看更多
人工智能和法学硕士技术对令人惊讶的问题并不陌生,而且由于该行业的数据盗窃指控和其他公关泥潭,它目前似乎是互联生活和商业的最新“狂野西部”前沿。