斯坦福大学的一项研究发现,AI聊天机器人ChatGPT的性能非常不稳定

干货分享6个月前发布 Youzhizhan
1,274 0


斯坦福大学的一项新研究发现,流行的生成式人工智能(AI)聊天机器人ChatGPT的功能在几个月内波动。

斯坦福大学的一项研究发现,AI聊天机器人ChatGPT的性能非常不稳定

9月7日,斯坦福大学的一项新研究发现,流行的生成式人工智能(AI)聊天机器人ChatGPT的功能在几个月内出现了波动。

斯坦福团队评估
ChatGPT如何在几个月内处理不同的任务。他们发现ChatGPT的功能随着时间的推移而不一致。目前,ChatGPT有两个版本
—-免费的GPT-3.5型号和更智能,更快的付费GPT-4版本。 研究人员发现GPT-4在3
它可以有效地解决数学问题,识别素数的准确率为97.6%。三个月后,其准确率降至2.4%。另一方面,GPT-3.5变得更好,从7.4%的准确性到86.8%。

斯坦福大学的一项研究发现,AI聊天机器人ChatGPT的性能非常不稳定

研究人员还注意到编写代码和视觉推理的类似波动。斯坦福大学计算机科学教授
邹占士
说:”当我们调整一个大型语言模型以提高其在某些任务上的性能时,可能会出现许多意想不到的后果,这些后果可能会损害此模型在其他任务上的性能。……
该模型回答问题的方式存在各种相互依赖性,这可能导致我们观察到的一些恶化行为。”

研究人员认为,结果并不能真正反映ChatGPT性能的准确性。,相反,它显示了微调模型的意外后果。本质上来说,当模型的一个部分被修改以改进一个任务时,其他任务可能会受到影响。很难确定为什么会出现这种情况,因为没有人知道ChatGPT是如何工作的,而且它的代码不是开源的。

随着时间的推移,研究人员注意到ChatGPT的答案不仅变得不那么准确,而且停止解释其推理过程。

由于ChatGPT的运作方式,研究和衡量其性能可能很困难。 本研究强调需要观察和评估驱动ChatGPT等工具的大型语言模型(LLM)的性能变化。该研究已在arXiv上发表,正在等待同行评审。 IT之家在这里附上了链接。

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...