ChatGPT和Stack Overflow,谁的答案更好?

干货分享7个月前发布 Youzhizhan
1,210 0


只有当ChatGPT答案非常明显时,用户才能意识到错误。但是,当错误不容易验证或需要外部IDE或文档时,用户经常无法识别错误或低估答案中的错误程度。”礼貌的语言,清晰的教科书式答案,全面性和答案的相关性会使完全错误的答案看起来正确。”

最新”谁的答案更好?”美国普渡大学发布.深入分析ChatGPT和Stack Overflow对软件工程问题的回答》研究报告指出,ChatGPT在回答软件编程问题时的错误率超过一半。

研究小组分析了ChatGPT对517个堆栈溢出问题的回答,以评估ChatGPT的正确性,一致性,全面性和简洁性answers.At 同时,对这些答案进行了大规模的语言分析和用户研究,以了解ChatGPT答案在语言和人性化方面的特点。

结果显示,ChatGPT的答案中有52%是错误的,77%的答案过于冗长。但尽管如此,鉴于其全面性和清晰的语言风格,仍有39.34%的人选择了ChatGPT的答案。

而深入的人工分析结果表明,ChatGPT的答案存在大量的概念和逻辑错误;”由于ChatGPT无法理解所提出问题的基本上下文,因此许多答案都是不正确的。”语言分析结果指出,ChatGPT的回答非常正式,很少描绘负面情绪或风险;”我们一再观察到,ChatGPT插入了’当然我可以帮助你’和’这绝对可以解决’等陈述。”

“我们的研究结果表明,有必要仔细检查和纠正ChatGPT中的错误,同时让用户意识到看似正确的ChatGPT答案所带来的风险。”

ChatGPT和Stack Overflow,谁的答案更好?

研究人员观察到,只有当用户非常明显时,用户才能意识到ChatGPT答案中的错误。但是,当错误不容易验证或需要外部IDE或文档时,用户经常无法识别错误或低估答案中的错误程度。”礼貌的语言,清晰的教科书式答案,全面性和答案的相关性会使完全错误的答案看起来正确。”

普渡大学的博士生,该论文的作者之一Samia Kabir告诉The Register,与Stack Overflow的答案相比,受访者更倾向于不正确和冗长的ChatGPT答案。造成这种现象的原因有很多:

其中一个主要原因是ChatGPT的答案非常detailed.In 许多情况下,如果参与者从冗长而详细的答案中获得有用的信息,他们并不介意answers.In 此外,积极的情绪和回答的礼貌也是另外两个因素。

当参与者发现ChatGPT的答案很有见地时,他们忽略了错误。ChatGPT自信地传达富有洞察力的信息(即使信息不正确)的方式赢得了用户的信任,这使得他们更喜欢错误的答案。

研究人员对ChatGPT答案和Stack Overflow答案的语言分析表明,机器人的反应”更正式,表达更多的分析性思维,表达更多的分析性思维,表现出更多的努力来实现目标,并”情感分析得出的结论是,ChatGPT的回答比Stack Overflow的回答表达了”更积极的情绪”。

“根据我们的研究结果和本研究的观察结果,我们建议Stack Overflow可以采用有效的方法来检测评论和答案中的毒性和负面情绪,以改善情绪和礼貌。我们还认为Stack Overflow可能希望提高答案的可发现性,以帮助找到有用的answers.In 此外,Stack Overflow可能希望提供更具体的指导方针,以帮助受访者构建答案,例如:以循序渐进,注重细节的方式。”

此外,该论文指出,这项研究工作还旨在鼓励进一步研究如何识别和减少不同类型的概念和事实错误。”我们希望这项工作能够促进更多关于机器生成答案中不准确性的透明度和交换的研究,特别是在SE的背景下。”

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...