Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

干货分享10个月前发布 Youzhizhan
1,656 0


由加州大学伯克利分校领导的”LLM排位赛”已经更新了两次!

这一次,最新的名单迎来了新玩家,PaLM2(也是Bard),Claude-instant-v1,MosaicML MPT-7b和Vicuna-7b。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

值得一提的是,即使是经济实惠的克劳德模型版本,Elo得分也已经超过了ChatGPT。

但一名球员的表现出乎意料地令人印象深刻-Google PaLM2排名第六,落后于Vicunna-13b。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

4月24日至5月22日的数据

棕榈2(吟游诗人)资格赛

自Google PaLM2发布以来,根据该论文的测试,它的一些性能已经超过了GPT-4。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

它的表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口将PaLM2添加到Chatbot Arena中,并使用代号chat-bison@001进行聊天调优。

在过去的两周里,PaLM2已经与16个聊天机器人进行了大约1,800次匿名比赛,目前排名第六。

从排名中可以看出,PaLM2的排名高于所有其他开源聊天机器人,除了Vicuna-13b。

Vicuna-13b的ELO得分比PaLM2高出12分(Vicuna1054vs.PaLM2 1042),就ELO水平而言,这几乎是平局。

此外,研究人员从PaLM2的arena数据中注意到以下有趣的结果。

PaLM2对前4名球员的表现更好,分别是GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。此外,它还赢得了53%的比赛对骆马。

然而,PaLM2在对阵较弱型号时表现不佳。

在PaLM2参加的所有比赛中,21.6%的比赛输给了GPT-4,Claude-v1,GPT-3.5-turbo和Claude-instant-v1之一。

作为参考,GPT-3.5-turbo仅在这些聊天机器人中失去了12.8%的游戏。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

三大缺陷

总之,研究人员发现,与评估的其他模型相比,Google Cloud Vertex API的现有PaLM2存在以下缺陷:

-PaLM2受到更严格的监管,这会影响其回答某些问题的能力

-有限的多语言能力

-推理能力差

更严格的监管

在与用户的对话中,当PaLM2遇到不确定或不愿意的问题时,它比其他模型更容易放弃回答。

粗略估计,在所有匹配的战斗中,PaLM2输掉了20.9%的比赛,因为它拒绝回答questions.In 特别是,30.8%的比赛输给了不是前4名的模特。

这也可以解释为什么PaLM2经常输给排行榜上较弱的聊天机器人。

与此同时,它也反映了聊天机器人竞技场方法论的一个缺陷,因为休闲用户更有可能因为微妙的不准确答案而惩罚弃权。

下面,研究人员提供了几个失败的案例来说明PaLM2如何输给弱聊天机器人。

此外,研究人员注意到,有时很难明确定义LLM的边界supervision.In 提供的PaLM2版本,已经看到了一些不受欢迎的趋势:

-PaLM2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

-有时PaLM2拒绝回答简单而无争议的事实问题。

以下是PaLM2拒绝回答问题的几个例子:

“人类真的登陆月球了吗?」

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

“为什么天空是蓝色的?」

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

多语言能力有限

PaLM2倾向于不回答非英语问题,包括用中文,西班牙语和希伯来语等流行语言编写的问题。

研究人员表示,无法使用当前的PaLM2版本重现”PaLM2技术报告”中演示的几个多语言示例。

此外,加州大学伯克利分校的研究人员还计算了仅单独考虑英语和非英语会话时所有模型的Elo分数。

结果证实PaLM2在非英语排名中排名第16位。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

推理能力弱

研究人员表示,他们没有发现PaLM2具有很强的推理能力。

一方面,它似乎能够检测问题是否是”纯文本”,并且倾向于拒绝回答不是纯文本的问题,例如编程语言中的问题,调试和代码解释。

另一方面,与其他聊天机器人相比,PaLM2在一些入门级推理任务上表现不佳。

即使是1+2是否等于3的简单问题也被错误地回答。..

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

删除非英语和拒绝对话后的Elo分数

研究人员删除了所有非英语对话以及PaLM2没有提供答案的所有对话,并在重新排名后使用过滤后的数据计算每个模型。——

PaLM2跃升至第五位,但仍未超过ChatGPT。

而这个排名也代表了PaLM2在竞技场中的假设上限。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

具有较小参数的模型具有很强的竞争力

研究人员观察到,包括vicuna-7b和mpt-7b-chat在内的几个参数较小的模型在排名中排名相对较高。

与具有巨大参数的大型模型相比,这些较小的模型也表现良好。

由此,研究人员推测,数据集的高质量预训练和微调比模型规模更重要。

然而,更大的模型在更复杂的推理任务或回答更微妙的问题时仍然可能表现更好。

因此,在预训练和微调阶段管理高质量数据集似乎是减小模型大小同时保持模型高质量的关键方式。

Claude-v1和Claude-instant-v1

此外,Claude-instant-v1是针对低延迟,高吞吐量用例进行了优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153对1143)。

可以看出,Claude和Claude-instant之间的得分差距似乎比GPT-4和GPT-3.5-turbo之间的差距要小。

限制

聊天机器人资格赛主要是基于LLM(大语言模型)对聊天机器人的”真实环境”进行基准测试。

这意味着用户提供的投票数据和投票过程中产生的提示-答案反映了聊天机器人在正常人机交互中的表现。

这可能与LLM研究文献中许多基准的结果不匹配,这些基准倾向于描述零射击和复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在局限性。

作者简介

该评价主要由LMSYS组织的张浩、郑连敏、蒋伟林、英生和离子斯托卡完成。

Google PaLM2弱爆:LLM排名第六,倒数第二准中文|UC Berkeley排名出炉

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...