Google PaLM2训练中使用的文本数据量是原始生成的近五倍

干货分享10个月前发布 Youzhizhan
1,701 0


Google最新的PaLM2可以执行更高级的编程,计算和创意写作任务。内部文件显示,用于训练PaLM2的令牌数量为3.6万亿。

Google PaLM2训练中使用的文本数据量是原始生成的近五倍

5月17日消息,谷歌上周在2023年I/O开发者大会上推出了最新的大规模语言模型PaLM2。公司内部文件显示,自2022年以来用于训练新模型的文本数据量几乎是上一代的5倍。

据悉,谷歌最新的PaLM2可以执行更高级的编程,计算和创意写作任务。内部文件显示,用于训练PaLM2的令牌数量为3.6万亿。

所谓token就是字符串。 人们会对训练模型中使用的文本中的句子和段落进行划分。 其中的每个字符串通常称为令牌。这是训练大型语言模型的重要部分,它可以教导模型预测序列中下一个将出现哪个单词。

谷歌在2022年发布的上一代大规模语言模型PaLM在训练中使用了7800亿个令牌。

尽管谷歌一直热衷于展示其在人工智能技术领域的实力,并解释如何在搜索引擎,电子邮件,文字处理和电子表格中嵌入人工智能,但它一直不愿透露训微软支持的OpenAI也对新发布的GPT-4大规模语言模型的细节保密。

两家公司都表示,不披露这些信息的原因是人工智能行业的激烈竞争。Google和OpenAI都希望吸引那些希望使用聊天机器人而不是传统搜索引擎来搜索信息的用户。

然而,随着人工智能领域竞争的加剧,研究界要求提高透明度。

自PaLM2推出以来,Google一直表示新模型比以前的大型语言模型更小,这意味着该公司的技术可以在完成更复杂的任务时变得更高效。参数通常用于说明语言模型的复杂性。根据内部文件,PaLM2获得了340十亿参数的训练,而原始PaLM获得了540十亿参数的训练。

谷歌没有立即发表评论。

谷歌在一篇关于Palm2的博客文章中表示,新模型使用了一种名为”计算优化缩放”的”新技术”,可以使PaLM2″更高效,具有更好的整体性能,如更快的推理,更少的””

当PaLM2发布时,Google透露新模型用100语言进行了训练,能够完成各种任务。PaLM2用于25功能和产品,包括Google的实验性聊天机器人Bard。PaLM2根据参数规模有四个不同的版本,从小到大,它们分别是壁虎(gecko),水獭(Otter),野牛(bison)和独角兽(unicorn)。

根据谷歌公开披露的信息,PaLM2比任何现有型号都更强大。Facebook在今年2月宣布推出名为LLaMA的大规模语言模型,该模型在培训中使用了1.4万亿个令牌。OpenAI在发布GPT-3时披露了相关的训练量表。 当时,该公司表示,该模型已经接受了300十亿的培训tokens.In 今年3月,OpenAI发布了一款新型号GPT-4,并表示它在许多专业测试中显示出”人类水平”。

根据最新文件,谷歌两年前推出的语言模型已经获得了1.5万亿令牌的培训。

随着新的衍生式人工智能应用迅速成为科技行业的主流,围绕底层技术的争议也越来越激烈。

今年2月,谷歌研究部门的高级科学家El Mahdi El Mhamdi因该公司缺乏透明度而辞职。周二,OpenAI首席执行官Sam Altman在美国参议院司法委员会关于隐私和技术的听证会上作证,并且还同意使用新系统处理人工智能。

“对于一项非常新的技术,我们需要一个新的框架,”奥特曼说。 “当然,像我们这样的公司对他们推出的工具负有很大责任。”

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...