DALL*E3关键技术公开!这篇19页的论文揭示了如何”遵循命令”到提示词

干货分享5个月前更新 Youzhizhan
1,710 0


一出现就爆炸的DALL*E3有了新的趋势!

这次直接宣布是对的聊天加企业版户开放,披露了更多”官方推荐案例”。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

不仅如此,OpenAI还在一篇论文中透露了DALL·E3。主要技术细节

与其他AI相比,DALL*E3的最佳性能应该属于提示词的完美后续已经。

无论是对环境的整体描述,还是对物品数量、衣着、颜色的详细描述,DALL*E3都能很好地理解,不漏点地生成相应的画作。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

该论文一公开,可以说解决了”如何使DALL·E3按照指示进行”的问题,这让许多人感到困惑。 有网友感叹。:

OpenAI终于又开了?

DALL*E3关键技术公开!这篇19页的论文揭示了如何

让我们来看看这篇DALL*E3论文的关键细节及其更多的用例。

使用数据集使DALL*E3″跟随订单”

我们先来看看DALL*E3论文的最大亮点:提示词跟随(提示如下)。

以前很多画AI会刻意忽略提示词中的某些关键词,或者混淆提示词的含义(多义词如列、列或列),简单的说就是文字提示词与图片的细节不对齐。

经过一番分析,OpenAI研究人员认为这是数据集锅。

现有的图像-文本到数据集,文本对图像的描述可以说是”惜字如金”。

特别是在互联网上拍摄的数据集中,对图像的描述大多只有一句话,更不用说细节了。包括环境和对象,有4种主要类型的文本描述很容易被忽略

  • 场景中物体的描述,如厨房的水槽,人行道上的停车标志等。;
  • 对象的位置和数量的描述
  • 对象颜色和大小的描述
  • 图像中的文字描述(如商店招牌上呈现的字母/汉字)

另外,网上拍下来的图片还有很多文字描述,直接错误或不相关,如stem图像或Alt文本(图像加载失败时在网页上呈现的文本描述)。

为此,有必要重新组织与这些图像相对应的文本数据,以更准确地描述图像中的场景和对象。

光靠人力是不太可能的,毕竟产生的”废话文献”太多了。

和RLHF一样,OpenAI也在一波波中”自动化”了这个过程,让AI去做。

他们训练了一个“图像字幕装置”(picture captioner),专门用于为数据集中的图像重新生成文本描述。

这就是”图片字幕装置”对数据集中的一些图片生成文字描述的效果:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

现在的描述要详细得多。

那么,使用AI合成文本,实际训练的模型真的能提高生成效果吗?

研究人员用开源模型(如CLIP)测试了一波,并得出结论,这是可能的。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

然而,不可能完全使用合成文本描述。 毕竟,AI产生的内容可能有一些”神秘的共性”,它被直接全部接受。易造成图像过拟合

因此,OpenAI也尝试了一波合成文本描述-在CLIP上的图像数据集。

他们发现数据集混合95%在合成文本-图像数据时,CLIP具有最佳效果。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

最终,他们决定95%的图像是用合成文本描述的,其余5%的图像仍然是手动描述的。 他们用这种比例的文本-图像数据集重新训练DALL·E3,并取得了良好的效果。

最后,OpenAI还采用人工评估方法对DALL·E3等模型进行了测试。

评估方法大致是这样的,询问人类哪个图像可以更好地遵循提示词或生成更好看的图像。

DALL*E3关键技术公开!这篇19页的论文揭示了如何
DALL*E3关键技术公开!这篇19页的论文揭示了如何

结果表明,与Midjourney5.2,SDXL和DALL·E2相比,DALL·E3在提示词跟随和风格匹配等任务测试中取得了良好的效果。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

向企业和Plus用户开放

除了这篇论文,OpenAI这次还公布了DALL*E3的另一个趋势–to聊天加企业版开门。

在宣布这一消息的同时,OpenAI还为公司和机构提供了使用DALL·E3的建议,例如做科学项目。:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

从事网站设计:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

或帮助公司设计徽标:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

当然,无论是ChatGPT Plus还是企业版,都还是收费项目。

目前,唯一可以免费玩DALL*E3的地方应该是微软的新Bing。

DALL*E3关键技术公开!这篇19页的论文揭示了如何

很多网友对OpenAI带来的DALL·E3的新消息感到兴奋。

有网友表示,DALL*E3的出现确实给设计圈带来了改变,比如饮料包装的设计等。:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

已经有网友在催促API的到来:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

然而,一些网友对这次更新并不十分满意,特别是DALL·E3论文中涉及的技术信息。:

直接使用Google的T5文本编码器和卷积解码器。 这是公司快速发展的结果吗?

DALL*E3关键技术公开!这篇19页的论文揭示了如何

以下是网友提到的DALL·E3论文的详细内容:

DALL*E3关键技术公开!这篇19页的论文揭示了如何

如果您对DALL·E3的更多技术细节感兴趣,也可以在论文中找到答案~

纸张地址:https://cdn.openai.com/papers/dall-e-3.pdf

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...