ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

干货分享5个月前发布 Youzhizhan
1,311 0


官方还给出了另一个实际场景思路:打开冰箱拍照,问AI晚餐吃什么,生成完整的食谱。该更新将在未来两周内向ChatGPT Plus订阅者和企业版用户推出,由iOS和Android支持。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

OpenAI连发两则重磅消息。 首先,ChatGPT可以观看,收听和交谈。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

新版本的ChatGPT开辟了一种更直观的交互方式,可以向AI展示正在谈论的内容。

例如,拍照并询问如何调整自行车座椅的高度。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

官方还给出了另一个实际场景思路:打开冰箱拍照,问AI晚餐吃什么,生成完整的食谱。

该更新将在未来两周内向ChatGPT Plus订阅者和企业版用户推出,由iOS和Android支持。

与此同时,gpt-4v型号多模态版本的更多细节也将发布。

其中最令人惊讶的是,多模式版本早在2022年3月就已经进行了培训。……

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

看到这里,有网友问:短短5分钟就死了多少初创企业?

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

准备好看到和听到,一种新的互动方式

在更新的ChatGPT手机应用程序中,您可以直接拍照并上传,并询问有关照片中的内容的问题。

例如””如何调整自行车座椅的高度”,ChatGPT将给出详细的步骤。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

如果你完全不熟悉自行车的结构也没关系,你也可以圈出照片的一部分,问ChatGPT,”这就是你在说的吗?””.

这就像在现实世界中用你的手指向某人一样。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

如果您不知道使用什么工具,您甚至可以打开工具箱并将其带到ChatGPT。 它不仅可以指出你需要的工具在左边,甚至标签上的文字都可以理解。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

事先获得使用资格的用户也分享了一些测试结果。

可以分析自动化工作流程图。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

但他没认出剧照是从哪部电影来的。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

亲爱的朋友们,欢迎在评论区回复

语音部分的演示也是上周DALL*E3演示的联动彩蛋。

让ChatGPT将5岁孩子的幻想”超级向日葵刺猬”讲述成一个完整的睡前故事。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

DALL*E3演示

本次ChatGPT讲述的故事正文摘录如下:

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

过程中多轮语音交互的更具体细节,以及语音试听,请参考视频。

,再生时间01:41

多模态GPT-4V能力的秘密

将所有公布的视频演示与GPT-4v系统卡中的内容结合起来,网友们用快手总结出了GPT-4v视觉能力的大秘密。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

  • 目标检测:GPT-4v可以检测和识别图像中的常见物体,如汽车,动物,家居用品等。在标准图像数据集上评估其对象识别能力。
  • 文本识别:该模型具有光学字符识别(OCR)功能,可以检测图像中的打印或手写文本,并将其转录为机器可读文本。这在文档,徽标,标题等图像中进行了测试。
  • 人脸识别:GPT-4V可以定位和识别人脸images.It 具有一定的基于五官识别性别、年龄、种族属性的能力。它的面部分析能力是在FairFace和LFW等数据集上测量的。
  • 验证码解析:在解决基于文本和图像的验证码时,GPT-4v表现出视觉推理能力。这表明该模型具有先进的解谜技巧。
  • 地理定位:GPT-4v具有识别景观图像中描绘的城市或地理位置的能力,这证明该模型吸收了关于现实世界的知识,但它也代表了隐私泄露的风险。
  • 复杂图像:该模型很难准确解释复杂的科学图表、医学扫描或具有多个重叠文本的图像components.It 错过了上下文细节。

与此同时,它还总结了目前的GPT-4V限制

  • 空间关系:模型可能很难理解对象的精确空间布局和位置。picture.It 可能无法正确传达对象之间的相对位置。
  • 对象重叠:当图像中的物体严重重叠时,GPT-4v有时无法区分一个物体的结束位置和下一个物体的开始位置object.It 可以将不同的物体混合在一起。
  • 背景/前景:该模型并不总是准确地感知前景和背景中的物体。picture.It 可能错误地描述对象关系。
  • 座:当图像中的某些物体被其他物体部分遮挡或遮挡时,GPT-4v可能无法识别被遮挡的物体或错过它们与周围物体的关系。
  • 详情:模型经常遗漏或误解非常小的对象、文本或图像中的复杂细节,从而导致错误的关系描述。
  • 上下文推理:GPT-4v缺乏较强的视觉推理能力来深入分析图像的上下文并描述对象之间的隐含关系。
  • 信心:模型可能会错误地描述对象关系,并且与图像的内容不匹配。

与此同时,系统卡还强调”目前在科研和医疗使用方面的表现不可靠。”

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

此外,后续研究将继续研究是否应允许模特识别公众人物,以及是否应允许模特从人物形象中推断性别,种族或情感。

有网友已经想好了,更新的时候首先要问的就是Sam Altman照片的背包里有什么。

ChatGPT应用程序的重大演变!如果你能看,听,说,多模态模型的细节将在同一时间公布

那么,你想过要问的第一件事吗?

参考连结:

[1]https://openai.com/weblog/chatgpt-can-now-see-hear-and-speak …

[2]https://openai.com/analysis/gpt-4v-system-card …

[3]https://x.com/IntuitMachine/standing/1706307412401979455 …

[4]https://x.com/youraimarketer/standing/1706461715078975778 …

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...