什么是GPT-4V

ChatGPT 现在可以读取并响应图像提示，与通常伴随着人工智能变得更加强大的消息而来的厄运和沮丧形成鲜明对比的是，这一新功能似乎引起了人工智能用户的兴趣。

OpenAI 将此功能称为具有视觉功能的 GPT-4（GPT-4V）。解释图像而不仅仅是文本提示的能力使人工智能聊天机器人成为“多模式”大型语言模型（因为我们确实需要更多人工智能术语），并且有可能重新定义人们如何使用人工智能。这是迄今为止我们所知道的一切。

什么是GPT-4V 以及如何访问它？

使用每月 20 美元的 ChatGPT Plus 帐户，您可以将图像上传到 iOS 或 Android 上的 ChatGPT 应用程序并询问问题。例如，给它一张你在餐厅吃饭的照片，然后问：“我该怎么做这个？” 聊天机器人将扫描图像并返回其建议的食谱。

应用程序似乎无穷无尽。 OpenAI 表示，多模态是“人工智能研究和开发的关键前沿”，因为它们扩大了这些系统可以帮助用户完成的任务范围。微软的一组研究人员将 GPT-4V 称为“法学硕士的黎明”，并得出结论 GPT-4V 可以“催生新的人机交互方法”。

OpenAI 如何构建 GPT-4V？

根据一份技术论文，虽然 GPT-4V 对公众来说是新事物，但 OpenAI 自去年以来就一直在研究它，可能早于 2022 年 11 月聊天机器人公开发布。用户测试和培训于 2023 年 3 月开始。

OpenAI 表示：“由于 GPT-4 是 GPT-4V 视觉功能背后的技术，因此其训练过程是相同的。” 该公司向它提供越来越复杂的数据，使用与基于文本的提示相同的技术——从人类反馈中进行强化学习（RLHF）——来教它如何产生人类喜欢的答案。

在整个过程中，OpenAI 发现了足够多的问题，导致该功能的发布推迟至今。值得赞扬的是，该公司试图找到系统可能失败或不道德行为的方法。这包括对有害或非法内容的请求、基于种族和性别等人口统计数据的不准确，以及解决验证码和越狱等网络安全漏洞。

在外部，OpenAI 聘请了科学家和医生来验证 GPT4-V 的建议，发现了许多不准确之处。

关于虚假信息和社会危害，GPT-4V 的早期版本会对敏感话题做出不恰当的评论，例如是否雇用孕妇或来自某个国家的人。该系统也无法识别仇恨团体使用的符号或有害短语。

经过所有这些测试，OpenAI 表示，它已经能够将系统改进到足以供公众使用的程度，例如，97.2% 的“非法建议”请求现在都被拒绝了。

该工作仍在进行中。 OpenAI 表示，它“对模型应该或不应该允许参与的行为存在基本问题”。这包括是否应该识别图像中的公众人物，并从图像中的人推断种族、性别或情感（以及是否可以准确地做到这一点）。它在非英语语言中的表现也相当低于标准。

用户也可能会注意到不准确之处。例如，微软的一个研究团队发现 GPT-4V 错误地回答了一些简单的图像提示，例如误读了速度计。

如何使用 GPT-4V

虽然我们可以预期 GPT-4V 随着时间的推移会继续改进，但它今天所能做的事情是相当令人难以置信的。以下是 ChatGPT Plus 用户已经在尝试的一些方法。

1. 寻求第二意见

这位画家询问如何使她的作品更加真实。您甚至可以要求 ChatGPT 批评 Dall-E 自己的 AI 创作。

产品设计师提交了一个网页模型，GPT-4V 注意到了一些优点和缺点，例如顶部没有导航栏。

2. 回答古老的问题，例如“沃尔多在哪里？”

如果您能找到某人，即可获得奖励积分 真实的 生命名叫沃尔多。有趣的事实：自 1915 年达到顶峰以来，该名称的使用量已大幅下降。

3. 识别模糊图像

一名用户通过要求 GPT-4V 识别一张旧地图，将其变成了一名初级制图师。

我们的编辑推荐

4. 编写代码

采取一个白板会议从概念到现实，或者要求它编写受图像启发的网页。（接下来可以有AI理发师吗？）

5. 解释棘手的图表

家庭作业和作业的申请可能是无穷无尽的。

6. 避免收到停车罚单

接下来我们知道，ChatGPT 的屏幕截图可能最终会出现在法庭上：“ChatGPT 说我可以在这里停车！”

7. 识别地标

ChatGPT 应用程序可以帮助您充分享受旅行的乐趣，或者至少可以帮助回答您孩子的问题

多模式 LLMS 是人工智能的未来吗？

随着过去一年人工智能的大肆宣传，很难判断哪些趋势会持续下去。 OpenAI 对 ChatGPT 插件的最后一次“改变游戏规则”的更新最初引发了人们发布示例的同样的社交媒体风暴，但此后逐渐平息。其他功能，例如允许聊天机器人在 2021 年之前访问数据的 Bing 浏览功能，曾被启用，然后在被用于非法活动后被禁用，现在又重新启用。

初步来看，我们从 GPT-4V 中看到的似乎很有希望。 “这 [AI] 社区可能会更多地转向视觉/感知，”加州大学圣地亚哥分校 (UCSD) 教授、致力于评估法学硕士的张浩说道。

OpenAI 最近还投资了 Dall-E 图像生成器的改进版本，并宣布计划将其集成到 ChatGPT 中。

密切关注竞争的聊天机器人。 Google 会将 Lens 整合到 Bard 中吗？这可能是又一次昙花一现，但也可能只是人工智能的冰山一角。

什么是GPT-4V

推荐：国内注册ChatGPT的方法(100%可用)

什么是GPT-4V 以及如何访问它？

OpenAI 如何构建 GPT-4V？

如何使用 GPT-4V

1. 寻求第二意见

2. 回答古老的问题，例如“沃尔多在哪里？”

3. 识别模糊图像

我们的编辑推荐

4. 编写代码

5. 解释棘手的图表

6. 避免收到停车罚单

7. 识别地标

多模式 LLMS 是人工智能的未来吗？

推荐：WordPress速度优化插件JoomUnited WP Speed of Light

如何在Opera Web浏览器中管理搜索引擎

如何在Amazon Linux 2023中安装K9s

如何在谷歌浏览器中使用标签组？

如何在Chrome中查看和编辑HTTP请求和响应标头

如何修复Google Chrome中未显示的验证码图像

如何在Microsoft Edge浏览器中管理网站权限

发表评论取消回复

什么是GPT-4V

什么是GPT-4V

推荐：国内注册ChatGPT的方法(100%可用)

什么是GPT-4V 以及如何访问它？

OpenAI 如何构建 GPT-4V？

如何使用 GPT-4V

1. 寻求第二意见

2. 回答古老的问题，例如“沃尔多在哪里？”

3. 识别模糊图像

我们的编辑推荐

4. 编写代码

5. 解释棘手的图表

6. 避免收到停车罚单

7. 识别地标

多模式 LLMS 是人工智能的未来吗？

推荐：WordPress速度优化插件​JoomUnited WP Speed of Light

如何在Opera Web浏览器中管理搜索引擎

如何在Amazon Linux 2023中安装K9s

相关文章

如何在谷歌浏览器中使用标签组？

如何在Chrome中查看和编辑HTTP请求和响应标头

如何修复Google Chrome中未显示的验证码图像

如何在Microsoft Edge浏览器中管理网站权限

发表评论 取消回复

推荐：WordPress速度优化插件JoomUnited WP Speed of Light

发表评论取消回复