介绍

带有视觉的 GPT-4，有时也称为 GPT-4V 或在 API 中，允许模型接收图像并回答有关它们的问题。从历史上看，语言模型系统一直受到单一输入模态（文本）的限制。对于许多用例来说，这限制了可以使用 GPT-4 等模型的领域。gpt-4-vision-preview

具有视觉功能的 GPT-4 目前可供所有通过模型和聊天完成 API 访问 GPT-4 的开发人员使用，该 API 已更新为支持图像输入。请注意，Assistants API 目前不支持图像输入。gpt-4-vision-preview

请务必注意以下几点：

具有视觉功能的 GPT-4 Turbo 的行为可能与 GPT-4 Turbo 略有不同，因为我们会自动将系统消息插入到对话中

具有视觉功能的 GPT-4 Turbo 与 GPT-4 Turbo 预览模型相同，在文本任务上表现同样出色，但增加了视觉功能

视觉只是该模型具有的众多功能之一

目前，GPT-4 Turbo with vision 不支持 message.name 参数、functions/tools response_format 参数，目前必须设置了一个max_tokens默认值。

快速入门

图像可通过两种主要方式提供给模型：通过传递指向图像的链接或直接在请求中传递 base64 编码的图像。图像可以在和消息中传递。目前，我们不支持第一条消息中的图像，但将来可能会更改。

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

该模型最擅长回答有关图像中存在的内容的一般问题。虽然它确实了解图像中对象之间的关系，但它尚未优化以回答有关图像中某些对象位置的详细问题。例如，你可以问它汽车是什么颜色的，或者根据冰箱里的东西，晚餐的一些想法可能是什么，但如果你给它看一个房间的图像，并问它椅子在哪里，它可能无法正确回答问题。

在探索视觉理解可以应用于哪些用例时，请务必牢记模型的局限性。

上传 base 64 编码图像(不推荐)

如果本地有一个图像或一组图像，则可以以 base 64 编码格式将它们传递给模型，下面是一个运行示例：

import base64
import requests

# OpenAI API Key
api_key = "YOUR_OPENAI_API_KEY"

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = "path_to_your_image.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

多个图像输入

聊天完成 API 能够接收和处理 base64 编码格式或图像网址的多个图像输入。该模型将处理每张图像，并使用来自所有图像的信息来回答问题。

from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What are in these images? Is there any difference between them?",
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

在这里，模型显示了同一图像的两个副本，并且可以独立回答有关两个或每个图像的问题。

低保真或高保真图像理解

通过控制参数（该参数有三个选项），您可以控制模型如何处理图像并生成其文本理解。默认情况下，模型将使用该设置，该设置将查看图像输入大小并决定是否应使用 or 设置。detail low``high

low将禁用“高分辨率”模型。该模型将收到低分辨率 512px x 512px 版本的图像，并以 65 个代币的预算表示图像。这允许 API 返回更快的响应，并为不需要高细节的用例使用更少的输入令牌。

high将启用“高分辨率”模式，该模式首先允许模型查看低分辨率图像，然后根据输入图像大小将输入图像的详细裁剪创建为 512px 正方形。每个详细的作物都使用两倍的代币预算（65 个代币），总共 129 个代币。

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "high"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

管理映像

与 Google 助理 API 不同，聊天完成 API 不是有状态的。这意味着您必须自己管理传递给模型的消息（包括图像）。如果要多次将同一图像传递给模型，则必须在每次向 API 发出请求时传递图像。

对于长时间运行的对话，我们建议通过 URL 而不是 base64 传递图像。还可以通过提前缩小图像大小以小于预期的最大大小来改善模型的延迟。对于低分辨率模式，我们期望图像为 512 像素 x 512 像素。对于高分辨率模式，图像的短边应小于 768 像素，长边应小于 2,000 像素。

模型处理图像后，将从 OpenAI 服务器中删除该图像，并且不会保留。我们不会使用通过 OpenAI API 上传的数据来训练我们的模型。

局限性

虽然具有视觉功能的 GPT-4 功能强大，可用于多种情况，但了解该模型的局限性很重要。以下是我们注意到的一些限制：

医学图像：该模型不适合解释 CT 扫描等专业医学图像，不应用于医疗建议。

非英语：在处理包含非拉丁字母文本（如日语或韩语）的图像时，模型可能无法发挥最佳性能。

小文本：放大图像中的文本以提高可读性，但避免裁剪重要细节。

旋转：模型可能会误解旋转/颠倒的文本或图像。

视觉元素：模型可能难以理解颜色或样式（如实线、虚线或虚线）变化的图形或文本。

空间推理：该模型难以完成需要精确空间定位的任务，例如识别国际象棋位置。

准确性：在某些情况下，模型可能会生成不正确的描述或标题。

图像形状：该模型在处理全景和鱼眼图像时遇到困难。

元数据和调整大小：模型不处理原始文件名或元数据，并且在分析之前调整图像大小，从而影响其原始尺寸。

计数：可以给出图像中对象的近似计数。

验证码：出于安全原因，我们实施了一个系统来阻止提交验证码。

计算成本

图像输入以令牌计量和收费，就像文本输入一样。给定图像的令牌成本由两个因素决定：其大小和每个image_url块上的选项。所有图像每张花费 85 个代币。首先将图像缩放以适合 2048 x 2048 正方形，保持其纵横比。然后，对它们进行缩放，使图像的最短边长 768 像素。最后，我们计算图像由多少个 512px 的正方形组成。每个方块花费 170 个代币。另外** 85 个代币**总是添加到最终总数中。detail detail: low detail: high

以下是演示上述内容的一些示例。

模式下的 1024 x 1024 方形图像需要 765 个令牌detail: high

1024 小于 2048，因此没有初始调整大小。

最短的边是 1024，因此我们将图像缩小到 768 x 768。

需要 4 个 512px 的方形图块来表示图像，因此最终的代币成本为。170 * 4 + 85 = 765

模式下的 2048 x 4096 图像需要 1105 个令牌detail: high

我们将图像缩小到 1024 x 2048 以适合 2048 正方形。

最短边是 1024，因此我们进一步缩小到 768 x 1536。

需要 6 个 512px 图块，因此最终的代币成本为。170 * 6 + 85 = 1105

大多数情况下，一张 4096 x 8192 的图像需要 85 个代币detail: low

无论输入大小如何，低细节图像都是固定成本。

常见问题

我可以微调图像功能吗？gpt-4

不可以，我们目前不支持微调图像功能。gpt-4

我可以用来生成图像吗？gpt-4

不，您可以使用它来生成图像和理解图像。dall-e-3 gpt-4-vision-preview

我可以上传什么类型的文件？

我们目前支持 PNG （.png）、JPEG（.jpeg 和 .jpg）、WEBP （.webp）和非动画 GIF （.gif）。

我可以上传的图片大小有限制吗？

是的，我们将每张图片的上传空间限制为 20MB。

我可以删除我上传的图片吗？

不，我们会在模型处理图像后自动为您删除图像。

在哪里可以了解有关 GPT-4 with Vision 注意事项的更多信息？

您可以在 GPT-4 with Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。

我们进一步实施了阻止提交验证码的系统。

GPT-4 with Vision 的速率限制如何工作？

我们在令牌级别处理图像，因此我们处理的每个图像都计入每分钟令牌数（TPM）限制。有关用于确定每个图像的令牌计数的公式的详细信息，请参阅计算成本部分。

GPT-4 with Vision 能理解图像元数据吗？

否，模型不接收图像元数据。

如果我的图像不清晰会怎样？

如果图像模棱两可或不清晰，模型将尽最大努力对其进行解释。但是，结果可能不太准确。一个好的经验法则是，如果普通人无法以低/高分辨率模式使用的分辨率看到图像中的信息，那么模型也无法看到。

application/json

Bodyapplication/json

示例

{
    "id": "chatcmpl-8yuXrqxJaMPruexK6w36USEy4kpcf",
    "object": "chat.completion",
    "created": 1709527731,
    "model": "gpt-4-1106-vision-preview",
    "usage": {
        "prompt_tokens": 1203,
        "completion_tokens": 109,
        "total_tokens": 1312
    },
    "choices": [
        {
            "message": {
                "role": "assistant",
                "content": "The image features a straight wooden boardwalk or path leading through a vibrant green grassy wetland or marsh area. The boardwalk provides a way to traverse the wet area without disturbing the natural habitat. The grass on either side of the path appears tall and lush. In the distance, there are some trees and bushes marking the edge of the wetland, and the sky is clear with a few scattered clouds, suggesting it's a pleasant day with good weather. The image seems to capture the tranquility and natural beauty of the wetland environment."
            },
            "finish_reason": "stop",
            "index": 0
        }
    ]
}

gpt-4-vision-preview（视觉）

介绍

快速入门

上传 base 64 编码图像(不推荐)

多个图像输入

低保真或高保真图像理解

管理映像

局限性

计算成本

常见问题

我可以微调图像功能吗？gpt-4

我可以用来生成图像吗？gpt-4

我可以上传什么类型的文件？

我可以上传的图片大小有限制吗？

我可以删除我上传的图片吗？

在哪里可以了解有关 GPT-4 with Vision 注意事项的更多信息？

GPT-4 with Vision 的速率限制如何工作？

GPT-4 with Vision 能理解图像元数据吗？

如果我的图像不清晰会怎样？

请求参数

请求示例代码

返回响应

gpt-4-vision-preview（视觉）

介绍#

快速入门#

上传 base 64 编码图像(不推荐)#

多个图像输入#

低保真或高保真图像理解#

管理映像#

局限性#

计算成本#

常见问题#

我可以微调图像功能吗？gpt-4#

我可以用来生成图像吗？gpt-4#

我可以上传什么类型的文件？#

我可以上传的图片大小有限制吗？#

我可以删除我上传的图片吗？#

在哪里可以了解有关 GPT-4 with Vision 注意事项的更多信息？#

GPT-4 with Vision 的速率限制如何工作？#

GPT-4 with Vision 能理解图像元数据吗？#

如果我的图像不清晰会怎样？#

请求参数

请求示例代码

返回响应

介绍

快速入门

上传 base 64 编码图像(不推荐)

多个图像输入

低保真或高保真图像理解

管理映像

局限性

计算成本

常见问题

我可以微调图像功能吗？gpt-4

我可以用来生成图像吗？gpt-4

我可以上传什么类型的文件？

我可以上传的图片大小有限制吗？

我可以删除我上传的图片吗？

在哪里可以了解有关 GPT-4 with Vision 注意事项的更多信息？

GPT-4 with Vision 的速率限制如何工作？

GPT-4 with Vision 能理解图像元数据吗？

如果我的图像不清晰会怎样？