Aimhub 全模型API测试平台(国内测试接口)
  1. 视觉模型(Vision)
Aimhub 全模型API测试平台(国内测试接口)
  • 介绍
  • 发出请求
  • 项目说明
  • 导言
  • 身份验证
  • 参数详情
  • 模型列表(Models)
    • 模型对象
    • 模型列表获取(支持动态同步)
      GET
  • 聊天接口(Chat)
    • 聊天完成示列
    • 聊天完成块对象示列
    • Openai
      • gpt-3.5-turbo
      • gpt-3.5-turbo-0301
      • gpt-3.5-turbo-0613
      • gpt-3.5-turbo-1106
      • gpt-3.5-turbo-0125
      • gpt-3.5-turbo-16k
      • gpt-3.5-turbo-16k-0613
      • gpt-4
      • gpt-4-0314
      • gpt-4-0613
      • gpt-4-1106-preview
      • gpt-4-0125-preview
      • gpt-4-turbo-preview
      • gpt-4-32k
      • gpt-4-32k-0314
      • gpt-4-32k-0613
    • 阿里
      • qwen-turbo
      • qwen-plus
      • qwen-max
      • qwen-max-1201
      • qwen-max-longcontext
    • 文心千帆
      • 对话 Chat
        • ERNIE-Bot-4
        • ERNIE-Bot
        • ERNIE-Bot-turbo
    • 智谱
      • chatglm_lite
      • chatglm_std
      • chatglm_pro
      • chatglm_turbo
      • glm-3-turbo[128k]
      • glm-4[128k]
    • 腾讯
      • hunyuan
    • 讯飞
      • SparkDeskv1.1
      • SparkDeskv2.1
      • SparkDeskv3.1
      • SparkDeskv3.5
    • Moonshot
      • moonshot-v1-8k
      • moonshot-v1-32k
      • moonshot-v1-128k
    • Google
      • gemini-pro
    • Claude
      • claude-2.0
      • claude-2.1
      • claude-3-haiku-20240229
      • claude-3-opus-20240229
      • claude-3-sonnet-20240229
      • claude-3-5-sonnet-20240620
    • stepfun
      • step-1-32k
      • step-1v-32k
      • step-1-200k
  • 视觉模型(Vision)
    • gpt-4-vision-preview(视觉)
      POST
    • gpt-4-1106-vision-preview
      POST
    • gemini-pro-vision(多模态)
      POST
    • glm-4v(多模态)
      POST
  • 音频接口(Audio)
    • 创建翻译
      POST
    • TTS语音转文本
      POST
    • TTS文本转语音-alloy
      POST
    • TTS文本转语音-onyx
      POST
    • TTS-1-hd文本转语音-alloy
      POST
  • 自动补全(Completions)
    • 完成对象
    • 内容补全接口
  • 微调(Fine-tuning)
    • 微调作业对象
    • 微调作业事件对象
    • 创建微调作业
    • 列出微调作业
    • 检索微调作业
    • 取消微调
    • 列出微调事件
  • 向量生成接口(Embeddings)
    • 嵌入对象
    • 文心千帆 向量 Embeddings
      • Embedding-V1
    • 创建嵌入
  • 图像(Images)
    • DALL-E
      • README
      • 图像对象
      • DALL·E 2
      • DALL·E 3
      • 创建图像
      • 创建图片编辑
      • 创建图像变体
    • Midjourney API(测试中)
      • 任务查询
        • 指定ID获取任务
        • 获取任务图片的seed(需设置mj或niji的私信ID)
      • 任务提交
        • 提交Blend任务
        • 提交Describe任务
        • 提交Modal
        • 提交Shorten任务
        • 上传文件到discord
        • 执行动作
        • 提交Imagine任务
      • InsightFace任务提交
        • 提交swap_face任务
    • CogView
  • 文件(Files)
    • README
    • 文件对象
    • 上传文件
    • 删除文件
    • 检索文件
    • 检索文件内容
    • 列出文件
  • 审查(Moderations)(openai)
    • 调节对象
    • 创建内容审核
  • 助手测试版(AssistantsBeta)
    • 辅助对象
    • 辅助文件对象
    • 创建助手
    • 检索助手
    • 修改助手
    • 删除助手
    • 列出助手
    • 创建辅助文件
    • 检索助手文件
    • 删除辅助文件
    • 列出助手文件
  • 线程数(Threads)
    • 线程对象
    • 创建线程
    • 检索线程
    • 修改线程
    • 删除话题
  • 留言(Messages)
    • 消息对象
    • 消息文件对象
    • 创建消息
    • 检索消息
    • 修改留言
    • 列出消息
    • 检索消息文件
    • 列出消息文件
  • 运行(Runs)
    • 运行对象
    • 运行步骤对象
    • 创建运行
    • 检索运行
    • 修改运行
    • 列表运行
    • 提交工具输出以运行
    • 取消运行
    • 创建线程并运行
    • 检索运行步骤
    • 列出运行步骤
  • 已弃用
    • 创建转录
    • 创建翻译
  • 帮助中心
    • 常见问题及解决办法
  • all model test
    POST
  1. 视觉模型(Vision)

gpt-4-1106-vision-preview

POST
https://api.gaiasc.com/v1/chat/completions
最后修改时间:2024-03-04 05:02:44
责任人:未设置

介绍#

带有视觉的 GPT-4,有时也称为 GPT-4V 或在 API 中,允许模型接收图像并回答有关它们的问题。从历史上看,语言模型系统一直受到单一输入模态(文本)的限制。对于许多用例来说,这限制了可以使用 GPT-4 等模型的领域。gpt-4-vision-preview
具有视觉功能的 GPT-4 目前可供所有通过模型和聊天完成 API 访问 GPT-4 的开发人员使用,该 API 已更新为支持图像输入。请注意,Assistants API 目前不支持图像输入。gpt-4-vision-preview
请务必注意以下几点:
具有视觉功能的 GPT-4 Turbo 的行为可能与 GPT-4 Turbo 略有不同,因为我们会自动将系统消息插入到对话中
具有视觉功能的 GPT-4 Turbo 与 GPT-4 Turbo 预览模型相同,在文本任务上表现同样出色,但增加了视觉功能
视觉只是该模型具有的众多功能之一
目前,GPT-4 Turbo with vision 不支持 message.name 参数、functions/tools response_format 参数,目前必须设置了一个max_tokens默认值。

快速入门#

图像可通过两种主要方式提供给模型:通过传递指向图像的链接或直接在请求中传递 base64 编码的图像。图像可以在 和 消息中传递。目前,我们不支持第一条消息中的图像,但将来可能会更改。
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])
该模型最擅长回答有关图像中存在的内容的一般问题。虽然它确实了解图像中对象之间的关系,但它尚未优化以回答有关图像中某些对象位置的详细问题。例如,你可以问它汽车是什么颜色的,或者根据冰箱里的东西,晚餐的一些想法可能是什么,但如果你给它看一个房间的图像,并问它椅子在哪里,它可能无法正确回答问题。
在探索视觉理解可以应用于哪些用例时,请务必牢记模型的局限性。

上传 base 64 编码图像(不推荐)#

如果本地有一个图像或一组图像,则可以以 base 64 编码格式将它们传递给模型,下面是一个运行示例:
import base64
import requests

# OpenAI API Key
api_key = "YOUR_OPENAI_API_KEY"

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = "path_to_your_image.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

多个图像输入#

聊天完成 API 能够接收和处理 base64 编码格式或图像网址的多个图像输入。该模型将处理每张图像,并使用来自所有图像的信息来回答问题。
from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What are in these images? Is there any difference between them?",
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])
在这里,模型显示了同一图像的两个副本,并且可以独立回答有关两个或每个图像的问题。

低保真或高保真图像理解#

通过控制参数(该参数有三个选项),您可以控制模型如何处理图像并生成其文本理解。默认情况下,模型将使用该设置,该设置将查看图像输入大小并决定是否应使用 or 设置。detail low``high
low将禁用“高分辨率”模型。该模型将收到低分辨率 512px x 512px 版本的图像,并以 65 个代币的预算表示图像。这允许 API 返回更快的响应,并为不需要高细节的用例使用更少的输入令牌。
high将启用“高分辨率”模式,该模式首先允许模型查看低分辨率图像,然后根据输入图像大小将输入图像的详细裁剪创建为 512px 正方形。每个详细的作物都使用两倍的代币预算(65 个代币),总共 129 个代币。
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "high"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

管理映像#

与 Google 助理 API 不同,聊天完成 API 不是有状态的。这意味着您必须自己管理传递给模型的消息(包括图像)。如果要多次将同一图像传递给模型,则必须在每次向 API 发出请求时传递图像。
对于长时间运行的对话,我们建议通过 URL 而不是 base64 传递图像。还可以通过提前缩小图像大小以小于预期的最大大小来改善模型的延迟。对于低分辨率模式,我们期望图像为 512 像素 x 512 像素。对于高分辨率模式,图像的短边应小于 768 像素,长边应小于 2,000 像素。
模型处理图像后,将从 OpenAI 服务器中删除该图像,并且不会保留。我们不会使用通过 OpenAI API 上传的数据来训练我们的模型。

局限性#

虽然具有视觉功能的 GPT-4 功能强大,可用于多种情况,但了解该模型的局限性很重要。以下是我们注意到的一些限制:
医学图像:该模型不适合解释 CT 扫描等专业医学图像,不应用于医疗建议。
非英语:在处理包含非拉丁字母文本(如日语或韩语)的图像时,模型可能无法发挥最佳性能。
小文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。
旋转:模型可能会误解旋转/颠倒的文本或图像。
视觉元素:模型可能难以理解颜色或样式(如实线、虚线或虚线)变化的图形或文本。
空间推理:该模型难以完成需要精确空间定位的任务,例如识别国际象棋位置。
准确性:在某些情况下,模型可能会生成不正确的描述或标题。
图像形状:该模型在处理全景和鱼眼图像时遇到困难。
元数据和调整大小:模型不处理原始文件名或元数据,并且在分析之前调整图像大小,从而影响其原始尺寸。
计数:可以给出图像中对象的近似计数。
验证码:出于安全原因,我们实施了一个系统来阻止提交验证码。

计算成本#

图像输入以令牌计量和收费,就像文本输入一样。给定图像的令牌成本由两个因素决定:其大小和每个image_url块上的选项。所有图像每张花费 85 个代币。 首先将图像缩放以适合 2048 x 2048 正方形,保持其纵横比。然后,对它们进行缩放,使图像的最短边长 768 像素。最后,我们计算图像由多少个 512px 的正方形组成。每个方块花费 170 个代币。另外** 85 个代币**总是添加到最终总数中。detail detail: low detail: high
以下是演示上述内容的一些示例。
模式下的 1024 x 1024 方形图像需要 765 个令牌detail: high
1024 小于 2048,因此没有初始调整大小。
最短的边是 1024,因此我们将图像缩小到 768 x 768。
需要 4 个 512px 的方形图块来表示图像,因此最终的代币成本为 。170 * 4 + 85 = 765
模式下的 2048 x 4096 图像需要 1105 个令牌detail: high
我们将图像缩小到 1024 x 2048 以适合 2048 正方形。
最短边是 1024,因此我们进一步缩小到 768 x 1536。
需要 6 个 512px 图块,因此最终的代币成本为 。170 * 6 + 85 = 1105
大多数情况下,一张 4096 x 8192 的图像需要 85 个代币detail: low
无论输入大小如何,低细节图像都是固定成本。

常见问题#

我可以微调图像功能吗?gpt-4#

不可以,我们目前不支持微调图像功能。gpt-4

我可以用来生成图像吗?gpt-4#

不,您可以使用它来生成图像和理解图像。dall-e-3 gpt-4-vision-preview

我可以上传什么类型的文件?#

我们目前支持 PNG (.png)、JPEG(.jpeg 和 .jpg)、WEBP (.webp) 和非动画 GIF (.gif)。

我可以上传的图片大小有限制吗?#

是的,我们将每张图片的上传空间限制为 20MB。

我可以删除我上传的图片吗?#

不,我们会在模型处理图像后自动为您删除图像。

在哪里可以了解有关 GPT-4 with Vision 注意事项的更多信息?#

您可以在 GPT-4 with Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。
我们进一步实施了阻止提交验证码的系统。

GPT-4 with Vision 的速率限制如何工作?#

我们在令牌级别处理图像,因此我们处理的每个图像都计入每分钟令牌数 (TPM) 限制。有关用于确定每个图像的令牌计数的公式的详细信息,请参阅计算成本部分。

GPT-4 with Vision 能理解图像元数据吗?#

否,模型不接收图像元数据。

如果我的图像不清晰会怎样?#

如果图像模棱两可或不清晰,模型将尽最大努力对其进行解释。但是,结果可能不太准确。一个好的经验法则是,如果普通人无法以低/高分辨率模式使用的分辨率看到图像中的信息,那么模型也无法看到。

请求参数

Header 参数
Content-Type
string 
必需
示例值:
application/json
Accept
string 
必需
示例值:
application/json
Authorization
string 
必需
示例值:
Bearer {{YOUR_API_KEY}}
Body 参数application/json
model
string 
必需
要使用的模型的 ID。有关哪些模型适用于聊天 API 的详细信息,请参阅模型端点兼容性表。
messages
array [object {2}] 
必需
以聊天格式生成聊天完成的消息。
role
string 
可选
content
string 
可选
temperature
integer 
可选
使用什么采样温度,介于 0 和 2 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使输出更加集中和确定。 我们通常建议改变这个或top_p但不是两者。
top_p
integer 
可选
一种替代温度采样的方法,称为核采样,其中模型考虑具有 top_p 概率质量的标记的结果。所以 0.1 意味着只考虑构成前 10% 概率质量的标记。 我们通常建议改变这个或temperature但不是两者。
n
integer 
可选
为每个输入消息生成多少个聊天完成选项。
stream
boolean 
可选
如果设置,将发送部分消息增量,就像在 ChatGPT 中一样。当令牌可用时,令牌将作为纯数据服务器发送事件data: [DONE]发送,流由消息终止。有关示例代码,请参阅 OpenAI Cookbook 。
stop
string 
可选
API 将停止生成更多令牌的最多 4 个序列。
max_tokens
integer 
可选
聊天完成时生成的最大令牌数。 输入标记和生成标记的总长度受模型上下文长度的限制。
presence_penalty
number 
可选
-2.0 和 2.0 之间的数字。正值会根据到目前为止是否出现在文本中来惩罚新标记,从而增加模型谈论新主题的可能性。 查看有关频率和存在惩罚的更多信息。
frequency_penalty
number 
可选
-2.0 和 2.0 之间的数字。正值会根据新标记在文本中的现有频率对其进行惩罚,从而降低模型逐字重复同一行的可能性。 查看有关频率和存在惩罚的更多信息。
logit_bias
null 
可选
修改指定标记出现在完成中的可能性。 接受一个 json 对象,该对象将标记(由标记器中的标记 ID 指定)映射到从 -100 到 100 的关联偏差值。从数学上讲,偏差会在采样之前添加到模型生成的 logits 中。确切的效果因模型而异,但 -1 和 1 之间的值应该会减少或增加选择的可能性;像 -100 或 100 这样的值应该导致相关令牌的禁止或独占选择。
user
string 
可选
代表您的最终用户的唯一标识符,可以帮助 OpenAI 监控和检测滥用行为。了解更多。
示例
{
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "low"
          }
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "high"
          }
        }
      ]
    }
  ],
  "max_tokens": 4096
}

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.gaiasc.com/v1/chat/completions' \
--header 'Accept: application/json' \
--header 'Accept;' \
--header 'Authorization: Bearer ' \
--header 'Authorization;' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "low"
          }
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "high"
          }
        }
      ]
    }
  ],
  "max_tokens": 4096
}'

返回响应

🟢200成功
application/json
Body
id
string 
必需
object
string 
必需
created
integer 
必需
model
string 
必需
usage
object 
必需
prompt_tokens
integer 
必需
completion_tokens
integer 
必需
total_tokens
integer 
必需
choices
array [object {3}] 
必需
message
object 
可选
finish_reason
string 
可选
index
integer 
可选
示例
{"id": "chatcmpl-8yuXrqxJaMPruexK6w36USEy4kpcf", "object": "chat.completion", "created": 1709527731, "model": "gpt-4-1106-vision-preview", "usage": {"prompt_tokens": 1203, "completion_tokens": 109, "total_tokens": 1312}, "choices": [{"message": {"role": "assistant", "content": "The image features a straight wooden boardwalk or path leading through a vibrant green grassy wetland or marsh area. The boardwalk provides a way to traverse the wet area without disturbing the natural habitat. The grass on either side of the path appears tall and lush. In the distance, there are some trees and bushes marking the edge of the wetland, and the sky is clear with a few scattered clouds, suggesting it's a pleasant day with good weather. The image seems to capture the tranquility and natural beauty of the wetland environment."}, "finish_reason": "stop", "index": 0}]}
上一页
gpt-4-vision-preview(视觉)
下一页
gemini-pro-vision(多模态)
Built with