moonshot-v1-128k
POST
/chat/completions
chat
最后修改时间:2024-03-04 05:59:19
责任人:Vtea
语言模型推理服务
语言模型推理服务是一个基于我们 (Moonshot AI) 开发和训练的预训练模型的 API 服务。它可以用于生成文本、问答、摘要、翻译等任务。在设计上,我们对外主要提供了一个 Chat Completions 接口,它可以用于生成文本,但是它本身是不支持访问网络、数据库等外部资源,也不支持执行任何代码。
文本生成以令牌(token) 为块来处理文本。令牌代表常见的字符序列。例如,单个汉字"夔"可能会被分解为若干令牌的组合,而像"中国"这样短且常见的短语则可能会使用单个令牌。大致来说,对于一段通常的中文文本,1 个令牌大约相当于 1.5-2 个汉字。
这些速率限制是如何工作的?
速率限制是在用户级别而非密钥级别上实施的。
目前我们在所有模型中共享速率限制。
模型列表
你可以使用我们的 List Models API 来获取当前可用的模型列表。
moonshot-v1-32k: 它是一个长度为 32k 的模型,适用于生成长文本。
moonshot-v1-128k: 它是一个长度为 128k 的模型,适用于生成超长文本。
以上模型的区别在于它们的最大上下文长度,这个长度包括了输入消息和生成的输出,在效果上并没有什么区别。这个主要是为了方便用户选择合适的模型。
获取 API 密钥
你需要一个 API 密钥来使用我们的服务。你可以在我们的控制台中创建一个 API 密钥。(TODO: 添加控制台地址)
你可以使用我们的 Chat Completions API 来发送请求。你需要提供一个 API 密钥和一个模型名称。你可以选择是否使用默认的 max_tokens 参数,或者自定义 max_tokens 参数。可以参考 TODO: (Chat Completions API Quick Start)。
通常的,我们会设置一个 5 分钟的超时时间。如果单个请求超过了这个时间,我们会返回一个 504 错误。如果你的请求超过了速率限制,我们会返回一个 429 错误。如果你的请求成功了,我们会返回一个 JSON 格式的响应。
请求参数
Header 参数
Content-Type
string
必需
示例值:
application/json
Accept
string
必需
示例值:
application/json
Authorization
string
必需
示例值:
Bearer {{YOUR_API_KEY}}
Body 参数application/json
示例代码
返回响应
修改于 2024-03-04 05:59:19