Aimhub 全模型API测试平台(国内测试接口)
  1. 音频接口(Audio)
Aimhub 全模型API测试平台(国内测试接口)
  • 介绍
  • 发出请求
  • 项目说明
  • 导言
  • 身份验证
  • 参数详情
  • 模型列表(Models)
    • 模型对象
    • 模型列表获取(支持动态同步)
      GET
  • 聊天接口(Chat)
    • 聊天完成示列
    • 聊天完成块对象示列
    • Openai
      • gpt-3.5-turbo
      • gpt-3.5-turbo-0301
      • gpt-3.5-turbo-0613
      • gpt-3.5-turbo-1106
      • gpt-3.5-turbo-0125
      • gpt-3.5-turbo-16k
      • gpt-3.5-turbo-16k-0613
      • gpt-4
      • gpt-4-0314
      • gpt-4-0613
      • gpt-4-1106-preview
      • gpt-4-0125-preview
      • gpt-4-turbo-preview
      • gpt-4-32k
      • gpt-4-32k-0314
      • gpt-4-32k-0613
    • 阿里
      • qwen-turbo
      • qwen-plus
      • qwen-max
      • qwen-max-1201
      • qwen-max-longcontext
    • 文心千帆
      • 对话 Chat
        • ERNIE-Bot-4
        • ERNIE-Bot
        • ERNIE-Bot-turbo
    • 智谱
      • chatglm_lite
      • chatglm_std
      • chatglm_pro
      • chatglm_turbo
      • glm-3-turbo[128k]
      • glm-4[128k]
    • 腾讯
      • hunyuan
    • 讯飞
      • SparkDeskv1.1
      • SparkDeskv2.1
      • SparkDeskv3.1
      • SparkDeskv3.5
    • Moonshot
      • moonshot-v1-8k
      • moonshot-v1-32k
      • moonshot-v1-128k
    • Google
      • gemini-pro
    • Claude
      • claude-2.0
      • claude-2.1
      • claude-3-haiku-20240229
      • claude-3-opus-20240229
      • claude-3-sonnet-20240229
      • claude-3-5-sonnet-20240620
    • stepfun
      • step-1-32k
      • step-1v-32k
      • step-1-200k
  • 视觉模型(Vision)
    • gpt-4-vision-preview(视觉)
      POST
    • gpt-4-1106-vision-preview
      POST
    • gemini-pro-vision(多模态)
      POST
    • glm-4v(多模态)
      POST
  • 音频接口(Audio)
    • 创建翻译
      POST
    • TTS语音转文本
      POST
    • TTS文本转语音-alloy
      POST
    • TTS文本转语音-onyx
      POST
    • TTS-1-hd文本转语音-alloy
      POST
  • 自动补全(Completions)
    • 完成对象
    • 内容补全接口
  • 微调(Fine-tuning)
    • 微调作业对象
    • 微调作业事件对象
    • 创建微调作业
    • 列出微调作业
    • 检索微调作业
    • 取消微调
    • 列出微调事件
  • 向量生成接口(Embeddings)
    • 嵌入对象
    • 文心千帆 向量 Embeddings
      • Embedding-V1
    • 创建嵌入
  • 图像(Images)
    • DALL-E
      • README
      • 图像对象
      • DALL·E 2
      • DALL·E 3
      • 创建图像
      • 创建图片编辑
      • 创建图像变体
    • Midjourney API(测试中)
      • 任务查询
        • 指定ID获取任务
        • 获取任务图片的seed(需设置mj或niji的私信ID)
      • 任务提交
        • 提交Blend任务
        • 提交Describe任务
        • 提交Modal
        • 提交Shorten任务
        • 上传文件到discord
        • 执行动作
        • 提交Imagine任务
      • InsightFace任务提交
        • 提交swap_face任务
    • CogView
  • 文件(Files)
    • README
    • 文件对象
    • 上传文件
    • 删除文件
    • 检索文件
    • 检索文件内容
    • 列出文件
  • 审查(Moderations)(openai)
    • 调节对象
    • 创建内容审核
  • 助手测试版(AssistantsBeta)
    • 辅助对象
    • 辅助文件对象
    • 创建助手
    • 检索助手
    • 修改助手
    • 删除助手
    • 列出助手
    • 创建辅助文件
    • 检索助手文件
    • 删除辅助文件
    • 列出助手文件
  • 线程数(Threads)
    • 线程对象
    • 创建线程
    • 检索线程
    • 修改线程
    • 删除话题
  • 留言(Messages)
    • 消息对象
    • 消息文件对象
    • 创建消息
    • 检索消息
    • 修改留言
    • 列出消息
    • 检索消息文件
    • 列出消息文件
  • 运行(Runs)
    • 运行对象
    • 运行步骤对象
    • 创建运行
    • 检索运行
    • 修改运行
    • 列表运行
    • 提交工具输出以运行
    • 取消运行
    • 创建线程并运行
    • 检索运行步骤
    • 列出运行步骤
  • 已弃用
    • 创建转录
    • 创建翻译
  • 帮助中心
    • 常见问题及解决办法
  • all model test
    POST
  1. 音频接口(Audio)

TTS语音转文本

POST
https://api.gaiasc.com/v1https://api.aimhub.cc/cnapi/v1/audio/transcriptions
openai
最后修改时间:2023-12-03 23:27:44
责任人:Vtea

介绍

音频 API 提供两个语音转文本终结点,以及 ,基于我们最先进的开源 large-v2 Whisper 模型。它们可用于:transcriptions translations

  • 将音频转录为音频的任何语言。
  • 将音频翻译并转录为英语。

文件上传目前限制为 25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav、webm。

快速入门

改编

转录 API 将要转录的音频文件和音频转录所需的输出文件格式作为输入。我们目前支持多种输入和输出文件格式。

from openai import OpenAI
client = OpenAI()

audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file
)

默认情况下,响应类型将为包含原始文本的 json。

{
 “text”: “想象一下你曾经有过的最疯狂的想法,你很好奇它如何扩展到 100 倍、1000 倍的东西。
....
}

音频 API 还允许您在请求中设置其他参数。例如,如果要将 设置为 ,则请求将如下所示:response_format text

from openai import OpenAI
client = OpenAI()

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file, 
  response_format="text"
)

API 参考包括可用参数的完整列表。

翻译

翻译 API 将任何受支持语言的音频文件作为输入,并在必要时将音频转录为英语。这与我们的 /Transcriptions 终结点不同,因为输出不是原始输入语言,而是翻译成英语文本。

from openai import OpenAI
client = OpenAI()

audio_file= open("/path/to/file/german.mp3", "rb")
transcript = client.audio.translations.create(
  model="whisper-1", 
  file=audio_file
)

在本例中,输入的音频是德语的,输出的文本如下所示:

大家好,我叫沃尔夫冈,来自德国。你今天要去哪里?
我们目前只支持翻译成英文。

支持的语言

我们目前通过 transcriptions和translations 端点支持以下语言:

南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰米尔语、土耳其语、乌克兰语、 乌尔都语、越南语和威尔士语。

虽然基础模型在 98 种语言上进行了训练,但我们只列出了超过 <50% 字错误率 (WER) 的语言,这是语音转文本模型准确性的行业标准基准。该模型将返回上面未列出的语言的结果,但质量会很低。

更长的输入

默认情况下,Whisper API 仅支持小于 25 MB 的文件。如果您的音频文件比这更长,则需要将其分解为 25 MB 或更小的块或使用压缩的音频格式。为了获得最佳性能,我们建议您避免在句子中间中断音频,因为这可能会导致某些上下文丢失。

处理此问题的一种方法是使用 PyDub 开源 Python 包来拆分音频:

from pydub import AudioSegment

song = AudioSegment.from_mp3("good_morning.mp3")

# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000

first_10_minutes = song[:ten_minutes]

first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI 不保证 PyDub 等第三方软件的可用性或安全性。

促使

您可以使用提示来提高 Whisper API 生成的脚本的质量。该模型将尝试匹配提示的样式,因此,如果提示也这样做,则更有可能使用大写和标点符号。然而,当前的提示系统比我们的其他语言模型要有限得多,并且只能对生成的音频提供有限的控制。下面是提示在不同情况下如何提供帮助的一些示例:

  1. 提示对于更正模型经常在音频中错误识别的特定单词或首字母缩略词非常有帮助。例如,以下提示改进了单词 DALL·E 和 GPT-3,之前被写成“GDP 3”和“DALI”:“成绩单是关于 OpenAI 的,它使 DALL·E、GPT-3 和 ChatGPT,希望有朝一日能建立一个造福全人类的 AGI 系统”
  2. 若要保留拆分为多个段的文件的上下文,可以使用前一个段的脚本提示模型。这将使脚本更加准确,因为模型将使用上一个音频中的相关信息。该模型将仅考虑提示的最后 224 个标记,并忽略之前的任何标记。对于多语言输入,Whisper 使用自定义分词器。对于纯英语输入,它使用标准的 GPT-2 分词器,两者都可以通过开源 Whisper Python 包访问。
  3. 有时,模型可能会跳过脚本中的标点符号。您可以通过使用包含标点符号的简单提示来避免这种情况:“您好,欢迎来到我的讲座。
  4. 该模型还可能遗漏音频中常见的填充词。如果您想在成绩单中保留填充词,您可以使用包含它们的提示:“嗯,让我想想,嗯......好吧,这就是我的想法。
  5. 有些语言可以用不同的方式书写,例如简体中文或繁体中文。默认情况下,模型可能并不总是使用您想要用于成绩单的写作风格。您可以通过使用您喜欢的写作风格的提示来改善这一点。

提高可靠性

正如我们在提示部分所探讨的,使用 Whisper 时面临的最常见挑战之一是模型通常无法识别不常见的单词或首字母缩略词。为了解决这个问题,我们重点介绍了在以下情况下提高 Whisper 可靠性的不同技术:

请求参数

Header 参数
Content-Type
string 
必需
示例值:
multipart/form-data
Accept
string 
必需
示例值:
application/json
Authorization
string 
必需
示例值:
Bearer {{YOUR_API_KEY}}
Body 参数multipart/form-data
file
file 
必需
要转录的音频文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string 
必需
要使用的模型的 ID。仅whisper-1当前可用。
示例值:
whisper-1
prompt
string 
可选
可选文本,用于指导模型的风格或继续之前的音频片段。提示应与音频语言相匹配。
示例值:
eiusmod nulla
response_format
string 
可选
成绩单输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。
示例值:
json
temperature
number 
可选
采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使输出更加集中和确定。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。
示例值:
0
language
string 
可选
输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.aimhub.cc/cnapi/v1/audio/transcriptions' \
--header 'Accept: application/json' \
--header 'Accept;' \
--header 'Authorization: Bearer ' \
--header 'Authorization;' \
--form 'file=@""' \
--form 'model="whisper-1"' \
--form 'prompt="eiusmod nulla"' \
--form 'response_format="json"' \
--form 'temperature="0"' \
--form 'language=""'

返回响应

🟢200OK
application/json
Body
text
string 
必需
示例
{
    "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}
上一页
创建翻译
下一页
TTS文本转语音-alloy
Built with