Aimhub 全模型API测试平台(国内测试接口)
  1. 音频接口(Audio)
Aimhub 全模型API测试平台(国内测试接口)
  • 介绍
  • 发出请求
  • 项目说明
  • 导言
  • 身份验证
  • 参数详情
  • 模型列表(Models)
    • 模型对象
    • 模型列表获取(支持动态同步)
      GET
  • 聊天接口(Chat)
    • 聊天完成示列
    • 聊天完成块对象示列
    • Openai
      • gpt-3.5-turbo
      • gpt-3.5-turbo-0301
      • gpt-3.5-turbo-0613
      • gpt-3.5-turbo-1106
      • gpt-3.5-turbo-0125
      • gpt-3.5-turbo-16k
      • gpt-3.5-turbo-16k-0613
      • gpt-4
      • gpt-4-0314
      • gpt-4-0613
      • gpt-4-1106-preview
      • gpt-4-0125-preview
      • gpt-4-turbo-preview
      • gpt-4-32k
      • gpt-4-32k-0314
      • gpt-4-32k-0613
    • 阿里
      • qwen-turbo
      • qwen-plus
      • qwen-max
      • qwen-max-1201
      • qwen-max-longcontext
    • 文心千帆
      • 对话 Chat
        • ERNIE-Bot-4
        • ERNIE-Bot
        • ERNIE-Bot-turbo
    • 智谱
      • chatglm_lite
      • chatglm_std
      • chatglm_pro
      • chatglm_turbo
      • glm-3-turbo[128k]
      • glm-4[128k]
    • 腾讯
      • hunyuan
    • 讯飞
      • SparkDeskv1.1
      • SparkDeskv2.1
      • SparkDeskv3.1
      • SparkDeskv3.5
    • Moonshot
      • moonshot-v1-8k
      • moonshot-v1-32k
      • moonshot-v1-128k
    • Google
      • gemini-pro
    • Claude
      • claude-2.0
      • claude-2.1
      • claude-3-haiku-20240229
      • claude-3-opus-20240229
      • claude-3-sonnet-20240229
      • claude-3-5-sonnet-20240620
    • stepfun
      • step-1-32k
      • step-1v-32k
      • step-1-200k
  • 视觉模型(Vision)
    • gpt-4-vision-preview(视觉)
      POST
    • gpt-4-1106-vision-preview
      POST
    • gemini-pro-vision(多模态)
      POST
    • glm-4v(多模态)
      POST
  • 音频接口(Audio)
    • 创建翻译
      POST
    • TTS语音转文本
      POST
    • TTS文本转语音-alloy
      POST
    • TTS文本转语音-onyx
      POST
    • TTS-1-hd文本转语音-alloy
      POST
  • 自动补全(Completions)
    • 完成对象
    • 内容补全接口
  • 微调(Fine-tuning)
    • 微调作业对象
    • 微调作业事件对象
    • 创建微调作业
    • 列出微调作业
    • 检索微调作业
    • 取消微调
    • 列出微调事件
  • 向量生成接口(Embeddings)
    • 嵌入对象
    • 文心千帆 向量 Embeddings
      • Embedding-V1
    • 创建嵌入
  • 图像(Images)
    • DALL-E
      • README
      • 图像对象
      • DALL·E 2
      • DALL·E 3
      • 创建图像
      • 创建图片编辑
      • 创建图像变体
    • Midjourney API(测试中)
      • 任务查询
        • 指定ID获取任务
        • 获取任务图片的seed(需设置mj或niji的私信ID)
      • 任务提交
        • 提交Blend任务
        • 提交Describe任务
        • 提交Modal
        • 提交Shorten任务
        • 上传文件到discord
        • 执行动作
        • 提交Imagine任务
      • InsightFace任务提交
        • 提交swap_face任务
    • CogView
  • 文件(Files)
    • README
    • 文件对象
    • 上传文件
    • 删除文件
    • 检索文件
    • 检索文件内容
    • 列出文件
  • 审查(Moderations)(openai)
    • 调节对象
    • 创建内容审核
  • 助手测试版(AssistantsBeta)
    • 辅助对象
    • 辅助文件对象
    • 创建助手
    • 检索助手
    • 修改助手
    • 删除助手
    • 列出助手
    • 创建辅助文件
    • 检索助手文件
    • 删除辅助文件
    • 列出助手文件
  • 线程数(Threads)
    • 线程对象
    • 创建线程
    • 检索线程
    • 修改线程
    • 删除话题
  • 留言(Messages)
    • 消息对象
    • 消息文件对象
    • 创建消息
    • 检索消息
    • 修改留言
    • 列出消息
    • 检索消息文件
    • 列出消息文件
  • 运行(Runs)
    • 运行对象
    • 运行步骤对象
    • 创建运行
    • 检索运行
    • 修改运行
    • 列表运行
    • 提交工具输出以运行
    • 取消运行
    • 创建线程并运行
    • 检索运行步骤
    • 列出运行步骤
  • 已弃用
    • 创建转录
    • 创建翻译
  • 帮助中心
    • 常见问题及解决办法
  • all model test
    POST
  1. 音频接口(Audio)

TTS文本转语音-onyx

POST
https://api.gaiasc.com/v1https://api.aimhub.cc/cnapi/v1/audio/speech
openai
最后修改时间:2023-12-03 23:45:16
责任人:Vtea

介绍#

音频 API 提供基于 TTS(文本转语音)模型的语音终结点。它带有 6 种内置语音,可用于:
叙述书面博客文章
生成多种语言的语音音频
使用流式传输提供实时音频输出
请注意,我们的使用政策要求您向最终用户明确披露他们听到的 TTS 语音是 AI 生成的,而不是人声。

快速入门#

终结点接收三个关键输入:模型、应转换为音频的文本以及用于音频生成的语音。一个简单的请求如下所示:speech
from pathlib import Path
from openai import OpenAI
client = OpenAI()

speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="Today is a wonderful day to build something people love!"
)

response.stream_to_file(speech_file_path)
默认情况下,端点将输出语音音频的 MP3 文件,但也可以配置为输出我们支持的任何格式。

音频质量#

对于实时应用程序,标准模型提供最低的延迟,但质量低于模型。由于音频的生成方式,在某些情况下可能会生成比 .在某些情况下,音频可能没有明显的差异,具体取决于您的收听设备和个人。tts-1 tts-1-hd

语音选项#

尝试使用不同的声音,以找到符合您想要的语气和听众的声音。当前语音针对英语进行了优化。alloy echo fable onyx nova shimmer

支持的输出格式#

默认响应格式为“mp3”,但也可以使用其他格式,如“opus”、“aac”或“flac”。
Opus:用于互联网流媒体和通信,低延迟。
AAC:用于数字音频压缩,YouTube、Android、iOS 首选。
FLAC:用于无损音频压缩,深受音频爱好者的青睐,用于存档。

支持的语言#

TTS 模型在语言支持方面通常遵循 Whisper 模型。Whisper 支持以下语言,尽管当前的声音针对英语进行了优化,但性能良好:
南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰米尔语、土耳其语、乌克兰语、 乌尔都语、越南语和威尔士语。
您可以通过以所选语言提供输入文本来生成这些语言的语音音频。

流式传输实时音频#

语音 API 支持使用区块传输编码的实时音频流式处理。这意味着在生成完整文件并使其可访问之前,可以播放音频。
from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="Hello world! This is a streaming test.",
)

response.stream_to_file("output.mp3")

常见问题#

如何控制生成音频的情绪范围?#

没有直接的机制来控制所生成音频的情感输出。某些因素可能会影响输出音频,例如大小写或语法,但我们对这些因素的内部测试产生了不同的结果。

我可以创建自己声音的自定义副本吗?#

不,这不是我们支持的东西。

我是否拥有输出的音频文件?#

是的,就像我们 API 的所有输出一样,创建它们的人拥有输出。您仍然需要通知最终用户,他们听到的是 AI 生成的音频,而不是真人与他们交谈。
相关指南:本转换为音频

请求参数

Header 参数
Content-Type
string 
必需
示例值:
application/json
Authorization
string 
必需
示例值:
Bearer {{YOUR_API_KEY}}
Accept
string 
必需
默认值:
application/json
Body 参数application/json
model
string 
必需
可用的 TTS 模型之一:tts-1 或 tts-1-hd
input
string 
必需
要生成音频的文本。最大长度为4096个字符。
voice
string 
必需
生成音频时使用的语音。支持的语音有:alloy、echo、fable、onyx、nova 和 shimmer。
response_format
string 
可选
默认为 mp3 音频的格式。支持的格式有:mp3、opus、aac 和 flac。
speed
number 
可选
默认为 1 生成的音频速度。选择0.25到4.0之间的值。1.0是默认值。
示例
{
    "model": "tts-1",
    "input": "我爱刘宇航,刘宇航是我儿,我爱我儿,我要和我儿生我孙!",
    "voice": "onyx"
  }

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.aimhub.cc/cnapi/v1/audio/speech' \
--header 'Authorization: Bearer ' \
--header 'Authorization;' \
--header 'Accept;' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "tts-1",
    "input": "我爱刘宇航,刘宇航是我儿,我爱我儿,我要和我儿生我孙!",
    "voice": "onyx"
  }'

返回响应

🟢200成功
application/json
Body
object {0}
示例
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "onyx"
}
上一页
TTS文本转语音-alloy
下一页
TTS-1-hd文本转语音-alloy
Built with