UOUODUO AI Gateway

API

Audio Transcription

上传音频并转写为文本，兼容 OpenAI-style transcription 请求。

概述

Audio Transcription 接口接收音频文件和模型名，返回转写文本。适合会议纪要、客服录音和语音输入。

请求

`POST https://api.example.com/v1/audio/transcriptions`

Headers

Header	必需	说明
Authorization	✓	`Bearer $UOUODUO_API_KEY`
Content-Type	✓	`multipart/form-data`

Body 参数

参数	类型	必需	默认	说明
file	file	✓	-	音频文件
model	string	✓	-	转写模型，例如 `whisper-1`
language	string	否	自动识别	ISO-639-1 语言代码，例如 `zh`、`en`
prompt	string	否	-	术语、说话场景或上下文提示
response_format	string	否	json	`json`、`text`、`srt`、`verbose_json`、`vtt`
temperature	number	否	0	采样温度
timestamp_granularities	array<string>	否	-	`word`、`segment`，需 verbose_json

示例

curl https://api.example.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $UOUODUO_API_KEY" \
  -F file="@meeting.mp3" \
  -F model="whisper-1" \
  -F language="zh" \
  -F response_format="verbose_json"

响应

字段	类型	说明
text	string	转写文本
task	string	任务类型
language	string	识别语言
duration	number	音频时长
words	array<object>	word 级时间戳，需模型支持
segments	array<object>	分段信息

{
  "text": "今天我们完成了文档迁移。",
  "task": "transcribe",
  "language": "zh",
  "duration": 12.4,
  "words": [
    { "word": "今天", "start": 0.1, "end": 0.5 }
  ],
  "segments": []
}

错误

HTTP	说明	处理建议
400	文件缺失、格式不支持或 response_format 不合法	检查 multipart 字段
401	API key 无效	重新创建 key
413	文件过大	客户端切分音频
429	音频模型限流	排队处理

注意事项

长录音建议切片并保存原始片段 ID，便于重试和校对。
如果业务里有专有名词，把它们放入 `prompt` 可以提升稳定性。
对账以 `/app/logs` 和 `/app/usage` 里的记录为准。