API

Audio Transcription

上传音频并转写为文本,兼容 OpenAI-style transcription 请求。

概述

Audio Transcription 接口接收音频文件和模型名,返回转写文本。适合会议纪要、客服录音和语音输入。

请求

`POST https://api.example.com/v1/audio/transcriptions`

Headers

Header必需说明
Authorization`Bearer $UOUODUO_API_KEY`
Content-Type`multipart/form-data`

Body 参数

参数类型必需默认说明
filefile-音频文件
modelstring-转写模型,例如 `whisper-1`
languagestring自动识别ISO-639-1 语言代码,例如 `zh`、`en`
promptstring-术语、说话场景或上下文提示
response_formatstringjson`json`、`text`、`srt`、`verbose_json`、`vtt`
temperaturenumber0采样温度
timestamp_granularitiesarray<string>-`word`、`segment`,需 verbose_json

示例

curl https://api.example.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $UOUODUO_API_KEY" \
  -F file="@meeting.mp3" \
  -F model="whisper-1" \
  -F language="zh" \
  -F response_format="verbose_json"

响应

字段类型说明
textstring转写文本
taskstring任务类型
languagestring识别语言
durationnumber音频时长
wordsarray<object>word 级时间戳,需模型支持
segmentsarray<object>分段信息
{
  "text": "今天我们完成了文档迁移。",
  "task": "transcribe",
  "language": "zh",
  "duration": 12.4,
  "words": [
    { "word": "今天", "start": 0.1, "end": 0.5 }
  ],
  "segments": []
}

错误

HTTP说明处理建议
400文件缺失、格式不支持或 response_format 不合法检查 multipart 字段
401API key 无效重新创建 key
413文件过大客户端切分音频
429音频模型限流排队处理

注意事项

  • 长录音建议切片并保存原始片段 ID,便于重试和校对。
  • 如果业务里有专有名词,把它们放入 `prompt` 可以提升稳定性。
  • 对账以 `/app/logs` 和 `/app/usage` 里的记录为准。