语音转文本（TTS）原生OpenAI格式

# 语音转文本（TTS）原生OpenAI格式 API 文档

体验网址：https://try.cxsee.com/voice/openai/
可用模型whisper-1

## 1. 接口说明

将音频文件转写为文本内容，兼容 OpenAI Whisper 风格调用方式。

- **接口地址**：`POST /v1/audio/transcriptions`
- **Content-Type**：`multipart/form-data`
- **认证方式**：`Authorization: Bearer <API_KEY>`

---

## 2. 请求参数

采用 `multipart/form-data` 传参：

| 参数名 | 类型 | 必填 | 说明 |
|---|---|---:|---|
| `file` | File | 是 | 待转写的音频文件（如 `.mp3`） |
| `model` | String | 是 | 模型名称，固定填写：`whisper-1` |
| `response_format` | String | 否 | 返回格式，建议 `json`（默认 `json`） |

---

## 3. 请求示例（cURL）

```bash
curl -sS -X POST "https://api.cxsee.com/v1/audio/transcriptions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@/path/to/demo.mp3" \
  -F "model=whisper-1" \
  -F "response_format=json"
```

---

## 4. 成功响应示例

```json
{
  "text": "数字先锋API 是一站式大模型语言服务平台, 聚合了 OpenAI、Cloud、Gemini、DeepSeek、Grok、Quen 等主流模型能力。",
  "usage": {
    "type": "duration",
    "seconds": 13
  }
}
```

### 字段说明

| 字段 | 类型 | 说明 |
|---|---|---|
| `text` | String | 转写后的文本内容 |
| `usage.type` | String | 计量类型，当前为 `duration` |
| `usage.seconds` | Number | 音频时长（秒） |

---

## 5. 错误响应示例

```json
{
  "error": {
    "message": "Invalid request",
    "type": "invalid_request_error"
  }
}
```

常见错误原因：

- 未携带或携带了无效 `Authorization`；
- `file` 未上传或文件为空；
- `model` 非 `whisper-1`；
- 请求头或表单格式错误（应为 `multipart/form-data`）。

---

## 6. 调用建议

1. **音频格式**：建议使用清晰语音的 `mp3/wav` 文件。
2. **文件大小**：控制在平台允许范围内（如有网关限制请以实际配置为准）。
3. **超时设置**：客户端建议设置 60 秒以上超时。
4. **重试策略**：网络波动时可做幂等重试（建议指数退避）。

---

## 7. 兼容性说明

本接口遵循 OpenAI 风格的语音转写调用方式，适配多数已接入 OpenAI Audio Transcriptions 的客户端。

---

上一篇：Luma 视频生成格式下一篇：Suno 生成歌词（lyrics）