同步人声分离
一次 multipart 上传,一次性拿回整段人声。服务端等模型全部跑完才写响应体,调用最直观,适合离线批处理、剪辑工具、转写前置。
POST
/v1/audio-isolation
稳定
v1
更新于 2026-04
输入 · 一个音频文件
输出 · 纯净人声一段
POST
/v1/audio-isolation
等待上传
01
限制与约束
所有限制在服务端可配置。超出会返回 400 / 422 并附上具体错误码,详情见 §05。
单段时长
60分钟
单次请求的上限。超过会在解码阶段截断。
支持格式
WAV · MP3 · FLAC
以及 OGG · AAC · M4A · Opus · WebM 等容器。
输出格式
WAV · FLAC · MP3
通过
output_format 指定,默认 wav。输出采样率
16 · 24 · 48kHz
通过
output_sample_rate 指定,默认 16000。02
性能指标
待补充 — 会在生产硬件(单实例 GPU / CPU)上跑一轮 P50/P95 延迟和吞吐基准,并给出按音频时长分层的耗时拆分。
单次延迟
—
P50 / P95(测试中)
吞吐
—
单 worker QPS(测试中)
冷启动
—
模型加载时间(测试中)
资源占用
—
RAM / VRAM(测试中)
03
在线体验
上传一段混音或点下方示例,直接调用 /v1/audio-isolation。请求命中 getApiBase()(默认同源,可用 ?api=http://127.0.0.1:8080 覆盖)。
实时 · POST /v1/audio-isolation
输入音频
点击上传 / 拖拽音频
wav · mp3 · flac · m4a · opus · webm
示例:
clean-speech
quiet-speech
speech-2
输出格式
采样率
人声输出
选好音频后点 开始分离
⌘ / Ctrl + ↵ 快捷提交
04
请求与响应
POST /v1/audio-isolation 接受 multipart/form-data。响应体是单个音频文件(audio/wav / audio/flac / audio/mpeg),首字节到达前服务端必须跑完整个推理。
请求字段
| 字段 | 类型 | 要求 | 说明 |
|---|---|---|---|
| audio | file | 必填 | 输入音频。接受常见容器(wav / mp3 / flac / ogg / aac / m4a / opus / webm)。 |
| output_format | enum | 可选 | 输出容器,取值 wav / flac / mp3,默认 wav。 |
| output_sample_rate | int | 可选 | 输出采样率,取值 16000 / 24000 / 48000,默认 16000。 |
成功响应
200 OK · binary bodyheaders
HTTP/1.1 200 OK Content-Type: audio/wav // 与 output_format 对应: audio/wav | audio/flac | audio/mpeg x-request-id: req_01HX9KMAR... x-processing-ms: 1843 // 端到端处理毫秒数 <binary audio payload>
调用示例
05
错误码
所有业务错误返回统一信封 {"error": {"code": "...", "message": "...", "request_id": "..."}}。HTTP 状态码按错误类别归组,具体 code 列在描述里。
06
AI 集成 — 一键复制提示词
将预制提示词粘贴进 Claude、Cursor 或 ChatGPT,一分钟内接通同步接口。提示词涵盖字段、错误、重试与超时。
AI-READY PROMPT
用 AI 快速集成
已在主流编码 Agent 上测试通过。包含完整接口契约、错误码和示例。粘贴后说 “用我的技术栈实现这个”。