同步人声分离

一次 multipart 上传,一次性拿回整段人声。服务端等模型全部跑完才写响应体,调用最直观,适合离线批处理、剪辑工具、转写前置。

POST /v1/audio-isolation 稳定 v1 更新于 2026-04
输入 · 一个音频文件 输出 · 纯净人声一段
M
N
POST
/v1/audio-isolation
等待上传
V
01

限制与约束

所有限制在服务端可配置。超出会返回 400 / 422 并附上具体错误码,详情见 §05。

单段时长
60分钟
单次请求的上限。超过会在解码阶段截断。
支持格式
WAV · MP3 · FLAC
以及 OGG · AAC · M4A · Opus · WebM 等容器。
输出格式
WAV · FLAC · MP3
通过 output_format 指定,默认 wav
输出采样率
16 · 24 · 48kHz
通过 output_sample_rate 指定,默认 16000
02

性能指标

待补充 — 会在生产硬件(单实例 GPU / CPU)上跑一轮 P50/P95 延迟和吞吐基准,并给出按音频时长分层的耗时拆分。

单次延迟
P50 / P95(测试中)
吞吐
单 worker QPS(测试中)
冷启动
模型加载时间(测试中)
资源占用
RAM / VRAM(测试中)
03

在线体验

上传一段混音或点下方示例,直接调用 /v1/audio-isolation。请求命中 getApiBase()(默认同源,可用 ?api=http://127.0.0.1:8080 覆盖)。

实时 · POST /v1/audio-isolation
输入音频
点击上传 / 拖拽音频
wav · mp3 · flac · m4a · opus · webm
示例: clean-speech quiet-speech speech-2
输出格式 output_format
采样率 output_sample_rate
人声输出
选好音频后点 开始分离
⌘ / Ctrl + ↵ 快捷提交
04

请求与响应

POST /v1/audio-isolation 接受 multipart/form-data。响应体是单个音频文件(audio/wav / audio/flac / audio/mpeg),首字节到达前服务端必须跑完整个推理。

请求字段

字段 类型 要求 说明
audio file 必填 输入音频。接受常见容器(wav / mp3 / flac / ogg / aac / m4a / opus / webm)。
output_format enum 可选 输出容器,取值 wav / flac / mp3,默认 wav
output_sample_rate int 可选 输出采样率,取值 16000 / 24000 / 48000,默认 16000

成功响应

200 OK · binary bodyheaders
HTTP/1.1 200 OK
Content-Type: audio/wav         // 与 output_format 对应: audio/wav | audio/flac | audio/mpeg
x-request-id: req_01HX9KMAR...
x-processing-ms: 1843            // 端到端处理毫秒数

<binary audio payload>

调用示例


    
05

错误码

所有业务错误返回统一信封 {"error": {"code": "...", "message": "...", "request_id": "..."}}。HTTP 状态码按错误类别归组,具体 code 列在描述里。

06

AI 集成 — 一键复制提示词

将预制提示词粘贴进 Claude、Cursor 或 ChatGPT,一分钟内接通同步接口。提示词涵盖字段、错误、重试与超时。

AI-READY PROMPT
tokens · 适配 Claude 4.7 & GPT-5

AI 快速集成

已在主流编码 Agent 上测试通过。包含完整接口契约、错误码和示例。粘贴后说 “用我的技术栈实现这个”