微软开源VibeVoice-1.5B:90分钟4人语音生成,但真能替代真人播客?
微软近日通过其开源文本转语音(TTS)模型 VibeVoice-1.5B 再次引发了技术社区对语音合成领域的关注。该模型基于 1.5B 参数的 Qwen2.5 语言模型构建,能够一次性生成长达 90 分钟、最多包含 4 位不同说话者的自然语音,并具备跨语言支持及歌声合成能力。然而,尽管其技术表现令人瞩目,一个重要的问题随之浮现:这样的模型是否真能替代真人播客?从技术架构来看,VibeVoice-1.5B 采用了声学与语义双分词器(Tokenizer)设计,以 7.5Hz 的低帧率处理语音数据。声学分词器基于 σ-VAE 结构,能够将原始 24kHz 音频压缩至三千二百分之一,而语义分词器...

最近评论