3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐
微软推出最新 AI 成果——语音合成模型 VALL·E,它脱胎于 DALL・E,但专攻音频领域。只需 3 秒语音,就能随意复制任何人的声音。
基于 AI「没听过」的声音合成语音,即零样本学习。VALL・E 解决了此前预训练 + 微调模式下,零样本场景导致的生成语音相似度和自然度差的问题。此外,它还同时还支持语音编辑、与 GPT-3 结合的语音内容创建。
VALL・E 还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型,同时,连说话者的环境背景音也能准确还原。
有网友畅想它可以应用的方向,包括帮助残障人士和别人对话,有声书录制等。