VALL-E

VALL-E
開発元	Microsoft
公式サイト	https://www.microsoft.com/en-us/research/project/vall-e-x/
	テンプレートを表示

VALL-Eは、2023年1月5日にMicrosoftによって発表された音声合成を行う一種の生成AIである^[1]。

VALL-Eは、"recreate any voice from a three-second sample clip" (3秒の音声からすべての声を模倣できる)と紹介されている。^[2] VALL-EはMeta社のLibriLightという音声ライブラリ上の60000時間分の英語の音声を使用してトレーニングされた^[3]。

また、VALL-Eに変更を加えたものである「VALL-E R」や、「VALL-E 2」なども存在する^[4]。

VALL-E X

Microsoftによって発表された手法をPythonを用いて実装したオープンソースのVALL-E Xが存在する^[5]。この実装では英、中、日の三言語で相互の音声合成ができる。

外部リンク

公式ウェブサイト
VALL-E X - 公式サイト

出典・脚注

^ Dominguez (January 27, 2023). “Microsoft Unveils VALL-E, a Game-Changing TTS Language Model” (英語). InfoQ. 2023年9月19日閲覧。
^ Morrison (2023年1月10日). “Microsoft's new VALL-E AI can clone your voice from a three-second audio clip” (英語). Tech Monitor. 2023年9月19日閲覧。
^ Wodecki (January 11, 2023). “Microsoft's VALL-E Generates Speech From Just 3 Seconds of Audio”. AI Business. 2023年11月1日閲覧。
^ “VALL-E”. 2024年10月20日閲覧。
^ “Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex/”. 2024年10月20日閲覧。

[1] Dominguez (January 27, 2023). “Microsoft Unveils VALL-E, a Game-Changing TTS Language Model” (英語). InfoQ. 2023年9月19日閲覧。

[2] Morrison (2023年1月10日). “Microsoft's new VALL-E AI can clone your voice from a three-second audio clip” (英語). Tech Monitor. 2023年9月19日閲覧。

[3] Wodecki (January 11, 2023). “Microsoft's VALL-E Generates Speech From Just 3 Seconds of Audio”. AI Business. 2023年11月1日閲覧。

[4] “VALL-E”. 2024年10月20日閲覧。

[5] “Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex/”. 2024年10月20日閲覧。

[1]

[2]

[3]

[4]

[5]

VALL-E X

関連項目

外部リンク

出典・脚注