恐ろしい現実的な音声デモボイスデモスパークと不快感をオンラインで

Akio Benjiro Mar 05, 2025 Mar 05, 2025 1 min read

Gavin Purcellによって作成されたSesameのCSMとの議論の例。

人間のポッドキャストのAIの共同所有者であるGavin Purcellは、Redditに関するビデオの例を公開しました。それは非常に動的であるため、誰が人であり、どのAIモデルであるかを言うのは困難です。私たち自身のデモから判断すると、ビデオで見るものが非常に能力があります。

「ほとんど男の質」

ボンネットの下で、CSMセサミは、メタのアーキテクチャLLAMに基づいて一緒に機能する2つのAIモデル（背骨とデコーダー）を使用して、そのリアリズムに到達します。セサミは、約100万時間の英語サウンドの83億パラメーター（80億バックボーンモデルと3億パラメーターデコーダー）を使用して最大のAIサイズを使用して、3つのAIサイズをトレーニングしました。

CSM SESAMEは、多くの以前のテキストシステムで使用されている従来の2つのステージアプローチには、音声に従うことはありません。セマンティックトークン（高レベルの音声）とアコースティックディテール（細かい粒の音機能）を2つの別々の段階で生成する代わりに、セサミCSMは、インターリーブとサウンドトークンを作成する1つの段階のマルチモーダルトランスモデルに統合します。 Openai音声モデルは、同様のマルチモーダルアプローチを使用しています。

会話の文脈のない盲目のテストでは、人間の評価者は、音声生成CSMと実際の人間の記録との間に明確な好みを示さず、モデルが孤立した音声サンプルに対してほぼ人間の品質を達成することを示唆しています。ただし、評価者に会話のコンテキストが装備されている場合、彼らは依然として実際の人間の言語を好み、ギャップが完全に文脈的な発話の生成に残っていることを示唆しています。

共同ファウンダーのセサミ・ブレンダン・イリベは、ハッカー・ニュースの解説の現在の制限を認識しており、システムは「まだ熱心で、植物、刺激がしばしば不適切である」と述べ、会話の中断、タイミング、流れに問題がある。「今日、私たちはしっかりと谷にいますが、私たちは登ることができると楽観的です」と彼は書いた。

ソース参照

#恐ろしい現実的な音声デモボイスデモスパークと不快感をオンラインで