その結果、現在私たちが利用している AI 翻訳者は、テキスト内で膨大な数の言語をサポートしていますが、音声の翻訳となると状況は複雑になります。このトリックを段階的に実行するカスケード システムがあります。発話は、ディクテーション サービスの場合と同様に、まずテキストに変換されます。次に、テキストからテキストへの翻訳が行われ、最終的に、結果として得られるターゲット言語のテキストが音声に合成されます。これらの各段階でエラーが蓄積されるため、この方法で得られるパフォーマンスは通常低く、リアルタイムでは機能しません。
音声を直接翻訳できるシステムはいくつか存在しますが、ほとんどの場合、英語に翻訳するだけで、英語に翻訳することはできません。外国語の対話者は、Google の AudioPaLM などのツールでサポートされている言語のいずれかであなたに何かを言うことができ、彼らはそれを英語の音声に翻訳しますが、双方向で会話を行うことはできません。
そこで、Meta のインタビュー対象者が夢見ていたスタートレックのユニバーサル翻訳機を実現するために、Seamless チームはデータ不足の問題を解決することから始めました。そして彼らはそれを非常に創造的な方法で実現しました。
世界共通言語の構築
数学者であり機械翻訳の先駆者であるウォーレン・ウィーバー氏は、 主張した 1949 年には、人間のコミュニケーションの共通基盤として機能する、まだ発見されていない世界共通言語が存在するかもしれないと考えられました。私たちのすべてのコミュニケーションのこの共通基盤は、まさにシームレス チームが 70 年以上後にデータを探し求めたものでした。ウィーバーの普遍言語は数学、より正確には多次元ベクトルであることが判明しました。
機械は人間のように言葉を理解できません。それらを理解するには、まずそれらを意味を表す一連の数字に変換する必要があります。これらの数値シーケンスは、単語埋め込みと呼ばれる数値ベクトルです。この方法で何千万ものドキュメントをベクトル化すると、「お茶」や「コーヒー」など、よく一緒に使われる似た意味を持つ単語が互いに近くに配置された巨大な多次元空間ができあがります。欧州議会議事録のように 2 つの言語で整列されたテキストをベクトル化すると、最終的に 2 つの別々のベクトル空間ができ、ニューラル ネットワークを実行して、これら 2 つの空間がどのように相互にマッピングされるかを学習できます。
ソース参照
#メタはスタートレックのユニバーサル翻訳者に一歩近づきます