ニューラル翻訳の実際

機械が自然言語を処理するとなると、自然言語と人工言語を結び付ける作業が必要になります。この研究領域はニューラル翻訳と呼ばれています。簡単に言えば、いかに自然言語を数値化できるかが研究課題なのです。1字、1単語、1文、1文章とレベルが上がるにつれて、当然ながら機械翻訳は難しくなります。文章ともなれば単語の組み合わせが文字通り無限大であり、それを数値化するのは現実的ではありません。ではニューラル翻訳がどのように数値化しているのかと言えば、「特徴量」と呼ばれる概念を使って対応しています。簡単に言えば、文章同士の類似性を算出することによって翻訳しているのです。類似性はある単語の文章中の出現頻度や、他の全ての文章でどのように扱われているのかによって決まります。もう少し具体的に見ていきましょう。日本語を機械がどのように認識するのかを見ます。まずは単語に分割します。この作業は形態素解析と呼ばれています。つまり意味を成すまとまりの最小単位を形態素解析で導出するのです。形態素解析が成功すると、構文解析、意味解析、文脈解析と進めたいところですが、ニューラル翻訳では異なったアプローチを採ります。それが、記号を連続数値に置き換えるというものです。つまり記号をベクトルや行列で表現できれば、様々な計算が可能になり、それが結果的に翻訳の正確性を高めるのです。実際大手の検索エンジンでもニューラル翻訳が採用されています。このニューラル翻訳では、一つ一つの単語を文脈で措定します。従って、再帰型ニューラルネットワークを使用することになります。

投稿日: 09/21/2019admin

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です