あのSiriでも苦戦?AIによる日本語の処理の仕方!!
みなさん。こんにちは!
今日も張り切っていきます。
とその前に。
タイトル名が変わったことに気づきました??
「OutPutな日常」を改めて「"0"からAI~ふらっとどうぞ~」に名前変更しました笑
これからもよろしくお願いします。
普段自分たちが何気なく使うGoogleやSiri などの検索エンジンに、ほとんどの方が
日本語を入力したり発音したりして情報を得ていますよね?
これは実はすごいことなんです!!
というのも・・自分たちの日本語をコンピューターが理解するには文法や単語
などをデータベース化する必要があります。しかし!
今の日本語 ≠ 昔の日本語
ですよね。日々新しい言葉は誕生するし文法だって誕生する。逆もまた然りで
昔使われていた言葉や文法は消えていきますよね・・・
人間は完全に言語を覚えて理解しているのではなくて
多様な解釈から最も適当な解釈を判断し処理
していると言われます。コンピュータの自然言語処理においてこの「適当な解釈」
をすることがめっちゃむずいのです。
文脈で変わったり声のトーンや顔の表情でさえ意味が変わったりしますもんね。
しかしディープラーニングの登場で一気にその精度は増していきました。
では具体的に日本語の自然言語処理についてOutPutしていきます。
下の図を見てください。
精度(大)ーーーーーーーーーーーーーーーーーーーー→(小)
日本語の自然言語処理においては形態素解析・構文解析・意味解析・文脈解析
の順番でようやく言語の意味や分脈を処理することができます。
この形態素解析についてもう少し詳しくOutPutしていきます.
(その他のやつは割愛させてください。)
~形態素解析~
形態素解析とは主にこのような役割があります
- 文章を構成する単語に品詞付与をする。
- 単語ごとに分割していく。
なぜ日本語では形態素解析が重要なのかというと。英語などは単語と単語の間に空白があり単語の分割が勝手にされているのですが、日本語では・・ないですよね。
なので単語と単語の間を認識して区切る処理が必要なのです。
また、英語圏で開発されたサービスを利用しようとしても
『MeCab』です。
誰でも利用できるサービスです。
もっと詳しく学びたい人は是非、やって見てはどうでしょうか?
今日も見ていただきありがとうございました!!
参考文献:
次回は英語の自然言語処理について
OutPutしていきます!!