簡単。と思ってません? 英語を機械が処理する方法とは!?
みなさまこんにちは!!
今日も張り切っていきましょう。
さてさて前回は主に日本語の自然言語処理についてOutPutして
その中でも形態素解析が重要な役割を果たしていると書きました。
まだ見ていない人はこちらをぜひ見てみてくださいな。
今日は
英語における自然言語処理について
OutPutしていきたいと思います。
前回も話したように英語には日本語と違って単語と単語の間には
必ずスペースが存在します。
なので英語の処理において形態素解析は必要ありません。
しかし!! 処理する行程が多く存在する
という特徴がございます。というのも英語には独特のルールがありますよね。
例えば、
- 大文字・小文字の使い分け
- カンマ・ダブルコロン・コロンの存在
- 時制による動詞の形の変化
これらを処理する行程があるため、行程が複雑化していると言えます。
では具体的な行程をOutPutしていきます。
9ステップで考えることができます。
[1.前処理→2.単語の分割→3.クリニーング処理→4.単語の正規化→5.省略語の処理→
6.Stemming処理→7.Stop-Words処理→8.単語の確率表現→9.文章のベクトル化]
になります。
いくつか具体的に説明していきます。
3.クリーニング処理:
このクリーニング処理では括弧やコンマ、さらにはピリオドなどの文字を削除する
処理を行います。
4.単語の正規化:
コンピュータは大文字を小文字を別の文字と判定してしまいます。なので、
単語の正規化では英語の大文字を小文字に変換してしまいます
ex) Culture→culture
5.省略語の処理:
省略語とは「Mr.」や「A.M」などを指しており、これらをピリオドを残すように補正処理を行う。
6.Stemming処理:
この処理では時制による動詞の変化を修正したり、同一のものとして処理します
ex)" Write" "Wrote" "Written" "Writer"は同じものにしてしまう。
Wrote→Writeに変換する。
7.Stop-Words処理:
この処理は文章中に含まれる頻出の単語を削除する処理です。
ex) "is" "That"など。
これらはほとんどの文章に出てきます。文章の意味に直接関連を持たず、文章を決定づける特徴量には影響しないと判断されるからであると考えられます。
これらの処理を行いN-gram処理やTF-IDF処理で文章自体を数値で特徴化(8)して
ベクトル(9)として表すのです。
今日も見ていただきありがとうございました。
参考文献: