"0"からAI~ふらっとどうぞ~

自分は独学でゼロからAIについて学んでいる学生です。このブログは主にAIやネットワークの基本を理解できるようにブログという形で分かりやすくアウトプットしたものです。AIについて学びたいなと思っている方。ぜひこのブログで勉強して見てください!またある程度AIについて知識がある方も何かをを得るヒントにしてくてくれれば幸いです。Twitterアカウントもあるので是非フォローお願いします!

簡単。と思ってません? 英語を機械が処理する方法とは!?

みなさまこんにちは!!

 

今日も張り切っていきましょう。

 

さてさて前回は主に日本語の自然言語処理についてOutPutして

 

その中でも形態素解析が重要な役割を果たしていると書きました。

 

まだ見ていない人はこちらをぜひ見てみてくださいな。

 

zawapython.hatenablog.com

 

今日は

 

英語における自然言語処理について

 

OutPutしていきたいと思います。

 

前回も話したように英語には日本語と違って単語と単語の間には

必ずスペースが存在します。

 

なので英語の処理において形態素解析は必要ありません。

 

しかし!!  処理する行程が多く存在する

 

という特徴がございます。というのも英語には独特のルールがありますよね。

 

例えば、

  1. 大文字・小文字の使い分け
  2. カンマ・ダブルコロン・コロンの存在
  3. 時制による動詞の形の変化

これらを処理する行程があるため、行程が複雑化していると言えます。

では具体的な行程をOutPutしていきます。

 

9ステップで考えることができます。

 

[1.前処理→2.単語の分割→3.クリニーング処理→4.単語の正規化→5.省略語の処理→

 

6.Stemming処理→7.Stop-Words処理→8.単語の確率表現→9.文章のベクトル化]

 

になります。

 

いくつか具体的に説明していきます。

 

3.クリーニング処理:

このクリーニング処理では括弧やコンマ、さらにはピリオドなどの文字を削除する

処理を行います。

 

4.単語の正規化:

コンピュータは大文字を小文字を別の文字と判定してしまいます。なので、

単語の正規化では英語の大文字を小文字に変換してしまいます

ex) Culture→culture

 

5.省略語の処理:

省略語とは「Mr.」や「A.M」などを指しており、これらをピリオドを残すように補正処理を行う。

 

6.Stemming処理:

この処理では時制による動詞の変化を修正したり、同一のものとして処理します

 

ex)" Write" "Wrote" "Written" "Writer"は同じものにしてしまう。

     Wrote→Writeに変換する。

 

7.Stop-Words処理:

この処理は文章中に含まれる頻出の単語を削除する処理です。

ex) "is" "That"など。

これらはほとんどの文章に出てきます。文章の意味に直接関連を持たず、文章を決定づける特徴量には影響しないと判断されるからであると考えられます。

 

これらの処理を行いN-gram処理やTF-IDF処理で文章自体を数値で特徴化(8)して

ベクトル(9)として表すのです。

 

今日も見ていただきありがとうございました。

 

 

参考文献:

 

ディープラーニング (やさしく知りたい先端科学シリーズ2)

ディープラーニング (やさしく知りたい先端科学シリーズ2)

 

 

 

 

 

 

当ブログはAmazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイト宣伝プログラムである、Amazonアソシエイト・プログラムの参加者です。