教師あり学習の代表的な統計手法1~回帰~
みなさま!こんにちは!今日も張り切っていきましょう!
さてさて今日からは新しい本をOutPutしてきます。
自分なりに解釈して噛み砕き、みなさまの理解に役立てればなと思います。
それでは始めます。
今日は機械学習の基本原理を今一度
OutPutしていきたいと思います。
機械学習とは
機械に学習する能力を与えること
でしたよね。機械が何かを実行したりするには必ず人のプログラミングが必要であり、
機械はその書かれたプログラミングに沿って処理を行っています。
しかし機械に学習能力を与えればより高度な処理ができて、手間を省けるかも・
ということで始まったものでしたね。
それで機械学習には三種類あって
あげられました。。
そしてここからです。
「機械学習の基本は統計学にあり、その出力データーは全て確率で表現されている」
と考えると良いと本書では書かれています。
教師あり学習であればこの学習方法は正解データ(教師データ)を用意してそこからアルゴリズムを見つけだして何かを識別したり予測したりできる方法です。つまり過去のデータを参照して未来を予測する「回帰」という統計学の手法が利用されているのです。
(教師あり学習について説明されているものが過去の記事にございます。ムムムな人はそちらを参照してください)
その統計的な手法「回帰」の考え方の例として本であげられているのは
「商店がチラシを配布してある商品を販売しようとしています。
この商品の在庫を全部売るにはチラシをどのくらい配布すればいいのでしょうか?」
実際には商品が売れる因子・要因って正直なところチラシだけとは言いずらいですよね
例えば
- 曜日
- 天気
- 経済的側面
などあげられますよね。なのでチラシの配布枚数と販売数の関係は近似式になります。
簡易的ですみません。縦軸を販売数。横軸をチラシの枚数。とします
青点が実際のデータ
赤い線が近似式 です。
近似なので実際の値の背景にある因子には目を向けず値をいい感じに
誤差が小さくなるのように表したものです。
これだとなかなか正確な予測は正直難しいような・・・
一回単純化して因子を「チラシの枚数」だけにして販売数を考えた時
だいたいチラシの枚数が多いほど販売数が増える傾向があったと仮定して
誤差が最小になるような直線を引いたとします
考えている因子はこの場合「チラシの枚数」だけなので
この式ではチラシの枚数(x)を一つ決めれば予想販売数(y)を求められるようになります。
これを最も単純な回帰「単回帰分析」と呼びます。
実際にはもっと多くの因子が考えられます。
それぞれの因子での販売数の関係を考慮して一つの式に複数の変数が含め、
未知の数値を予測したものを「重回帰分析」と呼びます。
機械学習では、問題を解決するアルゴリズムは数式になっています。
機械学習の教師あり学習では入力データ(チラシの枚数など)と結果(販売数)のセット、
つまり教師データをたくさん集めて学習し数式を立てて予測しているのです。
次回は教師あり学習のクラス分類と教師なし学習のクラスタリングについて
OutPutしていきます。
今日も見ていただきありがとうございます。
参考文献
過去記事