MENU

G検定 機械学習についての解説

機械学習は従来から使われている手法ですが、1998年にgoogleの検索エンジンができる時代背景のなか、2000年代半ば以降の第3次ブーム時に、機械学習は更に大きく発展しました。

この記事では、第3次AIブーム前後に分けて、Beforeディープラーニング、Afterディープラーニングの順で機械学習について解説していきます。

タップできる目次

機械学習 before ディープラーニング

機械学習とは

人工知能のプログラム自信が学習する仕組み

機械学習の手法

機械学習には、「教師あり学習」「教師なし学習」「強化学習」の3種類の手法があります。

機械学習の3種の手法
  • 教師あり学習:入力と正しい出力がセットになった訓練データを使ってモデルを構築
  • 教師なし学習:入力用のデータから一定のパターンやルールを抽出する
  • 強化学習  :収益を最大化する方策を獲得することを目的とした手法

機械学習を利用する際の、前処理の目的

・データをモデルに正しく入力できるようにする
・データの大きさをある程度均一にする

データの前処理の方法

・欠損値の処理、補間
・名寄せ
・正規化:データをスケーリングする
・標準化:平均を0、分散を1に変換する
・時系列データの時間粒度の変更
・画像データのサイズ統一化、グレースケール化
・テキストデータの分かち書き基礎集計
・各種代表値(平均、分散、標準偏差)を計算する

基礎集計

各種代表値(平均、分散、標準偏差)を計算する

分類の方法

・最近傍法
・ナイーブベイズ法

決定木

不純度がもっとも減少するようにデータを振り分けるそれを、繰り返すが、木の深さやノードのデータの最小数は、ハイパーパラメータとして事前に決める不純度は、クラスの混じり具合を表す指標で、ジニ係数、やエントロピーがある。

サポートベクターマシーン

マージンの最大化をコンセプトに、2つのクラスを線形分離するアルゴリズムスラック変数:誤分類の許容度合い、ハイパーパラメータ 線形分離可能でないデータの分類は、カーネル法によって実現する。カーネル関数の計算によって実現するが、膨大な計算が必要であるため、カーネルトリックの手法を用いる。

ニューラルネットワーク

ステップ関数 活性化関数パーセプトロンを使って解ける問題は、「直線を使って分離できるもの」に限られる。(線形分離可能)線形分離不可能な場合、多層パーセプトロンを用いると解決できる。

論理ゲートとは2つの0、1入力に対して、あるルールで1つの0、1出力を行う計算機

特徴量エンジニアリング

・モデルが認識しやすい特徴をデータから作ること
・カテゴリカル変数 1と0に変更すること(one-hot-encoding)
・日付データの変換
・多項式特徴量の生成

学習済みモデルの実際の運用次の性能を測る手法

ホールドアウト法
交差検証(クロスバリデーション)
→データをいくつかに分割し、順にホールドアウト法を行い、それぞれの精度を平均する
→計算量が多くなる欠点、データが少ない場合でもホールドアウト法より信頼性高い

機械学習のボトルネックは、分類のための特徴を用いて表される概念を人間が設計(特徴量設計)しなければいけないことです。

特徴量設計をコンピュータ自身で解決出来る場合、第2次ブームの課題であった、「フレーム問題」「シンボルグラウンディング問題」も解決できる。

コンピュータがデータから注目すべき特徴を見つけて、その特徴の程度を表す特徴量を得ることを期待しているが、その当時は実現できなかった。

言語哲学者のソシュールによると概念はシニフィエ、そのラベルはシニフィアンと言われている。

回帰分析手法

代表的な手法は、線形回帰
・単回帰分析 一つの説明変数から目的変数を予測する
・重回帰分析 複数の説明変数から目的変数を予測する

説明変数は手掛かりとなる変数
目的変数は予測したい変数

重回帰分析を行う場合は、多重共線性の検出に注意する。2つの特徴量(説明変数)の相対係数は相関の強さを表す指標になり、相関係数の絶対値は常に1以下である。

多重共線性
相関係数の絶対値が最大値に近くなる特徴量のペアを同時に説明変数に選ぶと、予測の精度が悪化する。

計算問題の解き方

行列の計算
パーセプトロンの判定のために、総入力を計算する。

覚えるべきキーワード

・過学習    抑制のために正則化する
・テストデータ
・検証データ

機械学習 after ディープラーニング

ディープラーニングとは

・多階層のニューラルネットワーク
・多層化による誤差逆伝播の精度が上がらないため、1層ずつ階層ごとに学習し、自己符号器(オートエンコーダー)という情報圧縮器を用いる

ディープラーニングのモデルを用いることで、複数の特徴量を見つけ出すことができる。

頑健性の高い特徴量の獲得する方法
・「ちょっと違ったかもしれない過去」のデータから学習をさせていく
・ドロップアウト

G検定の全体的な学習方法は下の記事にまとめているので参考にしてみてください。

よかったらシェアしてね!
  • URLをコピーしました!
タップできる目次