線形SVMの実装

Introduction

今日は線形SVMの実装をしました。
SVMはDeep learningが主流になる前、人気だったとどこかで拝見しました。
SVMの詳しい理論の説明は別の機会に必ず書きます。

# 第一弾書きました。
SVMの理論 part 1

computerはwindowsでOSはwindows10です。Python3で実装します。
このプログラムには内点法という最適化を使っています。

Dataset

次の二つのdastasetを使います。
一つは、完全に分離できるような分布のデータです・
もう一つは完全に分離できないような分布のデータです。
例えば、data1の分布はこのような形になります。
enter image description here

この分布ならきれいに二つのクラスを分けるような線が引けそうですね。
もう一つのデータは次のようなデータを使います。
enter image description here

このデータはきれいに分けるような線は引けなさそうです。
この二つのデータを用いて、線形SVMを使っていきましょう。

Implementation

data1

この線が分離面になります。
きれいにいい感じのところに引けてます。

data2
このデータについては様々なCを用いて計算してみました。

Cの値が小さければ小さいほど、誤分類を認めてしまうことになります。
このデータではCの影響を確認しずらいかもしれませんが、

$C=1$ 　の時、よく見ると、赤色のデータが一つ境界面を飛び出しています。
線形でないSVMを使うとCの影響がもっとわかりやすいかもしれません。
非線形なSVMについては、別の記事で書こうと思います。

CODE

コードはすべてgithubに乗せています。
My SVM code is here
今回使ったファイルはgit_SVM_check.pyとgit_SVM_def.pyです。
git_SVM_check.py には次のようなコードが入ったメインファイルです。

if __name__ == '__main__':

git_SVM_def にはSVMのクラスと、内点法の実装が入っています。
次は非線形のSVMについても書きたいと思います。
もし、そちらの記事も見ていただけたらハッピーです。

このブログの人気の投稿

ヘッセ行列

Introduction English ver 今日は、ヘッセ行列を用いたテイラー展開について書こうと思います。これは最適化を勉強するにあたって、とても大事になってくるので自分でまとめて残しておくことにしました。とくに、機械学習では最適化を必ず行うため、このブログのタイトルにもマッチした内容だと思います。 . 概要ヘッセ行列の定義ベクトルを用いたテイラー展開関数の最適性ヘッセ行列の定義仮定 f は次のような条件を満たす関数です。. f はn次元ベクトルから実数値を出力します。このベクトルは次のように表せます。

$x = [x_1,x_2,,,,x_n]$

$\forall x_i , i \in {1,2,,,n}$ , f は二回偏微分可能です。定義ヘッセ行列は

$\frac{\partial^2}{\partial x_i \partial x_j}を (i,j)要素に持ちます。$ よってヘッセ行列は次のように表せます。 \[ H(f) = \left( \begin{array}{cccc} \frac{\partial^ 2}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & &\ldots \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^ 2 f}{\partial x_1 \partial x_2} & \frac{\partial^ 2 f}{\partial x_2^ 2} & \ldots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^ 2 f}{\partial x_n \partial x_2} & \frac{\partial^ 2 f}{\partial x_n \partial x_2} & \ldo...

Implementation of Robbins monro

Robbins monro の実装 sorry, this page is Japanese only. 今回はRobbins monro の実装をしてみました。 Robbins monroは確率勾配降下法の学習率を入りテーション回数の逆数で割っていくものです。使っているprogram言語はpython 3です。osはwindowsです。(macほしい...) アルゴリズム確率勾配降下方とは目的関数の最適解を求めるアルゴリズムです。目的関数をf(X)とすると、手順は以下のようになっています。初期学習率

$n_0$ を決めます。訓練データDを用意します。この訓練データは複数の初期値の集まりです。訓練データから一つ初期値をランダムに取り出し、これを

$x_0$ とし、最初の予測値とします。次の式に現在の予測値

$x_0$ を代入し、新たな予測値

$x_{n+1}$ を得ます。

$x_{n+1} = x_{n} - \frac{n_0}{n} grad f(X_n)$ 収束して入れば4へ、収束していなければ2で得られた値

$x{n+1}$ を新たに

$x_n$ としてもう一度2を行う。訓練データを一周していなければ2へ、一周していれば各初期値から得られた解の中から目的関数を最も小さくするものを選ぶ。　　実装例以下の目的関数を最小化させてみましょう。

$f(x,y) = (x-2)^2 + (y-3)^2$ コマンドラインでpythonを実行していきます。予想通り、（２，３）という解を導き出してくれました。目的関数が簡単だったので、初期値をどの値でとってもばっちり正解にたどり着いてくれました。 CODE 以下にRobbins monroの関数だけ置いておきます。こちらにすべてのコードを載せています。 def Robbins_monro(function,grad,number_variable_gradient): init_learning_rate = 1.5 stepsize = 1000 init_value = np.array([range(-1000,1020,20) for i in range(number_v...

カーネルK-means 理論編

Introduction English ver 今日は、カーネルK-meansの理論について書きます。カーネルK-meansは通常のK-meansの欠点を補うことができます。通常のK-meansの欠点とカーネルK-meansの強みも説明します。もし、まだ御覧になられていなければ、通常の K-means 理論編の記事を見ていただけるとよいのではないかと思います。カーネルK-meansの実装編も併せてご覧ください。概要 K-meansの弱点カーネルトリックカーネルK-means アルゴリズム K-meansの弱点例えば、次のようなデータを用意します。このデータはK-meansによってうまく分類することはできません。なぜなら通常のK-meansでは、データとプロトタイプのユークリッド距離に依存しているからです。そのため、このような円状に分布しているデータはうまく分類することができません。プロトタイプとはそれぞれのクラスにあり、そのクラスを代表するようなもののことです。K-meansでは各クラスの平均ベクトルとなります。それゆえ、以下のような分類になってしまいます。このようなデータではK-meansはうまくいきません。 K-meansで分類できるデータセットは次のように各クラスで固まっている必要があります。カーネルK-meansはK-meansの弱点を補います。カーネルトリック初めに、カーネルトリックを説明します。線形分離できないようなデータ

$X$ を例えば次のように線形分離できるように

$\phi(x)$ に送る写像

$\phi$ を考えます。カーネルは次のように定義されます。

$K(x,y) = \phi(x)^T \phi(y)$

$\phi$ を具体的に計算することは難しいですが、

$K(x,y)$ を計算することなら簡単です。この手法をカーネルトリックと呼ばれます。カーネルK means K-meansの目的関数を復習しておきます。

$J = \sum_{n=1}^{N} \sum_{k=1}^{K} r_{nk} ||x_n-\mu_k||^2$ ここで、プロトタイプは

$\mu_i ~\forall k \in K$ としま...

journey of Froakie (ケロマツの旅路)

このブログを検索

線形SVMの実装

Introduction

Dataset

Implementation

CODE

ラベル

コメント

コメントを投稿

このブログの人気の投稿

ヘッセ行列

Implementation of Robbins monro

カーネルK-means 理論編