マハラノビス距離

Introduction

今日はマハラノビス距離について書いていきます。
マハラノビス距離はそれぞれの次元に相関があるときに有効とされています。
ある特徴と特徴に相関があることは往々にしてあると思います。
この距離は距離の公理を満たします。
また、統計学において大事な距離関数になります。
もし、統計や機械学習に興味がおありでしたらぜひこのブログをご覧ください。

概要

距離の公理
マンハッタン距離の定義
マンハッタン距離のイメージ

距離の公理

もし、dが距離関数であるならば、dは次を満たします。
$d:X \times X -> R$

$d(x,y) \geq 0$
$d(x,y) = 0 \leftrightarrow x = y$
$d(x,y) = d(y,x)$
$d(x,z) \leq d(x,y) + d(y,z)$

マハラノビス距離

マハラノビス距離は距離関数です。
次のように定義されます。
\[D_{M}(x) = \sqrt{(x-\mu)^T \Sigma^{-1} (x-\mu)}\]
ここで、 $\mu$ is mean vector
\[\mu = (\mu_1,\mu_2,....,\mu_n)\]
さらに $\Sigma$ は共分散行列です。
xとyのマハラノビス距離は
\begin{eqnarray*} d(x,y) &=& \sqrt{(x-\mu-(y-\mu)^T \Sigma^{-1} (x-\mu-(y-\mu)}\\ &=& \sqrt{(x-y)^T \Sigma^{-1} (x-y)} \end{eqnarray*}です。

マハラノビス距離のイメージ

初めに、ユークリッド距離を見てみましょう。
\[d(x,y) = \sqrt{<x^T,y>}\]
ユークリッド距離は $x$ and $y$ がもし、ある円の上にあるのなら、同じ距離としてみます。
enter image description here

これはデータが円状に分布しているときに有効になります。
enter image description here

しかし、データが楕円上に分布しているときは、ユークリッド距離は有効ではありません。
enter image description here

なぜなら、上のXとYを同じ距離だと見たいからです。
マハラノビス距離はXとYが同じ楕円の上のある時に等距離とみなします。
enter image description here

距離は機械学習でよく登場します。距離関数をマハラノビス距離を使うことでなにか面白い結果が得られるかもしれません。

このブログの人気の投稿

カーネルk-meansの実装

Introduction English ver 今日はカーネルk-meansの実装をしました。k-menasアルゴリズムはクラスタリングのためのアルゴリズムです。僕がカーネルk-meansを実装しようと思ったのには一つ理由があります。それは僕の友人がk-meansのプレゼンを、僕がカーネルのプレゼンをしていた時に、k-meansにカーネルを適応できないかと思ったからです。そこで、カーネルk-meansについての論文を探しました。ここのpdf を主に参考にさせていただきました。うまくカーネルk-meansを実装できたと思います。ここでは、普通のk-meansとカーネルを用いた,kernel k-meansについての実装の結果を紹介します。また、この記事では実装結果のみ書きますが、理論のほうも別の記事で書くつもりです。書き終えたらリンクをこの記事にも貼っておきます。 # 理論編書きました。K-means 理論編概要 dataset ちょっとだけ理論の説明 k-means kernel k-means Dataset English ver 今回使うのは二つのデータセットです。一つ目は、普通のk-means用のデータです。二つ目はkernel k-means用のデータセットです。一つ目のデータは、三つのグループで構成されており、次元は2で、サンプル数は300です。以下のような分布になっています。二つ目のデータは二つのグループで構成されており、次元は2でサンプル数は300です。 this page にデータセットを作ったコードを載せています。ちょっとだけ理論の説明 k-meansとは、k-平均法とも呼ばれています。初めに、適当なクラスに分け、各クラスの中で平均となるベクトルを求めます。そして、各データに対して、すべての平均ベクトルとの距離を求めます。そして、最小となる距離になるクラスに改めて、そのデータをクラスタリングします。そして、新たに得られたクラスの中でそれぞれ平均ベクトルを求め、これを繰り返し、平均ベクトルが動かな...

ダイクストラ法

Introduction English ver 今日は、ダイクストラ法について書きます。ダイクストラ法とは最短距離を求めるアルゴリズムです。地図はグラフで表されます。もし、まだ this page を見ていない方は先にこちらをご覧ください。今回はこの記事を前提としています。このページでは、グラフの定義と、ヒープ構造について書いています。ダイクストラ法ではヒープ構造を使って、かなりの計算量を落とします。このスライドはダイクストラ法を説明したスライドです。 Overview アルゴリズム実装アルゴリズムこのアルゴリズムはスタート始点のノードを決める。そして、それをAと名付ける。各ノードに$d=\infty$を割り当てる。ただし、スタート地点はd=0 Aの隣接ノードのリストをadj_listと名付ける。 For adj in adj_list: If d of adj > d of A + weight to adj -> d = A + weight to adj. グラフnetworkからAを取り除くグラフnetworkの中で最初のdを持っているノードをAとし、4に戻る。となっています。このアルゴリズムを図を用いて説明します。このグラフを使って説明します。初めに、スタート地点を決めます。そして、各ノードに$d=\infty$を割り当てます。 Aから始まります。Aの隣接ノードであるBのdを更新します。もし、現在のBよりもAのdとA->Bへの重みを足したもののほうが小さいならdをその値に更新します。同じようにCnのdを更新します。次にAを取り除きます。次はBから始まります。Aと同じことをやります。このダイクストラ法では今のような操作をグラフの全てのノードに×がつくまで続きます。実装このアルゴリズムでは$O(log(|V|^2))$という計算量を持っています。最小のdを持つノードを探すのに時間がかかります。しかし、ヒープ構造を使えばO((E+V)log(V))に減らせます。ヒープ構造で現時点での...

大学院試験　-外部への道しるべ-

始めにこの度、京都大学大学院情報学研究科システム科学専攻に合格することができました！！！僕は現在、立命館大学という関西の私立大学に通っているので、外部受験をしたことになります。さらに、学部は数学専攻で、大学院からは情報学(の中でも機械学習)専攻になるので、専門も変えることになります。この記事では、外部の大学院、もしくは専攻替えを考えている人向けに書こうと思っているので、目次で気になった項目があれば、ぜひ、読んでいってくださいませ。( *´艸｀) ちなみに、予測点数は線形微積6~7割、専門科目満点、英語かなり低いので内緒です。（笑）得点開示を要求するので、得点がわかったら、また追記します。目次外部受験を目指すまで、目指したきっかけ外部受検の大変さ専攻替えの大変さ合格するために英語が苦手な人へ数学科の学部から情報学(機械学習)の大学院を目指す人へ応援外部受検を目指すまで、目指したきっかけここでは、自分の大学生活がどんなだったかを書いてるだけなので、興味のない人は飛ばしましょう。（笑）僕が学部二回生頃に、当時数理科には機械学習の研究をされている先生が一人だけ所属されていました。その先生に、直接弟子入りさせていただき、僕の機械学習への道は始まりました。。。(メインは遺伝統計学の研究でした。) 弟子入りした直後は、タイピングもなめくじのように遅かったですし、gitもpullする前にpushしたこともありました。。。しかし、その先生は、目的に最先端で届く道のりを用意してくださいました。プログラミングを初めて一か月ほどで、t-SNEの実装をしたり(遺伝統計学の研究で必要だった)、四か月ほどで、カーネルc-SVMの実装をしたり(やってみなとゆわれて（笑）)することができました。その後も、学部二回生、三回生ながら、論文を読んで実装してきました。学部二回生冬には、遺伝統計学の研究を株式会社パーソルキャリアさん主催のハッチングフェスというデータサイエンティストのためのイベントで、発表しました。このイベントでは、企業の方もたくさん来られて、知り合えるチャンスがかなりあります！！ (名刺を作っておくと、「えっ、学生なのに名刺持ってるの？！」ってなるので、覚えてもらえます。...

journey of Froakie (ケロマツの旅路)

このブログを検索

マハラノビス距離

Introduction

概要

距離の公理

マハラノビス距離

マハラノビス距離のイメージ

ラベル

コメント

コメントを投稿

このブログの人気の投稿

カーネルk-meansの実装

ダイクストラ法

大学院試験　-外部への道しるべ-

journey of Froakie (ケロマツの旅路)

マハラノビス距離

Introduction

概要

距離の公理

マハラノビス距離

マハラノビス距離のイメージ

ラベル

コメント

コメントを投稿

このブログの人気の投稿

カーネルk-meansの実装

ダイクストラ法

大学院試験 -外部への道しるべ-

大学院試験　-外部への道しるべ-