Introduction
ちなみにエントロピーの知識を使うのでエントロピーの記事も見てあげてください。
エントロピーの記事はこちら
Kullback-Leibler Divergence
二つの確率分布の平均エントロピーの差を表す値をKLダイバージェンスといいます。
式では次のように定義されます。
KL(P||Q) = \int_{-\infty}^{\infty} P(X) log \frac{P(X)}{Q(X)}
離散の場合は
KL(P||Q) = \sum_{i} P(X_i) log \frac{P(X_i)}{Q(X)}
なぜ二つの分布間の距離をこのように定義できるのでしょうか。
式の解釈
真の分布P(X)が存在するとします。しかし、有限のデータから真の分布P(X)を求めるのは難しいです。そこで、有限のデータから推定して得られた確率分布をQ(X)とします。では真の分布P(X)と推定した分布Q(X)はどれだけ違っているのでしょうか。
ここで登場するのがエントロピーです。エントロピーはその分布の不確実性を示す値でした。
エントロピーが高いほど不確かなことが起こるとゆうことです。
P(X)のエントロピーとは-\int_{-\infty}^{\infty} logP(X)でした。
では推定した確率分布Q(X)は確率分布P(X)に対してどれだけ不確実性を持っているのでしょうか。エントロピーとは情報量の期待値でした。確率分布Q(X)が持つ情報量は-logQ(X)です。この情報量を確率P(X)で期待値をとります。
式は以下のようになります。
-\int_{-\infty}^{\infty} P(X) logQ(X)
この値と真の分布のエントロピーとの差を二つの分布間の差として定義します。式では以下のようになります。
-\int_{-\infty}^{\infty} P(X) logQ(X) - (--\int_{-\infty}^{\infty} P(X) logP(X)))
これを式変形すると
-\int_{-\infty}^{\infty}(logQ(X)-logP(X)) =\int_{-\infty}^{\infty}(logP(X)-logQ(X)) = \int_{-\infty}^{\infty} log \frac{P(X)}{Q(X)}
となるわけです。
Referece
https://ja.wikipedia.org/wiki/カルバック・ライブラー情報量
sorry, this page is Japanese only.
今日がダイバージェンスについて書いていきます。ちなみにエントロピーの知識を使うのでエントロピーの記事も見てあげてください。
エントロピーの記事はこちら
Kullback-Leibler Divergence
二つの確率分布の平均エントロピーの差を表す値をKLダイバージェンスといいます。
式では次のように定義されます。
KL(P||Q) = \int_{-\infty}^{\infty} P(X) log \frac{P(X)}{Q(X)}
離散の場合は
KL(P||Q) = \sum_{i} P(X_i) log \frac{P(X_i)}{Q(X)}
なぜ二つの分布間の距離をこのように定義できるのでしょうか。
式の解釈
真の分布P(X)が存在するとします。しかし、有限のデータから真の分布P(X)を求めるのは難しいです。そこで、有限のデータから推定して得られた確率分布をQ(X)とします。では真の分布P(X)と推定した分布Q(X)はどれだけ違っているのでしょうか。
ここで登場するのがエントロピーです。エントロピーはその分布の不確実性を示す値でした。
エントロピーが高いほど不確かなことが起こるとゆうことです。
P(X)のエントロピーとは-\int_{-\infty}^{\infty} logP(X)でした。
では推定した確率分布Q(X)は確率分布P(X)に対してどれだけ不確実性を持っているのでしょうか。エントロピーとは情報量の期待値でした。確率分布Q(X)が持つ情報量は-logQ(X)です。この情報量を確率P(X)で期待値をとります。
式は以下のようになります。
-\int_{-\infty}^{\infty} P(X) logQ(X)
この値と真の分布のエントロピーとの差を二つの分布間の差として定義します。式では以下のようになります。
-\int_{-\infty}^{\infty} P(X) logQ(X) - (--\int_{-\infty}^{\infty} P(X) logP(X)))
これを式変形すると
-\int_{-\infty}^{\infty}(logQ(X)-logP(X)) =\int_{-\infty}^{\infty}(logP(X)-logQ(X)) = \int_{-\infty}^{\infty} log \frac{P(X)}{Q(X)}
となるわけです。
Referece
https://ja.wikipedia.org/wiki/カルバック・ライブラー情報量
コメント
コメントを投稿