どちらかと言えば情報理論のイメージでしょうか?
図:ブルーバックス『シャノンの情報理論の入門』より
足し算より掛け算
シャノンの情報理論入門 (ブルーバックス) | 高岡 詠子 |本 | 通販 | Amazon
Amazonで高岡 詠子のシャノンの情報理論入門 (ブルーバックス)。アマゾンならポイント還元本が多数。高岡 詠子作品ほか、お ...
https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%89%E3%
83%BB%E3%82%B7%E3%83%A3%E3%83%8E%E3%83%B3
83%BB%E3%82%B7%E3%83%A3%E3%83%8E%E3%83%B3
クロード・エルウッド・シャノン(Claude Elwood Shannon, 1916年4月30日 - 2001年2月24日)はアメリカ合衆国の電気工学者、数学者。20世紀科学史における、最も影響を与えた科学者の一人である。
情報理論の考案者であり、情報理論の父と呼ばれた。情報、通信、暗号、データ圧縮、符号化など今日の情報社会に必須の分野の先駆的研究を残した。アラン・チューリングやジョン・フォン・ノイマンらとともに今日のコンピュータ技術の基礎を作り上げた人物として、しばしば挙げられる[1]。
業績
デジタル回路設計の創始者
1937年のマサチューセッツ工科大学での修士論文「継電器及び開閉回路の記号的解析」[2]において、電気回路(ないし電子回路)が論理演算に対応することを示した。すなわち、スイッチのオン・オフを真理値に対応させると、スイッチの直列接続はANDに、並列接続はORに対応することを示し、論理演算がスイッチング回路で実行できることを示した。これは、デジタル回路・論理回路の概念の確立であり、それ以前の電話交換機などが職人の経験則によって設計されていたものを一掃し、数学的な理論に基づいて設計が行えるようになった。どんなに複雑な回路でも、理論に基づき扱えるということはコンピュータの実現に向けたとても大きなステップの一つだったと言える。
ハーバード大学教授のハワード・ガードナー(Howard Gardner)は、この論文について「たぶん今世紀で最も重要で、かつ最も有名な修士論文」と評した。ただし、わずかな時間差であるが、中嶋章による発表の方が先行しており(論理回路#歴史を参照)、独立な成果か否かは不明とされている。
情報理論の考案
1948年ベル研究所在勤中に論文「通信の数学的理論」[3]を発表し、それまで曖昧な概念だった「情報」(information)について定量的に扱えるように定義し、情報についての理論(情報理論)という新たな数学的理論を創始した。
翌年ウォーレン・ウィーバーの解説を付けて出版された同名(ただし“A”が“The”に変わっている)の書籍『通信の数学的理論』[4]で、シャノンは通信におけるさまざまな基本問題を取り扱うために、エントロピーの概念を導入した。情報の量(情報量)を事象の起こる確率(生起確率)によって定義し、エントロピー(平均情報量)を次のとおりに定義した。時間的に連続して起こる離散的な確率事象 の生起確率 によって定まる情報量 () の期待値が、エントロピー である(エントロピー#情報理論におけるエントロピーとの関係も参照)。
- (台が有限の場合)
そして、ノイズ(雑音)がない通信路で効率よく情報を伝送するための符号化(「情報源符号化定理」または「シャノンの第一基本定理」)と、ノイズがある通信路で正確に情報を伝送するための誤り訂正符号(「通信路符号化定理」または「シャノンの第二基本定理」)という現在のデータ伝送での最も重要な概念を導入した。これらはそれぞれデータ圧縮の分野と誤り訂正符号の分野の基礎理論となっている。通信路符号化定理は単一通信路あたりの伝送容量に上限があることを意味する。
シャノン=ハートレーの定理
標本化定理の証明
アナログデータをデジタルデータへと変換する時、どの程度の間隔でサンプリングすればよいかを定量的に表す標本化定理を1949年の論文"Communication in the Presence of Noise"の中で証明した。標本化定理は1928年にハリー・ナイキストによって予想されており、またシャノンの証明発表の同時期に証明をした人物が複数存在するが、シャノンのものが最も有名であり、英語圏では「ナイキスト=シャノンの標本化定理」という名前で知られている(詳しくは標本化定理を参照)。標本化定理は、現在、コンパクトディスクを始めとしたあらゆるデジタイズ技術の基礎定理となっている。
暗号理論に関する先駆的成果
1949年に論文「秘匿系の通信理論」[7]を発表し、ワンタイムパッドを利用すると情報理論的に解読不可能な暗号が構成でき、情報理論的に解読不可能な暗号はワンタイムパッドの利用に限ることを数学的に証明した(現代の暗号研究で考察されている計算量的に安全な暗号ではなく、情報理論的に安全な暗号を考察している点に注意)。
シャノンのチェスプログラム
1949年にコンピュータチェスに関する画期的な論文「チェスのためのコンピュータプログラミング」[8]を発表し、力ずくの総当たりでなくコンピュータがチェスをする方法を示した。コンピュータがどの駒をどう移動するかを決定するのにシャノンが用いた方法が、評価関数に基づいたミニマックス法だった。評価関数は、駒の価値や、駒の位置の価値、移動の価値などをすべて数値化して「局面」の価値を評価するものであり、シャノンはその後のゲーム展開を探索木(Search tree)に分類してどの着手がもっとも良いかを探索する方法について考察している。この論文はコンピュータゲームでのコンピュータの思考プログラム設計の原典となった。
受賞歴
- 1940 アルフレッド・ノーブル賞(Alfred Noble Prize)
- 1949 IRE モーリス・N・リーブマン記念賞
- 1955 フランクリン・インスティテュート(Franklin Institute) スチュアート・バランタイン・メダル
- 1956 リサーチ・コーポレーション賞
- 1962 ライス大学 栄誉賞
- 1962 マービン・J・ケリー賞
- 1966 IEEE栄誉賞
- 1966 アメリカ国家科学賞
- 1967 ゴールデンプレート賞
- 1972 ハーヴェイ賞(イスラエル)
- 1978 ジョゼフ・ジャカール賞
- 1978 ハロルド・ペンダー賞
- 1985 AES ゴールドメダル
- 1985 京都賞基礎科学部門(日本)
- 1991 エドワード・ライン賞
栄誉
- 1954 イェール大学 修士号(MS)
- 1961 ミシガン大学 名誉博士号
- 1962 プリンストン大学 名誉博士号
- 1964 エディンバラ大学 名誉博士号
- 1964 ピッツバーグ大学 名誉博士号
- 1970 ノースウェスタン大学 名誉博士号
- 1975 オランダ王立芸術科学アカデミー 外国会員
- 1978 オックスフォード大学 名誉博士号
- 1982 イースト・アングリア大学 名誉博士号
- 1984 カーネギー・メロン大学 名誉博士号
- 1987 タフツ大学 名誉博士号
- 1991 ペンシルベニア大学 名誉博士号
- 2004 全米発明家殿堂入り
脚注
- ^ コンピュータ「技術」の基礎を作り上げた人物として挙げられる、ということは事実であるが(特に一般人は、「IT」というバズワードの T が技術を意味しているために)、チューリングやノイマンについても同じことが言えるが、技術への貢献以上に、まず第一に「理論への貢献」と、コンピュータの専門家や科学史家ならば言うであろう。
- ^ Claude Shannon, "A Symbolic Analysis of Relay and Switching Circuits", Massachusetts Institute of Technology, Dept. of Electrical Engineering, 1940.
- ^ Claude Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379–423 and 623–656, 1948. オンライン版, PDF
- ^ Claude Shannon and Warren Weaver, The Mathematical Theory of Communication, The University of Illinois Press, 1949. ISBN 0-252-72548-4.
- ^ 出典は情報量#歴史を参照。
- ^ 論文の中で、用語 "bit" を考案したのはジョン・テューキーだとしている。ISOおよびJISでは単位としてビットの代わりにシャノン(Sh)を使うことにしているが、現在のところあまり一般的ではない。
- ^ Claude Shannon, "Communication Theory of Secrecy Systems", Bell System Technical Journal, vol. 28, pp. 656–715, 1949.
- ^ Claude Shannon, "Programming a Computer for Playing Chess", Philosophical Magazine, ser. 7, vol. 41, no. 314, 1950.
著書
- コミュニケーションの数学的理論、C.E.シャノン、W.ウィーヴァー、(The Mathematical theory of communication、E.Shannon、Warren Weaver、(C)1967 by The University of Illinois Press.)訳者:長谷川淳、井上光洋、明治図書出版(1969年)。
- 通信の数学的理論 、Warren Weaver, Claude Elwood Shannon, 植松 友彦 (翻訳) 、筑摩書房 (2009年8月10日) <ちくま学芸文庫>、ISBN 978-4480092229、価格1260円。
(上記の再翻訳、文庫版)。
関連項目
- シャノン:情報量の単位
- シャノン符号化(シャノン-ファノ符号、Shannon-Fano code)
- 情報理論 (Information theory)
- 標本化定理 (Nyquist-Shannon sampling theorem)
- レート歪理論 (Rate distortion theory)
- シャノン=ハートレイの定理 (Shannon-Hartley law)
- シャノン指数 (Shannon index)
- シャノン線図(Shannon diagram)
- シャノン数 (Shannon number)
- クロード・E・シャノン賞 (Claude E. Shannon Award)
- シャノンのスイッチングゲーム (Shannon switching game)
- ワンタイムパッド (One-time pad)
- 拡散とかく乱 (Confusion and Diffusion)
- デジタル回路
情報理論の基礎~情報量の定義から相対エントロピー、相互情報量まで~ | Logics of Blue
https://logics-of-blue.com/information-theory-basic/情報理論の基礎~情報量の定義から相対エントロピー、相互情報量まで~
最終更新:2017年6月12日
この記事では「情報量をどのように定義するか」という問題への回答としての、情報エントロピー、そして、相対エントロピー(別名:カルバック・ライブラーの情報量)や相互情報量の導入とその解釈の仕方を説明します。
統計学や機械学習を学ぶ際に、どうしても必要となる考え方ですので、ある程度まとまった知識、解釈の仕方を持っておくと、少し難しい書籍を読んだ時にも対応ができるようになるかと思います。
スポンサードリンク
目次
- 情報理論とは
- 情報量を定義する
- 情報エントロピーと平均情報量
- 相対エントロピー
- 相互情報量
1.情報理論とは
情報理論とは、文字通り「情報とは何かを定義し、より良い扱い方を考える学問」といえます。
その中でも大きく3つのジャンルに分けることができます。
その中でも大きく3つのジャンルに分けることができます。
1つ目は、そもそも情報量をどのように定義するか、という問題を解決するジャンル。
2つ目は、情報を、いかに効率よく送受信させるかを考えるジャンル。
3つ目は、送信された情報に雑音が入った時に、どのようにしてノイズを減らすかを考えるジャンルです。
2つ目は、情報を、いかに効率よく送受信させるかを考えるジャンル。
3つ目は、送信された情報に雑音が入った時に、どのようにしてノイズを減らすかを考えるジャンルです。
2つ目は「符号理論」などと呼ばれることもあります。
3つ目は「誤り検出・訂正符号」という問題で多くの成果を残しています。
3つ目は「誤り検出・訂正符号」という問題で多くの成果を残しています。
もちろん、この3つに分類ができないものもあるでしょうが、おおよその見取り図として「情報量を定義して、ノイズを減らしつつ、うまいこと送受信する」という大きな目的があるのだと思うとわかりよいかと思います。
この記事では、まずは「そもそも、情報をどのように定義するか」という1つ目の問題に関して焦点を当てて解説していきます。
2.情報量を定義する
これから情報量を定義していくわけですが、その前に、とても重要な前提条件を共有しておかなければなりません。
それは「定義された情報量は、今後いろいろの計算に”扱いやすい”形式になっていなくてはならない」ということです。
もちろん「扱いやすいだけでなく、私たちの直感とそれほど相違がないものにしたい」という願いもあります。
それは「定義された情報量は、今後いろいろの計算に”扱いやすい”形式になっていなくてはならない」ということです。
もちろん「扱いやすいだけでなく、私たちの直感とそれほど相違がないものにしたい」という願いもあります。
この2つを同時に満たした情報量の定義をしなくてはなりません。
まずは直感的な定義を導入しましょう。
情報量の性質1:珍しいことは情報量が多い
あなたは賭けをしているとしましょう。ルーレットです。なお、出る目に偏りはない、公平なルーレットだとします。
このルーレットには1~40までの番号が振られています。
そして、あなたは「ルーレットが出た目」を当てればお金がもらえます。
このルーレットには1~40までの番号が振られています。
そして、あなたは「ルーレットが出た目」を当てればお金がもらえます。
以下の2つの「情報」のうち、どちらのほうが「情報量が多い」とみなせるでしょうか。
言い換えると「どちらか片方だけの情報が(ともに無償で)得られるとしたら、どちらの情報がほしいですか?」という問いにしてもかまいません。
言い換えると「どちらか片方だけの情報が(ともに無償で)得られるとしたら、どちらの情報がほしいですか?」という問いにしてもかまいません。
A:1~20のうちのどれかの目が出た
B:1~10のうちのどれかの目が出た
B:1~10のうちのどれかの目が出た
Bの情報を手に入れた後に賭けをしたほうが、断然お得です。
情報Aを手に入れたとしても「まだ20個ある候補のうちどれが正しいのかわからない」ことになります。
一方の情報Bですと「あと10個の候補のなかから選べばいい」ことになるので、賭けが当たりやすくなります。
情報Aを手に入れたとしても「まだ20個ある候補のうちどれが正しいのかわからない」ことになります。
一方の情報Bですと「あと10個の候補のなかから選べばいい」ことになるので、賭けが当たりやすくなります。
ここで、情報理論では確率を使います。
Aが発生する確率は2分の1です。
Bが発生する確率は4分の1です。
そして、Bのほうが情報量が多い。
Bが発生する確率は4分の1です。
そして、Bのほうが情報量が多い。
これを一言でいうと「発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い」ということになります。
これが情報量の直感的な定義です。
情報量の性質2:情報は足しあわされていく
先ほどのルーレットの例を続けましょう。
情報Bを手に入れたあなたに、さらにワンチャンス。追加で以下の情報が伝えられたとします。
情報C:出た目は偶数である
情報量が増えて、うれしいことですね。もう、「2,4,6,8,10」のどれかから選ぶだけでよいのですから。1~40の目の中から1つを選ぶというのとは大違いです。
では、ここで「なぜ情報量が増えたとみなせるのか」を考えましょう。
先ほどの情報量の直感的定義を使えば「『BとCが同時に起こる確率』が、『Bが単独で起こる確率』よりも小さいから」ということになります。
先ほどの情報量の直感的定義を使えば「『BとCが同時に起こる確率』が、『Bが単独で起こる確率』よりも小さいから」ということになります。
どれくらい確率が小さくなったのかを計算します。
偶数になる確率は2分の1です。またB(1~10の目が出る)となる確率は4分の1だったことに注意してください。
BとCが同時に起こる確率は以下のように計算できます。
偶数になる確率は2分の1です。またB(1~10の目が出る)となる確率は4分の1だったことに注意してください。
BとCが同時に起こる確率は以下のように計算できます。
1/4 × 1/2 = 1/8
確率が8分の1にまで減りました。
確率が小さくなった。だから「あなたが持っている情報量が増えた」ということになります。
確率が小さくなった。だから「あなたが持っている情報量が増えた」ということになります。
ここで確率を「掛け算」することによって、情報量が増えたことを計算していました。
しかし、「掛け算」というのは足し算よりもより取り扱いが難しい計算です。
そこで「掛け算を足し算として表したい」という「数学的なニーズ」が出てきます。
しかし、「掛け算」というのは足し算よりもより取り扱いが難しい計算です。
そこで「掛け算を足し算として表したい」という「数学的なニーズ」が出てきます。
情報量の定義
以下の2つの要請を満たす「情報量」を定義しましょう。
1:発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い
2:情報量は足し算で増えていく。
1:発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い
2:情報量は足し算で増えていく。
この条件を満たす情報量は以下のように定義できます。あることが分かった際の「そのことの情報量」を自己情報量と呼びます。
ここでP(x)は、「あることが起こる確率」を表します。例えば1~10の目がでる確率ならば1/4となりますね。
頭にマイナスがついているので「確率が小さくなるほど、情報量は大きくなる」ことが分かります。
頭にマイナスがついているので「確率が小さくなるほど、情報量は大きくなる」ことが分かります。
また対数がついています。
対数の中は、掛け算が足し算となります。
対数の中は、掛け算が足し算となります。
対数の復習をします。
2の3乗は、2×2×2=8ですね。なので、対数を使うと以下のように書けます。
2の3乗は、2×2×2=8ですね。なので、対数を使うと以下のように書けます。
ここで、logの右下についている数値(この場合は2)のことを「底」と呼びます。その横の数値(この場合は8)を真数と呼びます。
対数とは「2の〇乗=8」となる〇を表す記号です。用語を使うと「底の〇乗=真数」となる〇を表すことになります。
対数とは「2の〇乗=8」となる〇を表す記号です。用語を使うと「底の〇乗=真数」となる〇を表すことになります。
ここで、真数を掛け算してみましょう。
これは以下のようにも書けます。
というわけで、真数の掛け算は、対数同士の足し算になるというわけです。
先のルーレットの例において、Bが起こる確率をP(B)、Cが起こる確率をP(C)、各々の自己情報量をi(B), i(C)とすると、情報量は以下のように変化したことになります。
先のルーレットの例において、Bが起こる確率をP(B)、Cが起こる確率をP(C)、各々の自己情報量をi(B), i(C)とすると、情報量は以下のように変化したことになります。
なお、対数の底は2を使うことが多いです。これはコンピュータが0か1かの2択で動いているからです。対数の底を2とした情報量の単位をビット(bit)と呼びます。
もちろん、対数の底を変えても情報量の性質は大きくは変わりません。底を自然数(e)にした時の情報量の単位はナットと呼ばれます。
もちろん、対数の底を変えても情報量の性質は大きくは変わりません。底を自然数(e)にした時の情報量の単位はナットと呼ばれます。
対数は単調増加する関数ですので、これを使うと「確率が減れば情報量は増える」という性質は残したまま「掛け算を足し算にする」ことができます。
数学的にも取り扱いがとても簡単になるので、対数を使うのです。
数学的にも取り扱いがとても簡単になるので、対数を使うのです。
3.情報エントロピーと平均情報量
ルーレットの例をまた使います。
情報Bと情報Cを手に入れて、出る目が{2,4,6,8,10}のどれかになるところまではわかりました。
その時、怪しげな男に以下の相談を持ち掛けられたとします。
その時、怪しげな男に以下の相談を持ち掛けられたとします。
「出た目をこっそり教えてあげよう。その代り、金をくれ」
悪い取引ではないですね。出た目が分かれば確実に賭けに当たるわけですから。
問題はいくら払うかです。
だって、もう「あと5つにまで絞れている状態」なのですから、追加の情報が得られてもあまりうれしくありません。
問題はいくら払うかです。
だって、もう「あと5つにまで絞れている状態」なのですから、追加の情報が得られてもあまりうれしくありません。
ここで、話を変えましょう。
もし、情報Bと情報Cを手に入れていなかったとしたら、1~40までの目のうちのどれが出るかさっぱりわからないという状態だったわけです。
このときに「出た目をこっそり教えてあげよう。その代り、金をくれ」といわれたら、ちょっと大きな金額でも出してあげようかという気持ちになりますね。
もし、情報Bと情報Cを手に入れていなかったとしたら、1~40までの目のうちのどれが出るかさっぱりわからないという状態だったわけです。
このときに「出た目をこっそり教えてあげよう。その代り、金をくれ」といわれたら、ちょっと大きな金額でも出してあげようかという気持ちになりますね。
ここで、情報理論の本質ともいえる、とても重要な事実に気が付きます。
それは「男が提供する内容には違いがないのにかかわらず、その事実のもつ重要さが変わってくる」ということです。
男が持ち掛けた相談は「出た目を教えてあげる」ということでした。内容は全く変わりません。
それなのに、なぜその事実の持つ重みが変わるのか。
男が持ち掛けた相談は「出た目を教えてあげる」ということでした。内容は全く変わりません。
それなのに、なぜその事実の持つ重みが変わるのか。
それは「あなたが今、どれだけの情報を持っているのか」が違っているからです。
言い換えると「あなたが何も知らない状態ならば、追加の情報はとてもうれしい」一方で「あなたが多くを知っている(知らないことがほとんどない)状態で、追加の事実が明らかになっても、それは情報量が少ない」ということになるのです。
言い換えると「あなたが何も知らない状態ならば、追加の情報はとてもうれしい」一方で「あなたが多くを知っている(知らないことがほとんどない)状態で、追加の事実が明らかになっても、それは情報量が少ない」ということになるのです。
この原理を使って、男から得られる「出た目を教えてあげる」という言葉の重みを測りましょう。
(なお、怪しげな男は、見た目とは裏腹に、必ず正しい結果を伝えてくれるとします)
(なお、怪しげな男は、見た目とは裏腹に、必ず正しい結果を伝えてくれるとします)
まず、男がどのような結果を出してくるかはわかりません。
ルーレットの目は複数あります。男が「2の目が出た」というかもしれませんし「8の目が出た」と教えてくれるかもしれません。
なので男から得られる情報量は「男の主張する内容に対する、平均的な情報量」とみなす必要があります。
ルーレットの目は複数あります。男が「2の目が出た」というかもしれませんし「8の目が出た」と教えてくれるかもしれません。
なので男から得られる情報量は「男の主張する内容に対する、平均的な情報量」とみなす必要があります。
「男の主張する内容に対する、平均的な情報量」は、「あなたが出た目に対してどれほど『知らないことがあるか』」によって決まります。
まずは、情報B、Cをすでに持っていて、出た目が{2,4,6,8,10}のどれかだと知っている場合の平均情報量を求めます。
平均値は、期待値として計算します。
期待値は「確率×その時の値の合計」で計算できます。
出る目はすべて等分に「5分の1」の確率で現れることに注意してください。
平均値は、期待値として計算します。
期待値は「確率×その時の値の合計」で計算できます。
出る目はすべて等分に「5分の1」の確率で現れることに注意してください。
一方、40個の目のうち、どれが出るかさっぱりわからない、という状態では、以下のように計算できます。
なお、各々の目が出る確率は40分の1であり、以下の式の「…」にはlog2(1/40)が40回足されているのだという風にご理解ください。
なお、各々の目が出る確率は40分の1であり、以下の式の「…」にはlog2(1/40)が40回足されているのだという風にご理解ください。
やはり、こちらの方が平均情報量が多いことが分かりました。
知っていることが少ない(わからないことが多い)人ほど、得られる情報量の平均値は大きくなることが分かります。
知っていることが少ない(わからないことが多い)人ほど、得られる情報量の平均値は大きくなることが分かります。
この「わからなさ」あるいは「不確実性」のことを、専門用語で「情報エントロピー」と呼びます。
そして、「わからなさ」は「新たに何か分かった時の平均情報量」と等しくなります。
そして、「わからなさ」は「新たに何か分かった時の平均情報量」と等しくなります。
よって、
情報エントロピー = 平均情報量
として定義されます。
情報エントロピー = 平均情報量
として定義されます。
別の例をあげましょう。
ルーレットの出目がまったくわからない状況で、以下のように持ち掛けられます。
「ルーレットの出目が、2か、2でないか、を教えてあげよう。その代り、金をくれ」
ルーレットの出目がまったくわからない状況で、以下のように持ち掛けられます。
「ルーレットの出目が、2か、2でないか、を教えてあげよう。その代り、金をくれ」
このとき、話を持ち掛けてきた男に、大きなお金を渡そうと思うことはないと思います。
少なくとも「ルーレットの出目を直接教えてくれる」場合と比べれば、明らかにその言葉の重みは低いとみなすところです。
なぜか。それは「ルーレットの出目が、2か、2でないかは、最初からすでにある程度分かっているから」です。
少なくとも「ルーレットの出目を直接教えてくれる」場合と比べれば、明らかにその言葉の重みは低いとみなすところです。
なぜか。それは「ルーレットの出目が、2か、2でないかは、最初からすでにある程度分かっているから」です。
40通りの目の中で、2が出る確率は40分の1です。
一方、2以外の目が出る確率は40分の39となります。
だから「2でないだろうとあらかじめ予想ができる」ことになります。
予想がつくということは「ある程度分かっている→不確実性(情報エントロピー)が少ない→平均情報量が少ない」となるわけです。
一方、2以外の目が出る確率は40分の39となります。
だから「2でないだろうとあらかじめ予想ができる」ことになります。
予想がつくということは「ある程度分かっている→不確実性(情報エントロピー)が少ない→平均情報量が少ない」となるわけです。
このときの情報エントロピー(平均情報量)は以下のように計算できます。
やはり、小さな値になっていますね。
二択の問題であったとしても、以下のような話のほうが、平均情報量は大きくなります。
「偶数か、奇数かを教えてあげよう」
偶数になる確率は2分の1。奇数になる確率もやはり2分の1です。
すなわち「偶数が出るか奇数が出るか、予想がつかない」わけです。
予想がつかない→不確実性(情報エントロピー)が大きい→平均情報量も大きい、となります。
「偶数か、奇数かを教えてあげよう」
偶数になる確率は2分の1。奇数になる確率もやはり2分の1です。
すなわち「偶数が出るか奇数が出るか、予想がつかない」わけです。
予想がつかない→不確実性(情報エントロピー)が大きい→平均情報量も大きい、となります。
さっきの0.17よりかは大きな値になっています。
ちなみに、二択の問題であれば、2分の1ずつに分かれる場合が、最も情報量が大きくなります。これが最も予測しにくいからですね。
ちなみに、二択の問題であれば、2分の1ずつに分かれる場合が、最も情報量が大きくなります。これが最も予測しにくいからですね。
スポンサードリンク
4.相対エントロピー
相対エントロピーは別名カルバック・ライブラー(Kullback-Leibler)の情報量ともよばれる指標です。
これは確率分布の差異を表す指標といえます。分布間擬距離とも呼ばれます。
「擬」という言葉がある通り、正確な距離とは言えないところはありますが、確率分布ごとの違いを見るのによく使われます。
これは確率分布の差異を表す指標といえます。分布間擬距離とも呼ばれます。
「擬」という言葉がある通り、正確な距離とは言えないところはありますが、確率分布ごとの違いを見るのによく使われます。
今までのルーレットの例をまた使いましょう。
ルーレットで偶数が出るか奇数が出るかを当てたいとします。
これが当たれば、お金ゲットです。
ルーレットで偶数が出るか奇数が出るかを当てたいとします。
これが当たれば、お金ゲットです。
ルーレットが、偏りがなければ、以下のような確率分布になると想定されます。
この確率分布を便宜上Pとあらわします。
この確率分布を便宜上Pとあらわします。
ここで、「実は、このルーレットには偏りがあり、偶数のほうが出やすいのだ」ということを知ったとしましょう。
新しい確率分布をQと表します。
新しい確率分布をQと表します。
もともと「こうだろう」と思っていた確率分布と、偏りがあるとわかった後の確率分布の違いはいかほどのものでしょうか。
この距離を測るために、各々の確率分布の情報量の差分の期待値をとります。
これが相対エントロピーです。なお、対数の中では、掛け算が足し算になるように、引き算は割り算になることに注意してください。
これが相対エントロピーです。なお、対数の中では、掛け算が足し算になるように、引き算は割り算になることに注意してください。
「あらかじめわかっていた確率分布」と同じ確率分布を教えてもらったところで「そんなこともう知っているよ」という感じになりますね。
なので、この場合は情報量は0となります。
確率分布が異なっていれば、情報量があるとみなすのが、カルバック・ライブラーの情報量です。
なので、この場合は情報量は0となります。
確率分布が異なっていれば、情報量があるとみなすのが、カルバック・ライブラーの情報量です。
5.相互情報量
相互情報量は不確実性(情報エントロピー)の減少量とみなすことができます。
先のルーレットの例において、情報B(ルーレットの出目は1~10のどれかだ)だけが得られているときに、さらに情報C(ルーレットの出目は偶数だ)が追加されると、情報量が増えました。
言い換えると、不確実性(情報エントロピー)が減ったことになります。
どれくらい減ったのでしょうか。
以下のように表記することとします。
先のルーレットの例において、情報B(ルーレットの出目は1~10のどれかだ)だけが得られているときに、さらに情報C(ルーレットの出目は偶数だ)が追加されると、情報量が増えました。
言い換えると、不確実性(情報エントロピー)が減ったことになります。
どれくらい減ったのでしょうか。
以下のように表記することとします。
縦棒は「条件」を表します。
H(B)は「B(出目が1~10である)」時の情報エントロピー。
H(B|C)は「C(奇数か偶数かが分かっている)という条件での、B(出目が1~10である)」時の情報エントロピーを表します。
縦棒がついた時を「条件付きエントロピー」と呼びます。
H(B)は「B(出目が1~10である)」時の情報エントロピー。
H(B|C)は「C(奇数か偶数かが分かっている)という条件での、B(出目が1~10である)」時の情報エントロピーを表します。
縦棒がついた時を「条件付きエントロピー」と呼びます。
よって、この場合の相互情報量は「偶数か奇数かがわかることによって、不確実性がどれほど減ったのか」を表す指標だとみなすことができます。
ここから、少し数式が増えますが、条件付きエントロピーと相互情報量の値を計算してみます。
なお、先ほどの例では「C:偶数だということが分かった」としてありますが、より一般的に「C:偶数か奇数か分かった」時の条件付きエントロピーとみなして計算を進めます。
またBとは「出目が1~10のどれかである」ことを表していることも忘れないようにしてください。
なお、今回は、一切偏りのないルーレットであることを仮定して計算します。
なお、先ほどの例では「C:偶数だということが分かった」としてありますが、より一般的に「C:偶数か奇数か分かった」時の条件付きエントロピーとみなして計算を進めます。
またBとは「出目が1~10のどれかである」ことを表していることも忘れないようにしてください。
なお、今回は、一切偏りのないルーレットであることを仮定して計算します。
まずは条件付きエントロピーを分解しましょう。
「偶数であるという条件におけるBの情報エントロピー」と「奇数であるという条件におけるBの情報エントロピー」の期待値をとっていることになります。
次は、偶数だとわかっているときの情報エントロピー H(B|偶数) を求めましょう。
出目は{2,4,6,8,10}のどれかになるはずです。
出目は{2,4,6,8,10}のどれかになるはずです。
2.32となりました。
奇数だとわかっているときも同様に出目が{1,3,5,7,9}のどれかになるため、偶数と同じように、2.32と求まります。
奇数だとわかっているときも同様に出目が{1,3,5,7,9}のどれかになるため、偶数と同じように、2.32と求まります。
最後に、偶数奇数が分かっていない時のBの情報エントロピーを求めます。「…」にはlog2(1/10)が10個入ります。
というわけで、相互情報量は以下のように計算できます。
偶数か奇数かがわかることによって、情報エントロピーは1bit少なくなりました。
よって「偶数か奇数かがわかること」は「平均的には1bitの情報量をもたらした」とみなすことができるというわけです。
よって「偶数か奇数かがわかること」は「平均的には1bitの情報量をもたらした」とみなすことができるというわけです。
参考文献
情報理論のエッセンス 情報理論を初めて学ぼうとされる方にお勧めの本です。 そっけない表紙の本ですが、オーム社さんから出版される前から昭晃堂さんから出版されていて、順調に版を重ねているロングセラーです。 タイトルに偽りなしで「エッセンス」が抽出されています。薄い本なのに関わらず、数式は多くなく、情報理論において基本となる重要ポイント、そして「情報理論の使い方」に焦点を当てている本です。 工学部の先生が書かれているようでして、情報理論を専門外としている人でも納得できるように書かれてあるのがとてもありがたいです。 |
シャノンの情報理論入門 こちらはBLUE BACKSの新書です。 情報理論って、何やってる学問なのかな、というのをさらっと読みたい方にお勧めします。 |
情報理論 (ちくま学芸文庫) 文庫本なのですが、かなり内容が濃いです。情報理論の全体像をしっかり見てみたいという方はこちらをどうぞ。Kindle版もあります。 |
基礎情報学 これは、今まで紹介した本とはかなり毛色が違い「情報理論の解釈」が多く載っている本です。例えば相対エントロピーだけで1章が分けられており、著者の方の一部独自(?)の解釈も展開されているように思います。 入門書というかは微妙ですが、AICに関する記述などもあり、興味深い本ではあります。 |
スポンサードリンク
関連する記事
- 投稿タグ
- 情報理論
0 件のコメント:
コメントを投稿