今、統計学系の新書を執筆している途中だ。ぼくの次の刊行物は、来月に出るPHP新書なんだけど(詳細はもう少し時間が経ってからで紹介する)、その次に刊行すべく今執筆中なのが、統計学についての新書ということ。おまけに、来月に出るある雑誌の統計学の特集にも寄稿することになっている。なので、今年に入ってから、ずっと、数理統計学の復習と統計学を利用したビジネスシーンのリサーチをしていた。そんな中、とても面白い本を見つけたので、今回はそれをエントリーしようと思う。
その前に、近況を少々。
もうね、いくつかのことを誰かがぼくに止めて欲しいよ。まず、このどうにもならない食欲を、誰か止めてほしい。あとね、2ちゃんねるの生物板をいい歳して一日中閲覧する、このとんでもなく無駄な時間の悦楽を誰か止めてくれ(書き込みはしとらんぞ)。とりわけ、アスキーアートが面白すぎて癖になってる。それから、将棋タイトル戦、将棋・電王戦、stap現象関係の記者会見のノーカット中継が嬉しすぎて、ニコ生のプレミアム会員になってしまいそうな勢いの自分を誰か制止してくれたまえ。あとあと、今年に入って、3ヶ月で5回もバンド・赤い公園のライブに行ってしまったこのアホおやぢを誰か諫めて欲しいぞ。
まあ、近況はそんなもんで、本題の統計学の話。今回紹介したいのは、鈴木義一郎『情報量基準による統計解析入門』講談社サイエンティフィク。これは、めちゃくちゃ面白くて為になる本だった(リンク貼るけど、絶版みたいだね)。

- 作者: 鈴木義一郎
- 出版社/メーカー: 講談社
- 発売日: 1995/04
- メディア: 単行本
- クリック: 2回
- この商品を含むブログ (1件) を見る
この本のすばらしさは、「例の挙げかた」に尽きていると思う。ほんとに、例があまりに適切にして面白すぎるのである。
それをわかってもらうには、主成分分析のところに登場する「ミス・ユニバース日本代表」のプロポーションのデータがいいだろう。第2回から第11回の10人の代表の身長・体重・バスト・ウェスト・ヒップのデータが紹介されている。そして、その5つの変数を主成分分析をして、誰が中でも「際だった特徴」を備えているかを見つけだすのである。
主成分分析というのは、今の例でいうなら、「5つの変数からデータが成るとき、それらを変数変換して、寄与度が大きい変数順に整理する」技術である。
さすがにこのエントリーで詳しくは述べられないが、本質的には線形代数における「固有値の理論」の応用である。もう少しだけ踏み込むと、2次形式(ax^2+2bxy+cy^2のような2次式)は対称行列を使って表現することができ、さらに対称行列は直交行列を使って対角化される。対角化に現れる数値が固有値と呼ばれる。このとき、各固有値に対応する固有ベクトルにある方法で対応するベクトルが主成分であり、その分散は固有値に一致する。そして、固有値が大きい順に「第1主成分」、「第2主成分」、・・・などと名付けられる。この主成分は、要するに、元のデータにまつわる変数を線形に処理して、標本たちの特徴に大きく寄与するもの順に並べたものなのである。ちなみに、2次形式と対称行列の直交化については、拙著『ゼロから学ぶ線形代数』講談社が(我ながら)良く書けていると思うので、是非参照して欲しい。
ミス・ユニバース日本代表のプロポーションのデータの例では、主成分分析において第1主成分と第2主成分だけを取り出して、それだけから何がわかるかを考察している。元の変数は5つだけれど、変数変換後では寄与度の大きい2つの変数だけに注目して、残る3つは無視しているのである。結論はどうなったか。
第1主成分と第2主成分だけを見ると、7番目のデータの日本代表が際立って数値が大きい。すなわち、特異なデータなのである。そして、このミスこそ、昭和34年代表の児島明子さんであり、唯一、ミスユニバースの栄冠を勝ち得た人だったのだ。次に突出しているのは、その6年前の伊藤絹子さんだが、彼女は3位入賞している。つまり、ミスユニバースを獲得したり、入賞したりするほどの特別なプロポーションを持っている人は、統計的に抽出することができ、さらにそれは5次元のデータを全部使う必要はなく、第1主成分と第2主成分だけで選り分けられる、という結論なのである。いやあ、なんだかめちゃめちゃ面白いし、読んでて楽しかった。
この本のテーマは、先ほど述べた通り、赤池情報量基準(AIC; Akaike's Information Criterion)である。言い換えると、「モデル選択」の理論の紹介なのである。この理論についてぼくは少ししか本を読んでいないが、こんなにわかりやすい解説は初めてだった。この知識をざっくり手に入れたい人にはお勧めである。
背景には、カルバック・ライブラー情報量という計算式がある。これは、「2つの関数の似ている度」を計測する指標だ。関数f(x)とg(x)のカルバック・ライブラー情報量は、f(x)÷g(x)の自然対数をとったものにf(x)を掛けて積分したものと定義される。非対称だし、変な式なのだけど、f(x)log(f(x)/g(x))はf(x)logf(x)−f(x)logg(x)と変形できて、前者は物理でいうところのエントロピーだから、「情報量」と言われれば、なるほどという感じもする。ちなみに、ぼくが遠い昔、河合塾で数学講師をしていた頃、大学受験問題として、このカルバック・ライブラー情報量の計算が出て(静岡大学だったように記憶しているが定かではない)、この式はなんじゃらほい、と不思議に感じたものだった。それで、知り合いの予備校講師たちに聞いてみたんだけど、誰も正体を知らなかった、という思い出がある。そして、その後に経済学の大学院に入学して統計学を学んでいるときに、この式に再会したときはとてもびっくりしたものだった。赤池情報量基準は、このカルバック・ライブラー情報量を上手に変形することで得られる。

- 作者: 小島寛之
- 出版社/メーカー: 講談社
- 発売日: 2002/05/10
- メディア: 単行本(ソフトカバー)
- 購入: 19人 クリック: 169回
- この商品を含むブログ (18件) を見る
とりわけ、「42°C」という曲は、稀代の名曲だと思う。リズムを切り替えていく手法といい、クリムゾン的なミニマリズムといい、全くすごいのだけど、とにかく歌詞が泣ける。「誰か大事な人を失ってしまったその後の世界を生きる」というテーマの歌詞で、ぼくは、この曲をリピートしながら、さめざめと何度も泣いてしまった。この歳になると、何人もの友人に先立たれている。そのとき思うのは、「彼らが逝ってしまった」というのではなく、「ぼくがこっちに残されてしまった」という感慨だ。この曲は、そういう孤独感をみごとに歌詞にしている。こういうのは、青くさい感傷と漠然とした将来への不安感の中でしか書けない。そういう意味で、Tricot(と中嶋イッキュウ)の最高傑作の曲となるであろう。

- アーティスト: tricot
- 出版社/メーカー: SPACE SHOWER MUSIC
- 発売日: 2014/03/19
- メディア: CD
- この商品を含むブログ (8件) を見る