ベイズ統計は、うさん臭いからこそ、役に立つ

*追記(11月27日)ダイヤモンド社のHP「ダイヤモンド社 書籍オンライン」に、ぼくの短期連載「完全独習 ベイズ統計学入門」の3回目が掲載された。次のリンク。迷惑メールフィルターはベイズ統計学を使ってゴミメールを判別している | 完全独習ベイズ統計学入門 | ダイヤモンド・オンライン
*追記(11月25日)ダイヤモンド社のHP「ダイヤモンド社 書籍オンライン」に、ぼくの短期連載「完全独習 ベイズ統計学入門」の2回目が掲載された。次のリンク。アメリカを二分した「モンティ・ホール問題」をベイズ統計学で推定する | 完全独習ベイズ統計学入門 | ダイヤモンド・オンライン
*追記(11月20日) アマゾンには入荷された。ちなみに、ダイヤモンド社のHP「ダイヤモンド社 書籍オンライン」に、ぼくの短期連載「完全独習 ベイズ統計学入門」の掲載が始まった。次のリンクだ。ガン検査が「陽性」でも気に病む必要はない?――「ベイズ統計学」の推定のしくみ | 完全独習ベイズ統計学入門 | ダイヤモンド・オンライン

いよいよ、ぼくの新著『完全独習 ベイズ統計学入門』ダイヤモンド社が刊行される。明日あたりから大手書店に並び、アマゾンには明後日に入荷される予定になっている。
 前回は、目次をさらした(来週、ベイズ統計の教科書が刊行されます! - hiroyukikojimaの日記)ので、今回は、序文(第0講)の下書きをさらすことにしよう。かなり大胆な売り文句なのだが、ご堪能あれ。お気に召したら、ご購入のほうもよろしく(笑)。ちなみに、リンクを張ったアマゾンの書影からわかると思うが、前作『完全独習 統計学入門』ダイヤモンド社は、な、なんと、10万部を突破した! もちろん、ぼくのすべての書籍の中で、刷り部数も売上げ金額もダントツ一位である。実に感慨深い。その続編だけに、力作だという自信がある。

完全独習 ベイズ統計学入門

完全独習 ベイズ統計学入門

それでは、以下は、序文(の下書き)である。
第0講  四則計算だけで理解するベイズ統計学
0−1 予備知識ゼロから実用レベルに到達できる
 本書は、「ベイズ統計学」と呼ばれる統計手法の超入門書です。「超」とはどういう意味か、というと、
* 予備知識ゼロからのスタート。
* 難しい記号や計算なしに、ベイズ統計が使えるようになる。
* お話だけでごまかすのではなく、免許皆伝レベルを達成する。
ということです。
 ベイズ統計は、多くの社会人が関心を持っているにもかかわらず、これまでの教科書は、導入部は平易なものの、途中から急に難しくなって、たいていの読者が挫折を余儀なくされます。それは、読者がベイズ統計の本質を把握できる前の時点で、確率記号が乱舞する世界に巻き込まれ、理解が追いつかなくなってしまうからです。
 本書では、その轍を踏まないように、いくつかの工夫をしました。以下、その工夫について説明していきます。

0−2 使うのは、面積図と算数だけ。
 ベイズ統計は、「ベイズの公式」という確率公式を下敷きに展開します。これは、「条件付確率」という確率の発展事項に立脚しています。「ベイズの公式」は一応高校数学で習うものなのですが、とてもわかりにくい概念です。なぜわかりにくいか、というと、理由は二つあります。第一は、公式が複雑な形をしていて直観的でないこと、第二は、そもそも条件付確率というのが、ある意味では「くさん臭い」概念で、慎重にものを考える人は「なんか変な感じがする」と疑問を持ってしまうこと、です。
 実は、この第二の点は、ベイズ統計にとってとても大切です。その「うさん臭さ」こそが、ベイズ統計の本質であり、利便性とつながっているからです。あとで詳しく解説しますが、その「うさん臭さ」が批判を浴び、ベイズ統計は20世紀初頭に、いったん統計学から抹消されてしまうことになりました。しかし、ベイズ統計の「うさん臭さ」と「利便性」とは表裏一体の関係にあり、「うさん臭いからこそ使える」のです。その「利便性」のほうに注目した学者たちによって、ベイズ統計は、20世紀後半に復権することとなりました。21世紀現在、ベイズ統計は逆に統計学の主流派と成り代わりました。
 そこで、本書では、この二つの点を考慮し、次のような工夫をしました。
(工夫その1) ごく一部の部分を除き「ベイズの公式」は表に出さない方針を貫いた。
代わりに、「面積図で図解する」という方針をとりました。本質的にはベイズの公式と同じことをしているのですが、多くの読者にとって、図解のほうが直観に訴え、理解が簡単になると考えたからです。さらには、「面積図」を使うことで、「ベイズの公式」のどこがどううさん臭いか、どこがどう利便性に富んでいるか、それらもはっきりするのです。
(工夫その2) 計算は算数レベルで済ませる。
つまり、すべてが四則計算だけで済みます。ルートや文字式計算さえ不要です。その四則計算も、手計算が不得意な人は、電卓を使えば苦労せず実行できます。
 もちろん、本書でも最後のほうに、「ベータ分布」や「正規分布」などの高度な概念が登場します。ここまで到達しないと「免許皆伝」とは言えないので仕方ありません。これらの概念については、完璧に解説しようとすると大学レベルの微分積分が必要になってしまいます。それは、読者の大部分に非常に大きな負担を強いることになってしまうでしょう。そこで本書ではやむなく、これらの解説は「簡易的」に済ませることにしました。つまり、四則計算だけで実行できる公式を天下り的に与える方針としました。これも、本書の工夫の一つです。そういう意味で本書は、「自己充足的(self-contained)ではない」です。しかし、そういう「完全理解」を欲する人も、本書を読んでから専門書に挑戦したほうが近道だと思います。本書では、高度な数学を削除しているため、かえって、「ベイズ統計の背景にある本質」が浮き彫りになっているからです。 

0−3 ビル・ゲイツも注目、ビジネスに使えるベイズ統計
 ベイズ統計は、インターネットの普及とシンクロする形でビジネスに使われるようになりました。インターネットでは、顧客の購買行動や検索行動が自動的に履歴として収集されますが、そこから顧客の「タイプ」を推定するには、スタンダードな統計学よりもベイズ統計のほうが圧倒的に優れているからです。
 現在、多くのネット系企業が実際にベイズ統計を利用しています。中でもマイクロ・ソフト社は、早くからベイズ統計をビジネス利用していることで有名です。ウィンドウズのOSのヘルプ機能には、ベイズ統計が導入されています。また、ウエブ上でユーザーが「子供の病気の症状」などを検索したとき、有望な指針を優先して表示するソフトウエアなども開発しました。マイクロ・ソフト社の代表ビル・ゲイツ氏は、1996年に、自社がベイズ統計の技術で競争に優位にあることを新聞で宣言しました。また、2001年の基調講演でも、21世紀のマイクロ・ソフト社の戦略はベイズ統計であること、また、すでに世界中からベイズ統計の研究者を多数ヘッドハンドしたことを公言したことは有名です。
一方、グーグル社も、自社の検索エンジンの自動翻訳システムにおいて、ベイズ統計の技術を活かしていることが知られています。
もちろん、ベイズ統計の技術は、IT系企業以外でもさまざまな分野で応用されています。例えば、ファクシミリでは送られた画像のノイズを修正して、正しい画像に近づけるのに、ベイズ統計を使っています。また、医療分野でも「自動診断システム」などにベイズ統計が使われています。
 本書を読んでいけばわかることですが、ベイズ統計の強みは、「データが少なくても推測でき、データが多くなるほど正確になる」という性質と、「入ってくる情報に瞬時に反応して、自動的に推測をアップデートする」という学習機能にあります。これを知れば、誰もがネット・ビジネスに最適、と納得することでしょう。
 したがって、今世紀のビジネスに従事する人は、ベイズ統計を使いこなせるようになると最強でしょう。本書は、そういうビジネス・パーソンの実用に役立つような例・解説を心がけました。

0−4 ベイズ統計は、実用的であるとともに、思想的なのだ。
 「ベイズ統計には、ある種のうさん臭さがある」ということを前の節に書きました。これはどういうことでしょうか。それは、ベイズ統計が扱う確率が「主観的」だ、ということです。つまり、ベイズ統計で導かれる確率は、客観的な数値ではなく、「人間の心理」に依存する主観的な数値だ、ということなのです。そういう意味で、ベイズ統計は「思想的」な面を備えています。このため、客観性を重んじる科学界から、ベイズ統計は「まがいもの」という烙印を押され、いったんは葬り去られることとなったのです。
 たいていのベイズ統計の本には、残念ながら、このことが書かれていません。著者たちがこのことを「表沙汰にしたくない」と思っているからなのか、あるいは、彼らに単に知識がないからかわかりませんが、とにかく、このことを正面から解説している教科書は滅多にありません。でも、このベイズ統計の「主観性」「思想性」は、ベイズ統計の本質であり利便性の源泉です。だから、このことに目をつぶって解説をするならば、ベイズ統計の本質は絶対に読者に伝わらないでしょう。
 そこで本書では、ベイズ統計の「主観性」「思想性」を包み隠さず、むしろ、白日の下にさらして、解説を進めることにしました。とりわけ、スタンダードな統計学とどこがどう違うのか、について丁寧に解説しました。きっと多くの読者が、「スゴイ! 面白い!」と拍手してくれるのではないか、と期待しています。
 

完全独習 統計学入門

完全独習 統計学入門