今回のエントリーでは、ぼくが寄稿した雑誌『現代思想2014年6月号』青土社の紹介をしようと思う。この号の特集は「ポスト・ビッグデータと統計学の時代」だ。
現代思想 2014年6月号 特集=ポスト・ビッグデータと統計学の時代
- 作者: 西垣通,ドミニク・チェン,竹内啓,小島寛之,津田敏秀,樫村愛子,西川アサキ
- 出版社/メーカー: 青土社
- 発売日: 2014/05/26
- メディア: ムック
- この商品を含むブログ (4件) を見る
本特集は、このような「ビッグデータ賛」に対して、批判的な検討を加えるものとなっている。ぼくは、「統計学・確率論の有効性とその限界」という論考を寄稿した。
この号に参加して感慨深かったのは、2人の統計学者と稿を並べたことだった。一人は竹内啓先生。竹内先生は「ビッグデータと統計学」という論考を寄稿しておられる。もう一人は、竹村彰通先生。竹村先生は、「統計学にとって情報とは何か」という論考を寄稿された。どちらもすばらしい論文である。
竹内啓先生には、ぼくがまだ経済学者になってない頃、『現代思想』の統計学の特集に掲載するインタビューを収録するためにお話を伺いに行ったことがあった。1時間ほどお話していただいただけだったが、それだけでも、先生がとんでもなく頭の良いかたであることがひしひしと伝わった。他方、竹村彰通先生は、ぼくが社会人のまま東大経済学部の大学院に在籍したときに、統計学の講義を担当しておられた先生だった。塾で働いていたため、先生の講義にはときどき出席できただけだが、確かレーマーの有名な統計学の教科書を講義されていたように記憶している。大学院のコースワークの統計学の講義は、久保川達也先生が担当されたが、そのときに教科書として指定されたのが竹村彰通『現代数理統計学』創文社であった。久保川先生の講義があまりに名人芸だったことも大きいが、この本はとてもすばらしい教科書で、今でもぼくにとっての統計学のバイブルとなっている。実際、寄稿した論考を執筆する上で、この本を久しぶりに再読し、そのみごとさを実感し直すこととなった。
- 作者: 竹村彰通
- 出版社/メーカー: 創文社
- 発売日: 1991/12/01
- メディア: 単行本
- 購入: 2人 クリック: 26回
- この商品を含むブログ (24件) を見る
この特集「ポスト・ビッグデータと統計学の時代」では、おおよそだいたいの論者(ぼく自身も含む)がビッグデータへの讃辞には疑問符を投げかけている。それは同時に、「統計学とは何者であるか」ということに答える営為でもある。ここでは、竹内先生の論考の一部を紹介しよう。
竹内先生はまず、次のように述べている。
[標本から母集団の特性値について判断を下すこと]には、二つの仮定がふくまれる。それは現実の観測値の背後に、安定的な「無限母集団」の存在を想定できること、そうして観測値がそこからランダムに選ばれるものと見なし得ることである。(中略)。フィッシャー・ネイマンの統計的推測理論は、二〇世紀の大量生産、大量消費、大衆社会のMASS論理の支配する時代によく適合したものだったのである。
しかし、二〇世紀の最終四半期になって、IT技術が発展し普及すると、規格化された大量消費の時代から、個性的な多種少量生産の時代となり、不良率を抑えることではなく、不良品を出さないことが目的とされるようになった。それとともに古典的な統計的推測の方法が必要とされる分野は少なくなった。
このように、竹内先生は、古典的な統計学の立ち位置を評価した上で、次のようにビッグデータ讃辞に警鐘を鳴らす。
ところが最近になって、ビッグデータが重視されるようになって、統計学がまたもてはやされるようになった。長年統計学の研究に関わってきた者としては喜ぶべきことかもしれないが、統計学をビッグデータを扱うための「道具箱」として、使い易い道具を適当に使えばよいと考えられるのはよくないと思う。
この理由として、竹内先生は、次の四つの注目ポイントを挙げている。
ビッグデータに統計的方法を適用する当たっては、四つの段階を経なければならない。
1.データの吟味、2.モデルの選択、3.手法の選択と適用、4.結果の解釈と判断、
である。
これら4つの注目ポイントについて、竹内先生は、一つずつ詳しく検討をされているが、要約すれば次のようだ。すなわち、ビッグデータは量が多いと言っても、分析の目的に合う良質な情報が含まれるとは限らない。また、データに含まれるノイズを取り去るために、モデルを構築する必要があるが、モデルはシンプルであるほうが好ましい。大量のデータを複雑なモデルを想定して高度な解析を行うのは、解析手続きがブラックボックス化されてしまう、という意味で危険である。さらには、モデルの設定に即して適切な手法を選ばなければならないが、ビッグデータの場合、それが難しいことが想定される。例えば、仮説検定の方式は、帰無仮説の条件が科学的に明確な意味を持つ必要があるから、ビッグデータにはむかない、などなどである。
以上の竹内先生のビッグデータ論の再検討は、非常に示唆に富んでいる上、「統計学とは何者か」という、統計学の教科書にはほとんど書かれることにない根本的な問いへの答えを理解できるのでまさに一石二鳥である。是非、読んでいただければ、と思う。
ぼく自身が、何を寄稿したのか、というと、それは「統計学それ本体への疑義」と言っていい論考である。もう少し詳しく言うと、論点は2つ。第一は、「確率論は(大数の法則に絡んで)実は循環論に陥っており、もちろん、その循環論に統計学も巻き込まれている」というもので、第二は、「統計学の根本を支えるのは、最尤原理(最も起きやすいことが起きてると考える原理)であるが、最尤原理を認めるには、物理学におけるような何らかの実証性が必要だ」ということ。長くなったので、これらの点については、次回以降にエントリーしたいと思う。
ぼくが、この号の執筆者として呼ばれたのは、拙著『完全独習 統計学入門』ダイヤモンド社の評判があるのではないか、と推測している。実際、西内啓『統計学が最強の学問である』ダイヤモンド社がベストセラーになっている昨今、ぼくのこの教科書もつられて売上げを伸ばしている。ありがたいことである。でも、売れてお金が入るということ以上に嬉しいのは、ぼくがこの本に込めた「統計学の思想的な深遠さと面白さ」を一般の読者に普及させることができることだ。普通の統計学の入門書は、ハウツー本に留まっていて、こういうことを伝えていないのを残念に思うから。
- 作者: 小島寛之
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2006/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 215人 クリック: 3,105回
- この商品を含むブログ (115件) を見る
- アーティスト: FOUR GET ME A NOTS
- 出版社/メーカー: キングレコード
- 発売日: 2014/01/08
- メディア: CD
- この商品を含むブログ (2件) を見る