第7回 教員エッセイ

Veritas

理工学部情報理工学科 加藤 剛先生

2013.06.10

田中昌司先生から加藤剛先生へのメッセージ

次は数学領域の加藤剛先生にバトンタッチします。先生は統計学がご専門で、最近は生物学や医学領域の統計解析にも積極的に取り組もうと意欲的です。ここで紹介したマウスの行動モデルの共同研究者でもあります。  

 

「最強の学問」はウソ。けれども、とても役に立つ統計学 

理工学部情報理工学科 加藤 剛 

 

  

 この原稿を執筆中の2013年3月現在、「統計学が最強の学問である」という本が、各種のビジネス書ランキングでトップ10に入るほど売れに売れているようです。また、歴史のあるビジネス雑誌「週刊ダイヤモンド」の2013年3月30日号の特集記事の題は、「最強の武器『統計学』」です。統計をご飯の種にしている私が自己否定的な事を書くのも何ですが、統計学が「最強である」とは言い過ぎです。最強は、数学ではありますまいか。

第7回教員エッセイ 加藤先生 photo1

 最強の学問であるというのはウソとしましても、統計学がとても役に立つことは事実です。日本の統計教育では、いまだに、身長、体重、試験の結果という3種類のデータしか出てこないことが多いです。これがよろしくありません。この場を借りまして、「統計=身長、体重、試験の結果」という固定観念とはまったく異なる世界が統計にあることをご紹介したいと思います。

 

 私にリレーエッセイのバトンを渡してくださった田中昌司先生との共同研究で実際にあったことを、専門外の方にもわかりやすいように内容を簡略化してお話しします。マウス40匹を10匹ずつのグループに分け、グループ名をA、B、C、Dとします。興奮作用がある薬を、Aのグループのマウスには0単位、Bには1単位、Cには2単位、Dには3単位投与します。

第7回教員エッセイ 加藤先生 photo2
第7回教員エッセイ 加藤先生 photo2
第7回教員エッセイ 加藤先生 photo2
第7回教員エッセイ 加藤先生 photo2
  グループA  0単位   グループB  1単位   グループC  2単位   グループD  3単位

 

 興奮作用がある薬物を投与されたマウスは、投与前とは行動形態が違ってきます。例えば、興奮するとあちらこちら頻繁に動き回るようになるので、1時間の移動距離は投与後の方が投与前よりも長くなります。したがって、理論的には、各グループに属するマウス10匹の1時間における移動距離の変化について、下の図1のようなグラフが描けると考えられます。横軸が投与単位(0、1、2、3)で、縦軸が投与によって変化した移動距離です。理論としては個体間の違いはないと仮定するので、各グループに属するマウス10匹について変化した移動距離は同じであり、1つの点は10匹のマウスのデータが重なったものです。そして、投薬量に比例して変化した移動距離が長くなります。

 

第7回教員エッセイ 加藤先生 photo3
第7回教員エッセイ 加藤先生 photo4
図1  理論値(推測) 図2  個体間の違いの影響

 

 しかし、同じ薬でも効き目が人それぞれ異なるように、投与された薬物の効果にはマウスでも個体差があります。そのため、実際の実験結果をグラフにすると、図2のようになります。横軸が投与単位(0、1、2、3)で、縦軸における1つの丸がマウス1匹の変化した移動距離を表します。個体差があるので、変化した移動距離にばらつきが生じます。図2のような実験結果に対し、人間の目では、投薬量が多いほど移動距離の変化も大きくなる傾向があるように見えます。しかし、「投薬量は移動距離の変化に影響をおよぼすか否か」という問題は、科学的には、統計学における仮説検定という手法を使って処理します。ところが、図2くらいばらつきがある実験データを仮説検定にかけると、「投薬量は移動距離の変化に影響をおよぼすとは必ずしも言えない」という結果になってしまいます。本当は影響があったのかもしれませんが、各グループのデータ数(=マウスの数)が少ないために、薬物の影響が個体間のばらつきにかき消されてしまうのです。

 

 最も望ましい対策は、各グループのマウスの数を増やして、データ数を多くすることです。そうすると、個体間のばらつきにかき消されていた薬物の影響が見えてくることがあります。けれども、通常、実験には費用や時間がかかるので、簡単にデータ数を増やすことはできません。この実験においても、合計40匹のマウスを確保するのが精一杯とのことでした。さて、どうしたものでしょう。

 

 このようなときは、コンピュータを積極的に活用した統計学(計算機統計学)における「ブートストラップ法によるデータ増幅」という方法が使えます。一口で説明すると、「実際の実験結果にもとづいて、膨大な数のマウスで実験した場合の結果をコンピュータ上の数値実験として実現し、問題の真偽を確かめる」という方法です。データ数の少なさが原因で薬物の影響がばらつきにかき消されてしまうならば、実験結果をなるべく忠実に反映するように工夫をした方法で擬似乱数を発生させ、膨大な数で実験した場合をコンピュータ上で仮想的に実現してしまえばよいのです。「ブートストラップ法によるデータ増幅」を使えば、データの数(=マウスの数)は、計算機上で100匹にでも1000匹にでも10000匹にでも増やすことができます。

 ブートストラップ法によるデータ増幅でマウスの数を10倍に増やした場合の結果が図3です。ばらつき具合がある程度収まり、少なくとも、AのグループとDのグループでは、投薬量の違い(0単位と3単位)が移動距離の変化に影響をおよぼしていることが図2よりも鮮明に見えてきます。赤い線がそれぞれのグループの平均値を表します。実際、図3のデータを仮説検定にかけると、「投薬量は移動距離の変化に影響をおよぼす」という結論が得られます。
第7回教員エッセイ 加藤先生 photo5
    図3  ブートストラップ法によるデータ増幅

 

第7回教員エッセイ 加藤先生 photo6

 ブートストラップ法は、現在では、金融工学や経済学ではごくあたりまえに使われている方法です。統計学には、このブートストラップ法のように、コンピュータを活用したとても役に立つ方法があります。「統計=身長、体重、試験の結果」と思っていると大間違いです。もっとも、「統計=身長、体重、試験の結果」という固定観念を世の中に定着させてしまった責任は、統計教育をきちんとしてこなかった統計屋にあります。

 

 扱いに困ったデータを手にしたときは、統計屋を頼ることをお勧めいたします。

ラオスでコーヒーを飲む統計屋(カトウ)

専門領域

数理統計学、統計的データ解析、ウェーブレット解析(特に統計への応用)

著書

[1] 『フリーソフト「R」ではじめる 統計処理超入門』(知識ゼロでもわかる統計学)、技術評論社、2012年4月。

[2] 『本当に使えるようになる多変量解析超入門』(知識ゼロでもわかる統計学) 、技術評論社、2013年4月。

 

前の記事