○趣旨
生態学の論文を書いたり読んだりする時,統計や解析の手法は非常に重要な位置を占めています.統計・解析の手法が間違っていると,投稿した論文は却下されます.統計・解析の手法を知らないと,論文を読んでいても内容が理解できません.そのため,統計や解析の手法を理解することは生態学の研究者や学生には必須であると言えます.
にもかかわらず,統計についてよく知らない人が多いのも事実だと思います.例えば,「統計はなんか良くわからないけれども難しい」「統計の本を読んでみたけれども,数式ばかりで理解できない」「具体的に自分のデータをどう解析すればいいのかわからない」という具合です.
一方で,実際にはパソコンのソフトで簡単に検定や解析をできてしまいます.たとえ検定の理屈を知らなくても,データをソフトにほりこんでクリックをすれば,「5%水準:有意差あり.1%水準:有意差無し.」といった具合に検定結果は出てきます.簡単に検定やデータ解析をすることができるのは,非常にすばらしいことです.ただし,「使っている手法の仕組みを知った上で」という前提条件付きでです.
仕組みを知らずにパソコンで簡単に検定や解析をすると,使用方法を間違うことが多々あります.計算そのものは間違っていなくても,使用方法が間違っていれば,当然結果も間違ったものになります.
このような失敗をしないためには,基礎から統計や解析の基礎を勉強する必要があります.基礎からといっても,数式を引っ張り出してきて,いちらか計算するのではありません.考え方を勉強するのです.
ということで,このページでは次のことをテーマとして生態学で良く使う統計・解析手法についてまとめました.
ただし,私自身統計学を専門とはしていないので,間違っている説明があるかもしれません.たぶんあると思います.間違いに気付かれた時,あるいは内容についてアドバイスを頂ける場合は
メール
を送ってください.よろしくお願いします.
○統計とは何か?
・「統計」って何?
ある集団の数量的情報を把握して表すこと.
ある集団について,母集団から抽出した標本をもとに,その傾向・性質などを数量的に表すこと.
・統計は何故必要?
生物の個体(群集)には個体差(群集差)がつきまとう.また,個体内での差もある.個体差が無ければ統計的検定は不要だ.例えば,アベマキの葉の長さとクリの葉の長さは個体差が無いとすると,ある一定の長さに特定できる.とすれば,検定をして差があるかないかということではなく,それぞれ1つの葉の長さを測れば,差があるかどうかは明白である.
・母集団:知識・情報を得たいと考えている対象の全体
・標本:母集団から抽出した一部分
全数調査が無意味であるとき,または不可能なとき,時間・費用が制限されているときには標本調査をすることにより母集団の姿を推定する.母集団は基本的に無限大の大きさであるので,全数調査は基本的には不可能である.例えば,コナラ群落についての全数調査(過去・現在・未来)は不可能である.
・無作為抽出と無作為配分
無作為抽出とは母集団からある標本を選ぶとき,その母集団に属する全ての標本にとって選ばれる確率が等しいこと.それぞれの標本が独立に抽出されること.母集団から標本を無作為(ランダム)に選ぶこと.
無作為配分とは,独立変数による従属変数の因果関係を明らかにするために,条件間における標本の中に潜む干渉変数を統制すること.抽出した標本を無作為(ランダム)に複数の実験条件に分けること.
例題
ある植物について気温によって種子の発芽率が違うかどうかを調べるとする.処理は10℃(処理A)と20℃(処理B)とに配分するとする.その際に,種子の重量によっても発芽率が違うのではないかという疑問が生じた場合に,種子の重量を計って同一重量のサンプルを処理群ごとに用意するのか,ランダムに処理群を選ぶのかどちらが良いか?
回答
ランダムに配分するのが良い.
理由
発芽率に対して影響を与えうる要因としては,種子の重量以外にの種子の長さ・幅・採取時期・密度・乾燥度合い…と考え出したらきりがない.これらの(理論的には)無数にある要因の全てについて処理群間で差のないように配分することは不可能である.種子の重量だけで配分したとすると,他の要因についてはランダムに配分することは出来ない.
ランダムに配分した場合で,もしも何かの要因について同一に出来なかったとしても(完全に同一というのは理論的には不可能),それは偶然の効果によるものである.発芽実験の結果で気温別の処理群間での発芽率の差が有意でないならば,差があるとは言えない.もちろん本来は処理Aでは発芽率が低く,処理Bでは発芽率が高くなるにも関わらず,偶然の効果が逆の作用をもたらして処理間での差が出なくなったと考えられなくもない.このようなことを防ぐには,いくつかの反復を取ればよい.偶然の高かはあくまで偶然なのだから.もしも,気温差の効果が有意であるならば,偶然の効果よりも大きな差をもたらすはずである.
・外部妥当性と内部妥当性
外部妥当性とは,研究結果を一般化できること.無作為抽出は外部妥当性を確保するための方法である.母集団から無作為に標本を抽出することで,標本から母集団への一般化が可能である.もし,無作為に抽出せずに偏った標本を選んでいるとすると,標本は母集団を反映したものとはいえず,一般化はできない.
内部妥当性とは,研究結果が現実を正しく反映していること.無作為配分は内部妥当性を確保するための方法である.内部妥当性がある場合,実験における干渉変数の効果を独立変数の効果と間違えずに,独立変数と従属変数との因果関係があるのかどうかを判断することができる.
・尺度水準
名義尺度>順序尺度>間隔尺度>比率尺度
名義尺度:種名(アカマツ,コナラ,ブナ)・群落名
名前は単なる記号であって,それぞれを区別するためだけのものである.コナラ群落とアカマツ群落とヤナギ群落とコジイ群落とをそれぞれ別のものとして扱うことはできるが,この名前だけからは,順位をつけたり系列にそって並べることはできない.
註:それぞれの種のデータから遷移系列に並べるということはできるが,これは解析をした結果であり,名義尺度の名義からだけで分かるものではない.
順序尺度:群度(5・4・3・2・1)・土壌の乾湿傾度(乾・適・湿・過湿)
それぞれの順位をつけることは可能であるが,その差がどの程度かは分からない.土壌の乾湿傾度を「乾・適・湿・過湿」で表現するとそれぞれの順番はわかるが,その差の程度は分からない.差の程度を表現しようとすると次の間隔尺度で計測する必要である.
間隔尺度:気温(10℃,20℃)
数値は0が基点となっていない.それぞれの順位や間隔がわかる.10℃は5℃とは5℃の差があるとはいえるが,2倍暑いとはいえない.
比率尺度:樹高(1m,2m)・降水量
数値は0が基点となっており,それぞれの順位や間隔がわかる.また,100mm/yrは200mm/yrの1/2の降水量であるという比率をあらわすことも可能である.
・代表値
最頻値(名義尺度以上)・中央値(順序尺度以上)・平均値(間隔尺度以上)
算術平均値・幾何平均値
個体数の増加率などの場合に幾何平均を使う可能性がある
参考:幾何平均
・正規分布
統計での最も基本である分布.平均値と偏差により分布を表すことができる.正規分布についての性質は良く調べられているため,正規分布を仮定して各種検定・推定を行う.正規分布を仮定した検定・推定をパラメトリックな手法という.
これに対して,標本の分布として正規分布が仮定できない場合は,ノンパラメトリックな方法を使う必要がある.
参考:正規分布
参考:対数正規分布
・分散と不偏分散
分散は平均値と標本の差の2乗の合計を標本数で割ったものである.ただし,これは母分散よりも小さい方向に偏った値を出すことが分かっている(らしい).この偏りをなくすためには,標本数で割るのではなく標本数-1で割ると良いということが分かっている(らしい).これが不偏分散である.
なお,分散あるいは不偏分散の平方根をとったものが標準偏差である.
分散:(Σ(avg-x)^2)/n
不偏分散:(Σ(avg-x)^2)/(n-1)
・標準誤差と標準偏差
標準偏差は母集団のばらつき具合を示すものである.そのため,無作為抽出による標本の場合であれば,多少の増減はあるとしても,標本数が増えてもある程度の範囲に収まるものである.
標準誤差は母平均の推定値の誤差の程度を示すものである.無作為抽出による標本であれば,標本数が大きくなればなるほど情報量が多くなるため,母平均の推定値は本当の母平均に近づく.そのため,標準誤差は標本数が増えれば増えるほど小さくなる.
標準誤差=標準偏差/(標本数)^0.5
・点推定
母平均と標本平均
母標準偏差と標本標準偏差
母集団から抽出した標本の母平均値の母平均値の95%信頼区間はいくらか?
11,22,22,31,20,15,33,3,8,15
平均値 18.0
標準偏差 9.07
・「有意差」って何?
10.00と10.00は差がある? 10.00と11.00は差がある?
10.00と10.60は差がある? 10.00と10.10は差がある?
10.00と10.01は差がある?
・第1種の誤りと第2種の誤り
第1種の誤りとは,帰無仮説が正しいのにもかかわらず,帰無仮説を却下してしまうこと.差がないのにもかかわらず,差があるといってしまうこと.
第2種の誤りとは,帰無仮説が間違っているにもかかわらず,帰無仮説を採択してしまうこと.差があるにもかかわらずず,差がないといってしまうこと.
帰無仮説が真(差がない)の場合
標本数 小 大
第1種の誤り 小 大
帰無仮説が偽(差がある)の場合
標本数 小 大
第2種の誤り 大 小
検出力 小 大
野外調査において,「差がない」=「全く2つの標本の平均値が同じ」ということはほとんどありえない.従って,ほとんどの場合,「差がある」といえる.
標本数を大きくすればするほど,第2種の誤りをおかしてしまう可能性が小さくなり,現実と検定による推定が近くなる.普通,標本群間の母集団に差があるということを言いたい(統計的にはほとんどの場合「差がある」)ので,標本数を大きくすればするほど,言いたいことを統計学的に裏付けることができる.
同じ有意差0.01の検定結果であっても,標本数が大きければ大きいほど「あたりまえ」の結果といえる.
そのため,統計的手法を使うためには,ある程度のデー多数を集める必要がある.一般的には検出力が0.8ぐらいあればいいだろう.ただし,この検出力0.8というのも有意水準0.05というのと同じく任意に設定したもので,統計学的に決まっているものではない.
標本数が少ないと,検出力が低いため実際には差があっても差があるとはいえないということになる.そのため,差を明らかにしたい場合では標本数が少いと,検定をしても有意差はほとんどでない.ただし,有意差が出た場合には,当然ながら帰無仮説を却下することができるため,差があるといえる.
逆に,差があるとはいえないということを言っても,そもそも有意差を検出できないものなので,説得力がない.
・生態学的な意味と統計学の有意差
生態学的な意味がある かつ 検定結果有意
得られた知見を採用する.
生態学的な意味がある かつ 検定結果有意でない
ケース数を増やす.測定(調査)精度を高める.
生態学的な意味がない かつ 検定結果有意
得られた知見は捨てる(そもそも検定などは不要である)
生態学的な意味がない かつ 検定結果有意でない
得られた知見は捨てる(そもそも検定などは不要である)
「統計科学的に差がある」「統計学的に関係がある」というのと「生態学的に意味がある」というのとは全く別である.統計学的に何らかの意味があっても,生態学的な意味がなければ(あるいは意味がわからなければ),生態学の結果としては何も明らかにしたことにはならない.
・統計って有意?
とは言っても,客観的な手法としての統計学には意味がある.同じデータに対してどういう評価をするのかを統計学上の有意水準によって共有化することができるからである.ただし,有意水準のp=0.05などというものは任意に選ばれた慣例であって,動かすことができないものではない.ここでいう客観的な手法とは,p=0.05ということを前提とした場合に同じ手法により再現できるということである.
・推定
比率・平均値・相関係数など
標本から得た統計量から,母集団についての推定をすること.
「標本から得た平均値と標準偏差から95%の確率で母平均が含まれる範囲を推定したい」「相関係数の範囲を推定したい」
・検定
比率の差・平均値の差・相関係数など
ある仮説が統計学的に正しいかどうかを明らかにすること.
「2つの群落の種数(多様性指数)の平均値が同じかどうか」「相関係数が0かどうか」
・回帰分析
単回帰分析・重回帰分析・曲線へのあてはめ
いくつか(あるいは1つ)の変数によってある変数を予測すること.
「群落の面積から個体数(種数)を予測したい」
・分類
クラスター分析(各種)・TWINSPAN・数量化III類・数量化IV類
種の有無や種の出現傾向(個体数・被度など)から似た調査地点を集めること.あるいは異なる調査地点を分類していくことで,結果的に似た調査地点を集めること.
「調査地点を種の出現傾向によって区分したい」
・序列化
加重平均方・極座標づけ・主成分分析(Principal Component Analysis)・交互平均法(Reciprocal Averaging/Corresponding Analysis)・正準対応分析(Canonical Corresponding Analysis)・除歪対応分析(Detrended Corresponding Analysis)・数量化I類
「種の出現傾向によって調査地を一つあるいは複数の軸上に並べたい」
・判別分析
判別分析・数量化II類
いくつかの群をいくつかの変数によって判別するための判別式を求める手法.
「ある群落の成立するための判別式を求めたい」
・ヒストグラムの描き方
階級数を決める.階級幅を決める.
スタージェスの公式
n≒1+(log10N / log102)
n:階級数,N:データの個数
度数分布表を作成する.
横軸に階級をとり縦軸に頻度をとって,ヒストグラムを描く.
・ヒストグラムと棒グラフ
ヒストグラムは棒グラフと異なり,各度数を示す棒が接触しています.棒の接触は,カテゴリーに順序があることを示している.順序づけ不能な離散変数では,カテゴリーに順序がないので,"棒グラフ"とする.
・ヒストグラムを描く意味
連続変数にしろ,順序づけ可能な離散変数にしろ,ヒストグラムを描くと,データの集中している階級,階級の変化に対するデータの増減の変化(データの分布の様子=分布の型)が,より直感的にわかりやすくなる.分布の型は,調べている集団の特性を反映しているため,データを読むときの重要な手がかりである.
・平均値だけ計算することの危険
集めたデータを集計するとき,パソコンのパッケージ等を利用すると,かなり標本数が多くてもポン!といろいろな計算をしてくれる.標本の分布を確認しないまま,算出した平均値を代表値だと結論するのは,危険である.標本によっては,二山分布や左側に分布が偏ったような分布である可能性もある.図4-6(山がいくつもあるようなもの?)のような分布であれば,標本を層別して考える必要がある.平均値というのは,あくまでも,分布が一山分布のような場合に代表値として有効である.ヒストグラムを描く重要性は,このへんにある.
・2群間の代表値の差の検定
平均値の差のt検定
平均値・パラメトリック・間隔尺度以上
マン・ホイットニーのU検定
代表値・ノンパラメトリック・順序尺度以上
・多群間の代表値の差の検定
一元配置分散分析
平均値・パラメトリック・間隔尺度以上
クラスカル・ウォリス検定
代表値・ノンパラメトリック・順序尺度以上
どちらの検定にしても,全体として差があるかどうかを検定するだけで,どこの群間で差があるのかは,個別にテューキーの方法などで検定する必要がある.
・度数に関する検定
フイッシャーの正確確率検定/χ2検定
・相関係数の検定
相関係数の検定「相関係数が0であるかどうか」
パラメトリック・間隔尺度以上
スピアマンの順位相関係数の検定
ノンパラメトリック・順位尺度以上
・外れ値の検定
スミルノフ・グラブス検定
帰無仮説 H0:「全てのデータは同じ母集団からのものである」.
対立仮説 H1:「データのうち,最大のものは外れ値である」.
この検定では,外れ値があれば1回の検定につき1個の外れ値を検出する.当然,外れ値がなければ,検出しない.複数個の外れ値がある場合は,最も大きな外れ値について検定を行い,それが外れ値だとすると次の段階ではそれを除いた n-1 個のデータについて同じように検定を行うということを繰り返す.
ただし,この検定によって外れ値が検出されたからといって,データを安易に捨てるべきではない.外れ値が生じた真の原因を突き止めてから!!「外れ値を生み出した原因は何か?」は新たな仮説や研究テーマを生み出す可能性がある.
・回帰分析ができない場合
xかyが一定のとき
いくつかの群があるとき
関係が2次関数のとき
外れ値があるとき
・回帰分析をしても意味がない場合
もともと相関があるとき
データが混在しているとき
データが切断されているとき
・相関係数と寄与率
相関係数はxが決まったときに,どの程度yを予測することができるかというもの相関係数の有意水準は,「相関係数=0」ということに対する検定である.有意水準が0.01ということは0でない可能性が高いといえるだけのことで,相関の大小は関係ない.
従属変数の変動のうち,回帰によって説明できる割合は相関係数の2乗に等しく,これを決定係数(寄与率)という.
・相関と因果関係
相関関係があれば,従属変数を推測するための指標として独立変数を使うことは可能である.ただし,因果関係があるかは別問題である.
・クラスター分析
調査地点間の種の出現傾向(個体数・被度・有無など)による類似度・ユークリッド距離などを計算する.
調査地点間のマトリクスを作成する.
最も類似度などが高い調査地点をまとめる.
調査地点をまとめた結果を一つの調査地点として,再度マトリクスを作成する.
上記の計算はせずに単純平均をして,再度マトリクスを作成する.
以下,繰り返し.
二群の平均値の差の検定の場合の例
参考:標本の大きさの決定
検出する平均値の差:6
母分散の概数:40
有意水準:0.05
検出力:0.8
片側検定標本サイズ:14
両側検定標本サイズ:18
各群あたりの標本サイズです
・適当な調査資料数というのがない場合
ある地域の全植物種の一覧をつくるという場合には,「適当な調査資料数」というのは存在しない.しいて言えば,無限大の調査資料のみが適当ということになる.
・現地調査と統計処理
現地調査とは単にデータを集めるだけではない.調査資料や文献の収集は自分の仮説を裏付ける根拠を探すためである.本や論文だけでは分からないことを現地調査で見つけることが現地調査の最も重要な点である.
例えば,種数面積関係(面積が対数)が成り立つと仮定して,調査をしたとする.調査結果を散布図にあらわしたときに,直線上に散布されれば問題なく回帰直線を引いて,相関係数とその有意水準を求めればよい.しかし,直線から外れたところに散布された地点があった場合にどうするか?単に外れ地として処理することは可能である.しかし,それではもったいない.なぜ,外れたところに散布されたのかを考えることが大事である.それが次のテーマにつながる場合がある.現地や周辺の状況を思い出したり,面積以外に種数に影響のある要因はないかを考える,あるいはもう一度現地に行って,なぜ外れた点に散布されたのかを考えよう.
「生物学を学ぶ人のための統計のはなし」粕谷英一,文一総合出版,\2400
最近は無料の統計解析のソフトもあるので,検定を簡単にできます.簡単に検定できるのはいいことです.でも,検定の基礎的なしくみを知らずに,単にブラックボックスとして検定をしていると,検定方法の選択の間違いをすることがよくあります.そのような間違いは,「検定というものはこういうものだ」ということを理解していれば防ぐことができます.その点で,この本は「検定の方法」ではなく,「検定の理屈」を書いてあり,「目から鱗」の一冊です.ノンパラメトリックな方法についてたくさん説明があります.
「らくらく生物統計学」足立堅一,中山書店,\3200
この本はパラメトリックな方法を主体にして,その考え方について詳しく掘り下げて解説しています.特に,母集団と標本,標準偏差と標準誤差などの「わかったような,わからないような」統計用語の説明がわかりやすく説明されています.
「実践としての統計学」,佐伯胖・松原望(編),東京大学出版会,\2600
統計学の手法についてはほとんど書いていません.数式も少しは出てくるが,ほとんどは統計学の根本的なことを言葉で説明しています.他の統計関係の本が統計手法の使い方に主眼を置いているのに対して,実践を前提としつつも統計の根本的な考え方や問題点が書かれています.
「生物群集の多変量解析」小林四郎,蒼樹書房,\3200
多変量解析という本の題名になっていますが,いわゆる重回帰分析や判別分析などの一般的な多変量解析については載っていません.類似度指数・多様度指数の計算方法から群集の分類・座標づけまで,生物群集の解析をするのに必要な解析方法の理論と実際の計算方法が解説されています.
○謝辞
株式会社里と水辺研究所の浅見佳世氏からご意見をいただきました.ありがとうございました.