Rで解析をしていて,論文の解析結果が前と違っていた.元データ自体は変わっていないし,追加したデータもない.それなのに,おかしい.しばらく前からこの問題で引っかかっていた.
これがようやく解決した.元データの形式を少し修正していたのに,それを忘れていた.調査区を設置した植生調査の場合は,被度を0から1まで(%だったら0から100までだが,%にするかどうはか好みの問題)の間で記入するようにしている.調査区以外での植物相調査の結果を入力しているところで,はじめは被度を9999としていたのを,0に修正していた.これだと,解析をしている途中で調査区で出現してないのと,植物相調査で出現していないのとが区別できない.この教訓として,2つのことを感じた.
1つ目は容易に元データの形式をいじってはいけない(なんと当たり前なことか!).
2つ目は,植物相調査での結果をどのようにするか,決めておかなければならない.9999というのは,通常ではありえない数字なので,解析途中で植物相調査の結果だと気づきやすいが,9999というのは問題がありそう.かといって,0というのもどうか.0ではないけど,平均をしたときに影響が出ないぐらい小さい数字(0.000000001)とかむちゃくちゃ小さくしておくというのがいいか?でも,これはcover>0に引っかかるのが問題だ.-1などの負の数字にしておけば,cover>0に引っかからなくて,cover!=0(0以外)というのに引っかかるので便利そうだ.でも-1だと何かとの平均などの計算をしたときに混ざってしまう可能性がある.すごく大きな負の数にしておけば,cover>0やcover!=0の問題は解決するし,平均したときに変な数字が出る.これがいいかな?
調査区と植物相のそれぞれの調査での出現の有無別(○−)の抽出方法(Rだったらsubset()を使う)は下のような感じか.
調査区 | 植物相 | 抽出方法 |
○ | − | cover>0 |
○ | ○ | cover!=0 |
− | ○ | cover<0 |
− | − | cover==0 |
もう少し考えよう.妙案をお持ちの方は
教えてください.