データフィッシング

先日書いたデータマイニング、前回はエクセルがインストールされておらず中途半端で終わってしまっていた・・・
本日OpenOfficeをインストールして続きができたので備忘録まで。

まず今回したいことの整理。
各釣り場でのルアーの種類による釣果の影響はあるのかどうか、ということを検証。

まずはポイントごとの釣果をまとめる。
※数字は適当に当て込んでいます

データは多ければ多いほど正確になる、はず

で、次にこれをポイント毎、ルアーの種類毎の釣果にまとめる。

エクセルであればピボットテーブルを使うのがおすすめ

そしてこれを理論値に変換する。

理論値=ルアーの種類毎で釣れた引数×結果の縦計/トータル釣れた引数

で、理論値が算出されたらX2値を計算

X2=(結果の理論値-値実数)二乗/理論値)

すると下記のような表に落とし込める。

■X2値=X2値要素の数字をすべて足した数値。
■自由度=(行の数-1)×(列の数-1)
■X2検定値=CHIINV(0.05,自由度)
■CHITEST=数式は自動計算
■クラメール=√X2値/釣った引数(列の数-1)

以上で算出された数値をもとに何がわかるか、ということが重要。
みなければいけないのがX2値とX2検定値、見方は下記の通り。

X2値>X2検定値 ←場所によって釣れるルアーによる釣果の違いはあるということ。

X2値<X2検定値 ←場所によって釣れるルアーによる釣果の違いはないということ。

そして違いがある、というのがわかった場合。
どのくらい違いがあるのかというのを調べるのがクラメール。

クラメールで算出された値が
-----------------------------------------
0.8以上・・・・・・・・・項目による違いが大きい
0.5以上0.8未満・・・項目による違いがある
0.25以上0.5未満・・項目による違いが少しある
0.25未満・・・・・・・・項目による違いがあまりない
-----------------------------------------
ってことになります。

なので上の表からわかる結果はというと。
ポイントにより釣れるルアーの違いはある、ということがわかります。

まぁ、釣り人からすればそりゃそうだろという結果ではあります(笑)
けどこれを数値化できたのってすごいかもしれない、と思った次第であります。

惜しむらくはこのデータが事実に基づいていないということ。
NMKさんあたりが正確なデータを持っているんだよな、一緒に数値化しませんかね?

まだまだ序盤ではありますがデータマイニング、楽しみな勉強材料になりそうです。
これからはデータフィッシングだ(笑)

0 件のコメント :

コメントを投稿