DataをMineしてMarketingをMore Excellentにしようぜ、っていう話


データマイニングを勉強した、って話です。

先日から社内の有志が集まり勉強会が開催された。
勉強が大好きな私はもちろん参加ということで始業前1h+昼1hのスケジュールで出席。

なぜ今データマイニングなのか。
意外と何事も経験則や肌感覚に頼りがち、私も多分に漏れずそうです。

まったくの論拠がない話を息を吐くかのごとく嘘を吐いてしまっているのではなかろうか。
私の言葉って本当に信用に足るものだろうか、いまいち自信がなかったりもする。

けど、今までに培った経験や肌感覚ってのを踏襲しつつを数字で根拠を表すことができる。
そしたら俺、次のステージに立てるんじゃね?ということで今回の勉強会に参加したわけであります。

簡単に説明するとデータ(結果)を読み解いて知識を発見しようぜってイメージ。
が、データマイニングってなんぞやってわけで、全く未知なとこからのスタートなわけで。

勢いだけで飛びついたはいいものの入口に立ったばかりでもうすでに難解。
久々にびびった、アリアハンの城を出たらバブルスライムに出会ったくらいの衝撃。

とりあえずですが今回学んだキーワード
--------------------------
・カイ二乗値
・カイ二乗検定値
・有意水準 5%
※これは大体固定らしい
・rc(クラメール)=√X2/n(k-1)
※n=集計の総計 k=項目数
--------------------------
まずはデータから以上の揃えることでデータとして見る際の基準となるようだ。

教科書の例題を元に紐解いたのだけどなかなかにしてピンとこない。
そこで身近な釣りに置き換えて考えてみると意外と頭に入ってきた。

まず、魚を釣ったポイントによって差異があるのかどうかを調べてみます。

各ポイントで釣れた内訳(数字は適当)

で、これを理論値って数字に変換。
(ポイントの釣行回数×釣れた結果の縦計/トータル釣行回数)

これが理論値に直した結果

ここからX2(カイ二乗)値を求める作業。
(X2=(結果の理論-値実数)二乗/理論値)

場所によって釣ったか釣れないかの違いが大きいのか?
ということの数値化

が、ここで問題が!
自宅PCにエクセルがインストールされてないのでGoogleスプレッドシートで代用していました。

しかしX2値を出すにはCHIINV関数が必要だったのですがどうやら使えない様子。
とりあえず夜も更けてしまったので今日はここまで・・・

なんとなくだけどわかってきたぞ!

ちなみに今回の教科書にしている本はこちら。
※私にはかんたんではない

2 件のコメント :

  1. てつのすけ2011年10月1日 5:31

    カイ二乗の値はシグマの出てくる式で計算できた気がするぜ?

    検定値は出ないかもしれないから、そんときはクラメールで判定すれば良いはず。


    勉強が大好き初耳だった(笑)
    これからもよろしくです、

    返信削除
  2. いろいろ試してみないとね~
    てつさんの理解力に乾杯。

    勉強好きは暗示みたいなもんですわ(笑)

    返信削除