2011年06月28日

(続編)相関係数を応用した「協調フィルタリング方式」のレコメンデーション

前回、「細かい説明は別の機会にさせてください。」と書いていた、相関係数を応用した「協調フィルタリング方式」のレコメンデーション

ちょっと調べてみたら、特許庁のWebサイトに「標準技術書」として掲載されていました。

http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/net_koukoku/134.html

これは比較的簡単に書かれており、他の文献より分かりやすいが、それでもまだ分かりにくい。

この「技術書」はまだ分かりやすほうです。

しかし、「技術書」というのは高い技術を持った人が、誰に向けて書いたものなのかと、思うくらい読み込むために根気を要することが多い。

根気を要するだけならまだしも、ワケがわからないことも多々。

それとも、高い技術と知識を持った人が自分のインテリジェンスを自己顕示するためのものか?

技術は使われてこそ技術。
知識は普通の人に理解されてこそ、知識。

いかに素晴らしいものであっても、難しくて活用できない技術と分かりにくい知識は、ただのガラクタです。

技術も知識も持っていながら、それをわかりやすく表現できていないのはただの怠慢。

「簡単」でなければなりませんね。

さて、相関係数を応用した「協調フィルタリング方式」のレコメンデーションの解説です。

相関係数は、数字の大小に関係なくそれをグラフにしてみたときに「山の形」が似ているかどうかです。

例えば「富士山」と「利尻富士」は山の形が比較的似ています。
富士山→http://www.yamanashi-kankou.jp/chinese_t/chinese_t002.html
利尻富士→http://www.mgphoto.jp/rishire/0002.html

当然、それぞれの山の高さは違います。
富士山の標高:3,776m
利尻富士の標高:1,721m

重要なのは、「山の形」であり、「山の高さ」は関係ないのです。

例えば、「2009年の月別の売上」と「2010年の月別の売上」を比較した時、
2009年の売上高は全体的に低いけど、両方に共通する特長として「夏・冬のボーナス時期」の売上が高いということがあったとします。

これをグラフにしてみると、「山の形」は似ているが「山の高さ」が違う。

そういうのが、相関係数が高くなったりします。
そして、それらが統計的にどのくらい似ているのか(何%似ているのか)を数字にできるのが相関係数です。(本当は「相関係数」では何%似ているのか?は表現できないのですが、わかりやすく説明しています。)

さて、本題に戻ります。

まず
「AさんとBさんの好みが似ていれば」→「同じものを好むはずだ!」
という(強引な?)前提で考えることから始めます。

その上で、
「Aさんが買っていない物があれば」→「その物はAさんも好きなはずだ!」
という(強引な?)理屈で、「その物」をオススメするというものです。

ここでポイントとなるのは、
「Aさん」と好みが似ている人をどうやって探すのか?
で、ここが「相関係数」の出番です。

「相関係数」は2つのものが統計的にどのくらい似ているのかを数字で表すことができる便利なものなので、その仕組を利用します。

グラフ化してみて、「Aさん」と山の形が似ている人を探して、一番「山の形」が近い人(相関係数が高い)を「好みが似ている」と認定します。

その上で、「好みが似ている」人が買っているが「Aさん」は買っていない物を「おすすめします」

ここで、Aさんが好む商品のカテゴリ(本なのか、家電なのか)は全く関係ありません。
重要なのは、統計的に数字が近いかどうか。

なので、大きく外れることもあれば「意外な気づき」があることもあります。

相関係数を応用した「協調フィルタリング方式」のレコメンデーション
(ダウンロード-Excel形式)

posted by Ryo ASADA at 00:27| Comment(0) | TrackBack(0) | マーケティング | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。