2010年9月27日月曜日

プロファイリングをする際に気を付けること

我々の日常生活のなかで、日々の行動を追跡し、マーケティングデータとして活用することが多々ある。

モニタリング、サンプリングは勿論のこと、スーパーのPOSデータから会員カードの利用履歴に至るまで、様々な分野でデータは収集される。


ネット上では、最近、こんな技術が開発されたようだ。

本当?つぶやきから年代・性別推定の新技術 (YOMIURI ONLINE)


ブログやツイッターの書き込み内容から、利用者の年代や性別を推定する技術だ。


確かに、書き込まれた内容から、おおよその性別や趣味、年代などは「推察」することはできるだろう。

ただし、個人的にこの技術で気になるところは、2つ。

1.本人の文章の癖をどこまで考慮するか
2.「なりすまし」の排除をどうするか


文章は、非常に人によって癖もあり、またその表現も異なる。
例えば、日頃から文章を書きなれている人と、そうでない人とでは、まったく文章で使用し表現する語彙量が変わってくる。

また、小説好きな人とビジネス書好きな人とでも、恐らく文章表現も少し違うのではないかと個人的には思っている。

果たして、どんなアルゴリズムで設計されているのだろうか。


そして、どうしても排除出来ないのは、「なりすまし」。
ネット上では、ある条件が揃えば、「なりすまし」が出来てしまう。
Twitterのアカウントで、有名人のなりすましが出現することでもわかるだろう。

用意周到に準備し、念入りに計画していれば、こうした「なりすまし」は、この技術でも見抜くことは、まだ出来ないのではないだろうか。


そして大事なことは一つ。

こうした技術を利用して、プロファイリングする際の利用目的。
個人を特定して利用しなければ、問題無いが、個人を特定する場合は、プライバシー上の問題が発生する。


こうした技術が開発される一方で、技術そのものを運用する側のポリシーというものも、同時に考えていかなければならない。