現代社会における情報の流れはソーシャルメディアに依存していて、多くの人がTwitterやFacebookなどに膨大な情報を発信しています。また、匿名やハンドルネームで活動していても、家族や友人、会社の同僚といった社会的なつながりをそのままソーシャルメディアに持ち込むこともよくある話。そんな中、「ソーシャルメディアに残される過去の記録を分析することで、個人の行動や発言を予測することは十分に可能」という研究結果が報告されています。

Information flow reveals prediction limits in online social activity | Nature Human Behaviour
https://www.nature.com/articles/s41562-018-0510-5

Social media can predict what you’ll say, even if you don’t participate | Ars Technica
https://arstechnica.com/science/2019/01/social-media-can-predict-what-youll-say-even-if-you-dont-participate/

バーモント大学の研究チームは「ソーシャルメディアのデータを使って個人の活動や利益を予測するにはどんな限界があるのか」と疑問を抱き、「機械学習を含めた従来の方法で、個人の発言や行動はどれだけの精度で予測できるのか」を検証。およそ1万4000人のTwitterユーザーから生み出された3000万以上のツイートをデータベースから言語モデルを作成し、確率的な情報量の平均を示す「エントロピー」と後続する単語の平均分岐数を表す「パープレキシティ」から、後続する単語の候補数とその予測可能性を評価しました。

研究チームによると、1万4000人のユーザーの中から927人のアクティブユーザーを選出し、そのうち15人が頻繁にオンラインで会話を行っていたとのこと。研究チームがこの927人のユーザーの使用する単語の予測可能性を測定した結果、ほとんどのユーザーにおいて発言や行動を十分予測可能であることがわかったそうです。

例えば、927人のユーザーのほとんどから得られた単語の候補数は45〜256語ほどで、Twitter上で特に積極的に会話していた15人に限ると、64〜4096語ほどだったそうです。4000語まで膨らむと予測可能性はぐっと下がるそうですが、下限の64語になるとかなりの精度で予測が可能になるとのこと。結論として、ユーザーの過去のツイートからは40〜70%の予測可能性が導出できたと研究チームは述べています。


また、オンラインで会話を行う際はお互いに使う単語が共通するケースが多いため、算出された数値よりも単語の予測性が上がると述べています。さらに、一日に8つ以上のツイートを定期的に行っている人の方が予測しやすい傾向があり、より強い社会的つながりを持つユーザーも予測可能性がより高まることが判明しました。結論として、「1人の個人に対して8〜9人の社会的つながりがあれば十分な予測可能性が得られる」とのこと。

この研究は、プライバシーに明らかな影響を及ぼすと、海外メディアのArsTechnicaは主張しています。たとえソーシャルメディアをやめてしまっても、ネット上に過去の発言が残っていたり社会的つながりが残っていれば、全く関係ない誰かがその人の行動や発言を分析して予測することができるためです。研究チームは「個人の情報がソーシャルメディアに強く刻まれているために、たとえソーシャルメディアをやめても、社会的なつながりから個人を特定して分析することは原則として可能です」と論じています。
Photo by Blogtrepreneur