ソーシャルネットワークデータマイニングの最先端技術

この講演は、清華大学データサイエンス研究所所長の于士倫氏が2015年12月23日に開催された清華RONGv2.0シリーズフォーラムの「ソーシャルリレーションシップネットワークとビッグデータテクノロジー」セッションで行った「ソーシャルネットワークデータマイニングにおける最先端テクノロジー」と題する講演から抜粋したものです。

まず最初に、「ソーシャルリレーションシップネットワークとビッグデータテクノロジー」に関する清華 RONGv2.0 シリーズのセミナーにご参加いただいたすべてのゲストに感謝申し上げます。鄧教授は先ほどこの問題の重要性についてお話しされました。次に、この分野での私の研究についてお話ししたいと思います。

ビッグデータには、データの規模が大きく、生成速度が速いという 4 つの「V」があることは誰もが知っていますが、さらに重要なのは、ビッグデータは万華鏡のように多様で、あらゆる種類のデータが含まれていることです。さまざまな種類のデータをうまく処理するには、異なる種類のデータを統合する必要があります。これが私たちのシリーズ「RONG」のテーマです。さまざまなデータを統合することによってのみ、データの精度とコンテンツの充実を図ることができます。さらに、データが多様であるため、すべてのデータを直接統合できるわけではないという問題もあります。適切に処理しないと、良いデータも台無しになってしまいます。さまざまな種類のデータを効果的に統合した後、次のステップは、それらから価値を抽出できるようにすることです。

もちろん、ソーシャルネットワークが典型的な例であることはわかっています。ソーシャルネットワークは非常に大規模です。例えば、米国のFacebookには数十億のネットワークノードがあり、中国のネットワークノードの数も非常に多いです。人々はソーシャルネットワーク上で絶えず意見を表明し、写真や動画を共有しています。これにより、テキスト、画像、リンク、コミュニティなど、さまざまな形式でさまざまな種類のデータが生成されます。ソーシャルネットワークには膨大な情報が存在することは周知の事実ですが、その量は膨大ですが、まとめると価値は薄れてしまいます。そこからどのように価値を引き出すかが解決すべき問題です。

今日は主に 2 つの問題についてお話します。1 つ目は、異なる種類のデータをどのように統合するかです。 2番目は、ジャンクデータをどのように処理するかです。

ソーシャルネットワークについて話しますが、ソーシャルネットワークは 1 つだけではありません。アメリカにはさまざまなソーシャルネットワークが存在します。一般的に、誰もが最もよく知っているのは Facebook ですが、Facebook が唯一のソーシャルネットワークではありません。たとえば、Twitter も広く使用されていますが、Twitter では短いメッセージしか送信されません。また、主に電子商取引向けのソーシャルネットワーキングサイトである Foursquare もあります。そのサービスモデルは、友達がそれを見て該当の店舗に来た場合、彼らのアカウントに彼らがここに来たことが表示され、徐々に友達の好みや興味を反映したネットワークが形成されるというものです。 LinkedIn と同様に、基本的に誰もが仕事のコンテンツをそこに投稿します。誰かを雇おうとしているなら、LinkedIn にアクセスして、自分のニーズに合う人が誰なのか調べることができます。もう 1 つは YouTube で、ここでは独自の短い動画をアップロードできます。まとめると、さまざまなソーシャルネットワークがあり、これらのソーシャルネットワークにはそれぞれ異なる特性と興味があるため、通常、人はさまざまなソーシャルネットワークに参加します。

ソーシャルネットワークが異なれば、各ソーシャルネットワークの個人の特性も異なると言えます。複数のソーシャルネットワークと統合できれば、より多くの相談を受けることができます。新しいソーシャルネットワークをお持ちの場合は、他の既知のソーシャルネットワークから情報を取得して、さらに詳しい情報を入手することもできます。したがって、これらのソーシャルネットワークをどのように統合するかが課題となります。

私たちはソーシャルネットワークを統合し、次の 2 つの問題を解決したいと考えています。

まず、異なるソーシャルネットワークに参加するために使用する名前は同じではない可能性があるため、ソーシャルネットワーク A とソーシャルネットワーク B の 2 つのアカウントが同一人物に対応していることを知ることは困難です。これは挑戦です。

2 番目に、Facebook 上の人物 A と Twitter 上の人物 B が同一人物であるとわかっていても、その人物が Twitter で Facebook 情報をより有効に活用できるようにするにはどうすればいいかという問題があります。ソーシャルネットワークの目的は人々をつなぐことなので、ソーシャルネットワークでよく行われるのは友人を推薦することです。これは、電子商取引で商品を推薦する機能に似ています。

ソーシャルネットワークで最も重要なことは、社交性、つまり誰が誰と友達であるかを知ることです。どのソーシャルネットワークにも、あなたに推薦できる友達が常に存在します。しかし、どのように推奨すればよいのでしょうか?通常、ソーシャルネットワークにはあらゆる種類の情報が含まれています。もちろん、まずは一部の人々が友人であることを知っており、彼らは自らつながりを確立します。さらに、これらの人々のさまざまな場所も知ることができます。さらに、人々はソーシャルネットワークにメッセージを投稿できるため、その人が何に興味を持っているのか、いつ興味を持ったのかを知ることもできます。したがって、一般的にソーシャルネットワークでは、誰が何に、どこに興味を持っているか、そしてそれが大体いつ起こったかを知ることができます。

Foursquare などの 2 つのソーシャルネットワークを接続したい場合、Foursquare が Twitter アカウントを推奨することがあり、簡単に接続できます。簡単に接続できる人もいるので、ユーザーを 1 人ずつ接続しますが、ほとんどのユーザーは、対応する人物が別のソーシャルネットワークにいることを知らないことに気づいていません。したがって、一般的に言えば、ネットワークを構築すると、通常は両側の一部の人々だけが対応します。

私たちの研究では通常、ソーシャルネットワーク上の友人を予測したい場合、この方法で行うことができます。すでにわかっているアンカーリンクに基づいて、トレーニングを行うことで、さらに多くのアンカーリンクを整理できるようになります。次に、それを SocialLink にマッピングして、戻ってきてください。

なぜ別のソーシャルネットワークに接続するのですか?たとえば、これらの人々を知っていて、A と B が友人であるかどうかを予測したい場合は、A の友人と B の友人の間に共通部分があるかどうかを確認する必要があります。 A さんと B さんが共通の友人をたくさん持っている場合、この 2 人は友人になる可能性が高いと思われ、推薦することができます。逆に、交差点がない場合には、何らかの仮定を立てることは困難です。ネットワークの密度が十分でない場合、A と B 間の接続が見つからない可能性が高くなります。しかし、別のソーシャルネットワークで A の対応するアカウントを知っていれば、別のソーシャルネットワークで A の友達もわかります。この情報があれば、二人を友達にすることを勧めるのに非常に役立ちます。別の例を見てみましょう。ソーシャルネットワークは2つあります。最初のネットワークでは、C は A に接続されており、もう 1 つのネットワークでは、B は A に接続されているため、B と C は友達の友達です。

これらのデータソースを効果的に組み合わせると、1 つのソースだけを使用する場合よりも予測の精度が高まります。

次の質問は、ソーシャルネットワークにおけるスパムにどのように対処するかということです。たとえば、レストランに食事に行くとき、私たちは Dianping.com でそのレストランのレビューを確認することに慣れています。みんながそのレストランが美味しいと言うなら、私たちはそこへ行きます。しかし、私たちがよく遭遇する問題は、これらのレビューに多くのスパムが含まれていることです。つまり、食べ物は実際には美味しくないかもしれませんが、誰かが意図的に良いレビューを投稿してあなたを騙している可能性があります。または、隣の店が気に入らない場合は、その店についての悪いレビューを投稿するので、表示されるレビューが捏造されている場合もあります。つまり、レストランがどのようなものか知りたい場合は、スパム情報を削除する必要があります。そうしないと、これらのレビューは信頼できません。しかし、レビューを読んだだけでは、その文章が「ここの料理は美味しい」など事実と矛盾するなど、よく書かれているため、レビューがスパムかどうかを判断するのは困難です。したがって、テキストを読むだけでは十分ではありません。テキストが適切に書かれていればスパムではないとは言えません。テキストが適切に書かれていない場合、おそらく携帯電話で入力されたためタイプミスがあるかもしれませんが、それがスパムであることを意味するわけではありません。これは非常に難しい質問です。

ありがたいことに、レビューは 1 つだけではなく、多数あります。レストランは1軒だけではなく、たくさんあります。この大量のデータを活用して、この問題を解決することができます。ビッグデータのサイズにも大きな利点があります。一般的に、レビュアーはさまざまなストアをレビューし、各ストアは多くのレビューを受け取ります。したがって、それらの間の関係を見つける必要があります。通常、評価者が書いたレビューが信頼できる場合は、その評価者は正直であると言えます。一方、評価が他の正直な評価者が書いた内容と一致している場合、その評価は信頼できると言えます。さらに、ほとんどの正直なレビュー投稿者が店舗を良いと評価している場合、その店舗は信頼できると言えます。逆に。最後に、私たちは不誠実なレビューアからのレビューを読みません。

まとめると、レビューが正直なものかどうかはどうやって判断するのでしょうか?注目すべき点が 2 つあります。まず、信頼できる人々の意見に同意するなら、彼は正直です。不正な人物に同意できない場合は、何らかの情報を得ることもできます。最後に、評価行動についてお話ししましょう。とても良いお店ですが、悪いレビューをすると、レビューした人の誠実さに大きな影響を与えます。しかし、一部の人がそれを愛し、一部の人がそれを好まなかったとしても、それは問題ではなく、あなたの誠実さには影響しません。

結局のところ、店が良いかどうかを評価するとき、正直なレビューアーが良いと言っていれば、それは良い店です。正直な人が「良くない」と言うのは構いません。レビューを見るだけで、この店が良い店かどうかが分かります。たとえば、これらの店舗を見て Resellerating スコアを比較すると、基本的に Resellerating スコアが高いほど、店舗の評判が良いと見なされます。 CCI のような店舗では、BBB スコアは高いものの、Resellerating スコアが非常に低い場合もあります。この店は良くないと思います。さらに詳しく調査したところ、この店舗に問題があることが判明しました。

したがって、ビッグデータの時代においては、データがますます重要になっていることに誰もが気づいたという結論になります。もちろん、ソーシャルネットワークには大量のデータが存在する場所であり、そこから貴重な情報を抽出するよう努める必要があります。ビッグデータの時代において、あらゆる側面のデータだけでなく、ビッグデータから価値を引き出すことができれば、新たな機会が生まれます。これは破壊的な技術です。多くの伝統的な産業がデータに注意を払わなければ、その産業は転覆されるかもしれない。これにより、多くの新たな機会が生まれ、新しい会社を設立することもできます。破壊的な技術が最後に登場したのはインターネットでした。インターネットが登場すると、中国のアリババをはじめ、多くの新興企業が誕生しました。米国の多くの小売業などの伝統的な産業は大きな問題に直面しました。一つ目は本屋です。どこで買っても同じ本です。オンラインでも同じ価格で発送できるので、オンラインで購入したほうが良いでしょう。電子についても同様です。したがって、伝統的な産業が注意を怠ると、問題が発生することがわかります。最も簡単な例はタクシーです。従来のタクシー業界には問題があります。携帯電話でDidiに電話するのがより便利になりました。これは私たちの学生にとって素晴らしい機会です。ビッグデータを取得できれば、新しい会社を立ち上げることができるかもしれません。我が国の首相も、これは素晴らしい機会だと述べました。

データから金を見つけるのは簡単な作業ではありません。今日はこれについてたくさん話しましたが、統計技術やコンピューター技術など、これには技術が必要であることもおわかりいただけたと思います。この知識があって初めてビジネスを始めることができます。いずれにせよ、ビッグデータは将来さまざまな業界や私たち一人ひとりの生活に大きな影響を与えることは間違いありません。ですので、本日は皆様がこのセミナーにしっかり参加し、良い知識を吸収していただければと思います。皆様ありがとうございました！

出典: データビュー

<<: Googleは涙に何が含まれているかを調べるスマートコンタクトレンズをテスト中

>>: Mashable: アップルはスマートフォン競争で遅れをとっている