信用報告分野におけるソーシャルデータの応用の探究

信用報告分野におけるソーシャルデータの応用の探究

WOT「インターネット+」時代ビッグデータ技術サミットで、テンセントのシニアデータマイニングエンジニアである劉立春氏が「信用報告分野におけるソーシャルデータの応用の探求」と題する講演を行った。主な内容は、社会信用報告の背景、テンセントソーシャルネットワークデータ、個々のユーザーポートレート研究、コミュニティサークル研究、モデル構築と応用の5つの部分で構成されていました。各部を一つずつ紹介していきましょう。

社会信用の背景

劉立春氏は、信用報告は単純な信用スコアリングモデルではなく、データ会社、信用報告会社、信用利用者の3つの部分から構成されていると述べた。データ企業はデータを収集したり、予備的なデータのマイニングを行ったりします。このような企業には、裁判所や公安などの特別なデータソースがある場合があります。これらのデータを取得するには、詳細な業界背景が必要です。信用調査会社は財産権と関係があります。さらに、サードパーティのデータ会社からデータを購入してデータの次元を充実させ、このデータに基づいて信用レポートの作業を行い、信用レポートレベルのソリューションを提供します。信用報告ユーザーとは、信用報告ソリューションが最終的に提供される人です。一般的に言えば、銀行やP2P融資機関を指します。これら 3 つの部分が組み合わさって、信用報告業界の全体的な産業チェーンが形成されます。

伝統的な信用調査機関

有名なアメリカの信用調査会社

国内信用情報報告の発展の歴史

上記 4 つの図のデータに基づくと、ソーシャル データが信用報告に使用できる場合、中央銀行の信用報告システムを補完するものとして有効であると考えられます。劉立春氏は、これがテンセントが社会信用報告プロジェクトに取り組んでいたときに最初に考えた質問だったと語った。ソーシャル データは膨大ですが、そのすべてが有効なデータであるとは限りません。また、特定のアプリケーションのビジネス シナリオがデータに関連しているかどうか、およびデータが最終的なモデルまたはアルゴリズムで実際に使用できるかどうかによっても異なります。これにより、一連の疑問が生じます。ソーシャル データは信用格付けと関連しているのでしょうか?取引データには当然財務属性がありますが、ソーシャルデータにも財務属性があるのでしょうか?ソーシャル データは非常に非構造化されているため、それを効果的にマイニングして使用するにはどうすればよいでしょうか?

テンセントソーシャルネットワークデータ

テンセントのソーシャルネットワークデータの構成について話す前に、劉立春氏はまず伝統的な信用報告の分析的側面を紹介した。 1 つ目は、年齢、性別、職業、収入、婚姻状況、勤続年数、就労状況などのユーザーの基本情報です。これは基本的に、あらゆる銀行やあらゆる信用調査機関が取得するデータと同じです。 2 つ目は信用状況です。これには、ユーザーが申請したクレジットカードの数や、過去 1 か月間に信用レポートが何回照会されたかが含まれます。ご存知のとおり、信用レポートが照会された回数は、ユーザーが最近頻繁にローンやクレジットカードを申請したかどうかを直接表すことができます。最近このような取引の数が特に多い場合、その人は最近非常にお金が不足していることを意味し、それが信用に影響し、直接的に信用限度額に影響する可能性があります。

上の図は、テンセントのデータの現状を示しています。テンセントのデータは、さまざまな側面からのデータを含み、比較的広範囲のユーザーをカバーしています。

テンセント社会信用SWOT分析

上の図は、テンセント社会信用の SWOT 分析であり、その強み、弱み、機会、リスクが明確に示されています。こうした詳細な分析を行うには、個人の信用調査は避けられませんが、その前に信用調査の対象者がどのような人物であるかを明確に把握しておく必要があるため、私たちは個々のユーザーの人物像の調査を開始しました。

個人ユーザーポートレート調査

劉立春氏は、個々のユーザーポートレート研究を実施する上で直面する課題は、主に次の3つの側面であると述べました。第1に、テンセントの豊富なさまざまなデータリソースとそれらの間のつながりをどのように最大限に活用するか。次に、ユーザー ポートレートをさまざまなアプリケーション シナリオに適応させるにはどうすればよいでしょうか。 3つ目は、膨大なユーザーデータ(10億人を超えるQQユーザー、1000億を超えるさまざまなログデータ)を効率的に処理する方法です。これらの課題に直面して、劉立春は次のような解決策を提示しました。

1. ユーザーの行動特性をマイニングし、基礎となるラベルを形成するために、さまざまな基礎データ タイプに固有のマイニング アルゴリズムを設計します。さまざまなデータソースを総合的に考慮して、より高レベルの抽象的なユーザーラベルを形成する

2. さまざまな次元と粒度からユーザーを記述するための完全なユーザー ポートレート ラベル システム アーキテクチャを確立します。

3. 大規模ストレージと機械学習コンピューティングプラットフォームに基づくユーザーポートレートマイニングシステムを構築し、すべてのユーザーデータを定期的に計算およびマイニングし、ユーザータグの使用状況とクエリサービスを提供します。

ユーザーポートレートシステムアーキテクチャ

ユーザーポートレートテキストマイニングシステム

ユーザーポートレート業界マイニング

ユーザーポートレートマイニング結果

個人ユーザーのポートレート研究の結果は、構造化データ、テキスト分類、LBSデータ、ソーシャルネットワークのコミュニケーションと拡散をマイニングした後、年齢、出身地、興味など、人口のいくつかの基本的な属性など、比較的完全なポートレートを形成することです。同時に、ユーザーの婚姻状況についての判断も行われます。これらのデータを使用すると、ユーザーデータに基づいて多くの社会的信用調査作業を行うことができます。

コミュニティサークルリサーチ

ここで言及されているコミュニティ サークルは、実際には QQ サークルです。劉立春氏は、2012年にソーシャルネットワークで非常に影響力のある成果があり、それはマイニングされた結果をフロントエンドのQQユーザー全体に適用したことだと語った。具体的な例としては、あるユーザーの同僚がいる場合、直接の友達ではありませんが、この期間中に Tencent は潜在的な関係を把握したり、自動的に同僚としてグループ化したり、メモを追加したりします。この結果は当時大きな論争を引き起こした。これによって潜在的な友人を見つけやすくなると感じた人もいれば、プライバシーが侵害されると感じる人もいました。

QQ サークルは、それ自体の用途に加えて、他の多くのシナリオでも使用されます。たとえば、QQ サークル内の友人のメモに基づいて学歴に関する情報をマイニングするために使用されます。たとえば、多くの人がこのユーザーを学部の同級生として記録している場合、システムは私の学歴が学士号であると判断する可能性があります。テンセントは実際のデータを使用してこのデータを検証しました。データカバー率は約74%、精度率は90%以上です。

ソーシャルネットワークトポロジの応用

ソーシャル ネットワーク トポロジには主に 2 つの用途があります。1 つはトポロジのタイプを決定することであり、もう 1 つはこの関係チェーンにおけるこれらのタイプの影響を調査することです。より象徴的な位相型は三角形とハート型の構造です。

モデルの構築と応用

では、個々のユーザーのポートレートやコミュニティサークルに関する研究をモデルにどのように組み込むのでしょうか?劉立春氏は、まず最初にすべきことは社会モデルを確立することだが、モデル化する前にいくつかの基本的な仮定を立てなければならないと述べた。たとえば、2 つの QQ 番号が同じ人物に属している場合、明らかな特徴がいくつかあります。 1 つ目は、同じデバイスからログインしたり、同じ IP からログインしたりすることが多く、その他の特徴がある可能性があるということです。最後に、これらの特徴を使用して、特定の QQ 番号の背後にいる人物が同一人物であるかどうかを判断するためのモデルを構築します。精度率は約85%、カバー率は約75%です。

変数導出とモデル結果

モデルの全体的な効果

ウェイリダイアプリケーション

最後に、劉立春氏はWechat Loanにおける信用報告モデルの具体的な申請プロセスを紹介しました。上の写真は製品のスクリーンショットです。 QQを開いたときにWechat Loanの入り口が見えれば、それはTencentが審査したホワイトリストに入っていることを意味します。アプリケーションのアクティベーションをクリックすると、すぐにクレジット限度額が計算されます。お金を借りたい場合も、これは非常に早いです。銀行カードをバインドしておけば、ローンの金額は 2 分以内に口座に振り込まれます。実際、従来の銀行からの借り入れと比較すると、この効率性は質的に飛躍的です。しかし、フロントエンド製品がシンプルに見えるほど、その背後にあるテクノロジーは複雑になる可能性があります。 Wechat Loanの背後にあるテクノロジーである信用報告モデルは、信用度の高いユーザーを審査し、それらのユーザーに融資サービスを提供するように設計されています。

著者:
Liu Lichun
氏は、Tencent のシニアデータ マイニングエンジニアであり、ソーシャル ネットワーク ビジネス グループのデータ マイニング チームの責任者、第 1 世代 QQ 音楽推奨システムの設計者、Tencent の顧客ライフサイクル管理システムの構築者です。彼は長年にわたりデータマイニング技術とビジネスの統合に取り組んでおり、ビッグデータ分析とマイニング、インターネット信用報告などの分野で豊富な実務経験とプロジェクト管理経験を持っています。現在は、インターネット信用報告、ユーザープロファイル、推奨システム、テキストマイニングに重点を置いています。

<<:  ニールセン:調査によると、アメリカ人は毎日1時間以上アプリを使用している

>>:  タブレットで読書?話をやめて

推薦する

流行中に海外旅行をするにはどのような書類が必要ですか?流行中に海外旅行をするにはどのような書類が必要ですか?

新型コロナウイルスの感染拡大防止のため、各地で交通規制が実施されていることは周知の事実です。特別な事...

『デュエル・マスターズ!!』2019年版の魅力と評価:シリーズ16作目の進化とは?

『デュエル・マスターズ!!』(2019年版)の全方位的評価と推薦 概要 『デュエル・マスターズ!!』...

アジスロマイシンはすべての肺炎を治療できますか?

冬の初めから、マイコプラズマ肺炎の患者が多くの場所で発生しており、そのほとんどは子供たちです。治療薬...

『球詠』の魅力と評価:感動のストーリーとキャラクターの深み

『球詠 - タマヨミ -』の魅力と評価 『球詠 - タマヨミ -』は、2020年4月1日から6月17...

「日傘の詩」:みんなのうたの感動を再評価する

日傘の詩 - ヒガサノウタ - の魅力と評価 「日傘の詩」は、1997年8月にNHK教育テレビ(現在...

「○○さえいればいい」の魅力と評価:究極の癒しアニメを徹底解説

『○○さえいればいい。』の魅力と評価 『○○さえいればいい。』は、平坂読によるライトノベルを原作とし...

全国科学技術労働者の日 |子どもの下痢、経口補水塩に関する3つの疑問

毎年5月29日は世界腸の健康デーです。人間の腸は栄養素を吸収し、老廃物や毒素を排泄する重要な器官です...

風邪や頭痛を軽く考えないでください。眼科医は緑内障の可能性を除外するよう注意を促す

最近、武漢の天気は急激に変わり、一瞬にして冬が到来しました。多くの中高年者は「春は覆い、秋は暖かく」...

車のアイドリングスピードは調整できますか?車のアイドリングスピードを下げるにはどうすればいいですか?

アイドリング回転数とは、自動車のエンジンがアイドリングしているときの作動状態を指し、このときの回転数...

Huawei 携帯電話広告を停止する手順の詳細説明 (Huawei 携帯電話広告を停止する方法と注意事項)

Huawei の携帯電話を使用すると、ポップアップ広告が表示されることが多く、通常の使用体験に影響を...

開封済みのココナッツウォーターを飲むと死ぬことがありますか?ココナッツウォーターは羊水を浄化できますか?真実が明らかになった!

ココナッツは多くの人々に好まれる果物です。ココナッツを使って美味しい料理を作ったり、ココナッツウォー...

建国記念日の軍事パレードでメディア関係者に敬意を表し、レロンCEOとその代表団はOutlook Weeklyに赴き、詳細な議論を行った。

中華人民共和国建国70周年の祝賀行事が盛大に行われている。イベントの記者として、メディア従事者の神聖...

黒カビを水に混ぜる前に湯通ししないと有毒になりますか?黒カビを浸しすぎた場合はどうすればいいですか?どのように保存すればいいでしょうか?

黒キノコを水に溶かす前に茹でないと毒になりますか?黒カビを浸しすぎた場合はどうすればいいですか?どの...