WOT「インターネット+」時代ビッグデータ技術サミットで、テンセントのシニアデータマイニングエンジニアである劉立春氏が「信用報告分野におけるソーシャルデータの応用の探求」と題する講演を行った。主な内容は、社会信用報告の背景、テンセントソーシャルネットワークデータ、個々のユーザーポートレート研究、コミュニティサークル研究、モデル構築と応用の5つの部分で構成されていました。各部を一つずつ紹介していきましょう。 社会信用の背景 劉立春氏は、信用報告は単純な信用スコアリングモデルではなく、データ会社、信用報告会社、信用利用者の3つの部分から構成されていると述べた。データ企業はデータを収集したり、予備的なデータのマイニングを行ったりします。このような企業には、裁判所や公安などの特別なデータソースがある場合があります。これらのデータを取得するには、詳細な業界背景が必要です。信用調査会社は財産権と関係があります。さらに、サードパーティのデータ会社からデータを購入してデータの次元を充実させ、このデータに基づいて信用レポートの作業を行い、信用レポートレベルのソリューションを提供します。信用報告ユーザーとは、信用報告ソリューションが最終的に提供される人です。一般的に言えば、銀行やP2P融資機関を指します。これら 3 つの部分が組み合わさって、信用報告業界の全体的な産業チェーンが形成されます。 伝統的な信用調査機関 有名なアメリカの信用調査会社 国内信用情報報告の発展の歴史 上記 4 つの図のデータに基づくと、ソーシャル データが信用報告に使用できる場合、中央銀行の信用報告システムを補完するものとして有効であると考えられます。劉立春氏は、これがテンセントが社会信用報告プロジェクトに取り組んでいたときに最初に考えた質問だったと語った。ソーシャル データは膨大ですが、そのすべてが有効なデータであるとは限りません。また、特定のアプリケーションのビジネス シナリオがデータに関連しているかどうか、およびデータが最終的なモデルまたはアルゴリズムで実際に使用できるかどうかによっても異なります。これにより、一連の疑問が生じます。ソーシャル データは信用格付けと関連しているのでしょうか?取引データには当然財務属性がありますが、ソーシャルデータにも財務属性があるのでしょうか?ソーシャル データは非常に非構造化されているため、それを効果的にマイニングして使用するにはどうすればよいでしょうか? テンセントのソーシャルネットワークデータの構成について話す前に、劉立春氏はまず伝統的な信用報告の分析的側面を紹介した。 1 つ目は、年齢、性別、職業、収入、婚姻状況、勤続年数、就労状況などのユーザーの基本情報です。これは基本的に、あらゆる銀行やあらゆる信用調査機関が取得するデータと同じです。 2 つ目は信用状況です。これには、ユーザーが申請したクレジットカードの数や、過去 1 か月間に信用レポートが何回照会されたかが含まれます。ご存知のとおり、信用レポートが照会された回数は、ユーザーが最近頻繁にローンやクレジットカードを申請したかどうかを直接表すことができます。最近このような取引の数が特に多い場合、その人は最近非常にお金が不足していることを意味し、それが信用に影響し、直接的に信用限度額に影響する可能性があります。 テンセント社会信用SWOT分析 上の図は、テンセント社会信用の SWOT 分析であり、その強み、弱み、機会、リスクが明確に示されています。こうした詳細な分析を行うには、個人の信用調査は避けられませんが、その前に信用調査の対象者がどのような人物であるかを明確に把握しておく必要があるため、私たちは個々のユーザーの人物像の調査を開始しました。 個人ユーザーポートレート調査 劉立春氏は、個々のユーザーポートレート研究を実施する上で直面する課題は、主に次の3つの側面であると述べました。第1に、テンセントの豊富なさまざまなデータリソースとそれらの間のつながりをどのように最大限に活用するか。次に、ユーザー ポートレートをさまざまなアプリケーション シナリオに適応させるにはどうすればよいでしょうか。 3つ目は、膨大なユーザーデータ(10億人を超えるQQユーザー、1000億を超えるさまざまなログデータ)を効率的に処理する方法です。これらの課題に直面して、劉立春は次のような解決策を提示しました。 1. ユーザーの行動特性をマイニングし、基礎となるラベルを形成するために、さまざまな基礎データ タイプに固有のマイニング アルゴリズムを設計します。さまざまなデータソースを総合的に考慮して、より高レベルの抽象的なユーザーラベルを形成する 2. さまざまな次元と粒度からユーザーを記述するための完全なユーザー ポートレート ラベル システム アーキテクチャを確立します。 3. 大規模ストレージと機械学習コンピューティングプラットフォームに基づくユーザーポートレートマイニングシステムを構築し、すべてのユーザーデータを定期的に計算およびマイニングし、ユーザータグの使用状況とクエリサービスを提供します。 ユーザーポートレートシステムアーキテクチャ ユーザーポートレートテキストマイニングシステム ユーザーポートレート業界マイニング ユーザーポートレートマイニング結果 個人ユーザーのポートレート研究の結果は、構造化データ、テキスト分類、LBSデータ、ソーシャルネットワークのコミュニケーションと拡散をマイニングした後、年齢、出身地、興味など、人口のいくつかの基本的な属性など、比較的完全なポートレートを形成することです。同時に、ユーザーの婚姻状況についての判断も行われます。これらのデータを使用すると、ユーザーデータに基づいて多くの社会的信用調査作業を行うことができます。 コミュニティサークルリサーチ ここで言及されているコミュニティ サークルは、実際には QQ サークルです。劉立春氏は、2012年にソーシャルネットワークで非常に影響力のある成果があり、それはマイニングされた結果をフロントエンドのQQユーザー全体に適用したことだと語った。具体的な例としては、あるユーザーの同僚がいる場合、直接の友達ではありませんが、この期間中に Tencent は潜在的な関係を把握したり、自動的に同僚としてグループ化したり、メモを追加したりします。この結果は当時大きな論争を引き起こした。これによって潜在的な友人を見つけやすくなると感じた人もいれば、プライバシーが侵害されると感じる人もいました。 QQ サークルは、それ自体の用途に加えて、他の多くのシナリオでも使用されます。たとえば、QQ サークル内の友人のメモに基づいて学歴に関する情報をマイニングするために使用されます。たとえば、多くの人がこのユーザーを学部の同級生として記録している場合、システムは私の学歴が学士号であると判断する可能性があります。テンセントは実際のデータを使用してこのデータを検証しました。データカバー率は約74%、精度率は90%以上です。 ソーシャルネットワークトポロジの応用 ソーシャル ネットワーク トポロジには主に 2 つの用途があります。1 つはトポロジのタイプを決定することであり、もう 1 つはこの関係チェーンにおけるこれらのタイプの影響を調査することです。より象徴的な位相型は三角形とハート型の構造です。 モデルの構築と応用 では、個々のユーザーのポートレートやコミュニティサークルに関する研究をモデルにどのように組み込むのでしょうか?劉立春氏は、まず最初にすべきことは社会モデルを確立することだが、モデル化する前にいくつかの基本的な仮定を立てなければならないと述べた。たとえば、2 つの QQ 番号が同じ人物に属している場合、明らかな特徴がいくつかあります。 1 つ目は、同じデバイスからログインしたり、同じ IP からログインしたりすることが多く、その他の特徴がある可能性があるということです。最後に、これらの特徴を使用して、特定の QQ 番号の背後にいる人物が同一人物であるかどうかを判断するためのモデルを構築します。精度率は約85%、カバー率は約75%です。 変数導出とモデル結果 モデルの全体的な効果 ウェイリダイアプリケーション 最後に、劉立春氏はWechat Loanにおける信用報告モデルの具体的な申請プロセスを紹介しました。上の写真は製品のスクリーンショットです。 QQを開いたときにWechat Loanの入り口が見えれば、それはTencentが審査したホワイトリストに入っていることを意味します。アプリケーションのアクティベーションをクリックすると、すぐにクレジット限度額が計算されます。お金を借りたい場合も、これは非常に早いです。銀行カードをバインドしておけば、ローンの金額は 2 分以内に口座に振り込まれます。実際、従来の銀行からの借り入れと比較すると、この効率性は質的に飛躍的です。しかし、フロントエンド製品がシンプルに見えるほど、その背後にあるテクノロジーは複雑になる可能性があります。 Wechat Loanの背後にあるテクノロジーである信用報告モデルは、信用度の高いユーザーを審査し、それらのユーザーに融資サービスを提供するように設計されています。 著者: |
<<: ニールセン:調査によると、アメリカ人は毎日1時間以上アプリを使用している
エビ肉は、きれいな水で洗われ、頭、尾、殻が取り除かれた生きたエビから作られています。さっぱりとしてい...
慌てないでください、小沢さんには解決策があります!春は万物が生き返る季節ですが、インフルエンザウイル...
最近、庄司直医師のチームがAI-HIFU(人工知能高密度焦点式超音波)を用いた局所前立腺がん患者の治...
サイボーグ花ちゃん:サイバーパンクと青春の融合 はじめに 1994年、BS2で放送されたアニメシリー...
中国科学技術ニュースネットワーク、11月28日(徐明陽) 「大参考」欄の報道によると、最近、河南省鄭...
<<<てんかん患者を守り、より多くのケアと愛情を示しましょう>>>...
特にテレビの分野では、今日の市場では選択肢がますます増えています。新しいテレビを購入する場合、サイズ...
中国疾病管理ニュース...
柿餅は干し柿餅とも呼ばれ、柿から作られたケーキ型の食べ物です。中国では有名な伝統的な軽食です。栄養価...
評者: 銭静華、北京体育大学教授図1 著作権画像、転載禁止健康のためであれ減量のためであれ、多くの人...
しかし、携帯電話をうっかり紛失してしまうこともあります。携帯電話は私たちの日常生活に欠かせないものに...
龍は私たちの国では特別な意味を持っています。古代の伝説では、ドラゴンは魔法の動物です。それは中華民族...
ドラえもんアニバーサリー25 - 25周年記念映画の感動と魅力 2004年3月6日に公開された「ドラ...
バナナを食べる時の歌 - みんなのうた 概要 「バナナを食べる時の歌」は、1963年6月にNHK教育...