この記事は READYFOR Advent Calendar 2024 12日目の記事になります。
はじめに
皆さんこんにちは。READYFOR で執行役員 VP of Productivity & Security を担当している若林です。 READYFORでは、社内で活用するITサービスの選定や導入を通じて業務効率化・情報セキュリティ強化を推進する立場にあります。
本記事では、私たち特有のデータ品質管理、特に顧客データのクレンジングを例に取り上げ、どのように課題と向き合い、より良い状態へと導こうとしているのか、その試行錯誤の一端をご紹介したいと思います。 なお、データモデリングやデータ基盤のアーキテクチャについては、本記事では踏み込みません。(誰かが書いてくれるはず…)
顧客データマネジメントの新たな局面
READYFORは、創業以来クラウドファンディングサービスを中心に事業を展開してきましたが、近年では事業領域が広がり、サービスも多角化してきています。それに伴い、今年の8月に新パーパスである「みんなの想いを集め、社会を良くするお金の流れをつくる」(詳細はこちら)を掲げ、新たな取り組みを加速させています。
そういった会社全体の流れの中で、従来クラウドファンディングサービスに閉じていた顧客データに関して、事業・アプリケーションを横断して整備する重要性が増大してきています。各事業やサービス間で発生する顧客データを統合し、従業員・顧客体験を向上させることは、ビジネス成長を下支えする必須要件となってきています。
事業特有の顧客データ連携の難しさ
創業当初は、クラウドファンディングに対する認知や社会的信頼が広がっていなかったこともあり、READYFOR のサービスを利用するユーザーといえば学生や個人クリエイター、中小規模の事業者が多くを占めていました。しかし、サービスの知名度向上や成熟に伴い、現在では大企業、NPO法人、教育機関、独立行政法人や地方自治体等、営利・非営利を問わず、さまざまな団体がクラウドファンディングプロジェクトを立ち上げ、資金調達を行うようになっています。
このような多彩なユーザーがいる中で特に注目すべきは、「任意団体」の存在です。任意団体とは、法人格を持たずに複数の人間が共同で設立する組織体で、設立にあたって登記が行われないことが大きな特徴です。一般的なビジネスでも任意団体との取引は稀に発生するかと思いますが、ことクラウドファンディングにおいては、プロジェクト実行者全体における任意団体の割合は決して無視できる規模ではありません。
参考:法人番号について 国税庁長官官房企画課 法人番号管理室 令和元年6月
データマネジメントの世界では、個人と法人について比較的明快な一意性確保の方法が存在します。
- 個人ユーザーの場合:メールアドレスや電話番号といった連絡先情報がある程度識別子として機能しやすく、同一人物であることの特定は相対的に容易です。もちろん、メールアドレスの使い回しや、古いアドレスが無効になったときの追跡など課題はありますが、それでも個人識別子としては非常に有効な手段です。
- 法人ユーザーの場合:法人番号という国家単位で付与される固有の識別子があるため、法人格を有する組織に関してはこの番号によって基本的なユニークネスが確保できます。法人番号の裏側には政府公的機関の管理があるため、信頼性も担保されています。
このように個人・法人は比較的明瞭な識別子が存在するわけですが、前述したように任意団体にはそのような「外部から付与された明確な識別子」が存在しないのです。任意団体の他にも、法人に属する団体ではあるものの、より小さい単位(自治体における公共施設や大学における研究室)がクラウドファンディングプロジェクトの実行主体になるケースも存在しております。これらの団体もクラウドファンディングのユーザーとして取り扱っている限りは、システムが付与するサロゲートキーで、ある程度一意性を担保できたわけですが、事業・アプリケーションが多角化する中では難しくなってきていました。
完全自動化は幻想?「人」によるクレンジングは不可避なのか
2015年に運用開始された法人番号やデータクレンジングを支援する以下のようなサービスの登場により、昨今は大きなコストをかけなくてもデータ品質を大きく向上させることが可能になってきています。
しかし、私たちが直面する任意団体等のデータ品質問題は、完全な自動化を困難にしています。前述したように任意団体は法人番号を持たない上、団体の性質上、代表メールアドレスや代表電話番号を持たないケースも珍しくありません。同一団体でも、手続きを行う担当者ごとに登録される団体名称やメールアドレスが微妙に異なることも多く見受けられます。また、ウェブ上の公開情報を参照して裏付けを取ろうとしても、必ずしも公式なデータソースが存在するとは限りません。
結果として、データ品質を確保するためには、どうしてもある程度「人の目」を通した確認作業が必要になります。ある程度の名寄せ(データマッチング)を自動化することは可能ですが、品質を追求すればするほど人的チェックを避けられないのは想像に難くないでしょう。
「誰も不幸にならない」データクレンジングを実現するために
人手を介したデータクレンジングは当然ながら大きなコストがかかります。担当者の工数を割くことになるだけでなく、クレンジング作業は終わりが見えにくく、モチベーション維持が難しいタスクとも言えます。闇雲にデータをクリーニングし続ければ、担当メンバーは疲弊し、コスト面でも負担が増大します。
では、どうすれば関係者が幸せになれるのでしょうか? ここで重要なのは、「完全なデータの正しさ」に固執しすぎないことです。あらゆるデータを100%正しく、かつ常に最新に保つことは極めて困難ですし、ROIも見合いません。むしろ、ビジネス上クリティカルな部分にフォーカスし、そこを確実にクレンジングし続けることが重要です。
ここで登場するのが「データ品質管理」になります。データ品質管理に関しては、以下のような素晴らしいガイドライン・フレームワークがあるので、詳細はそちらを参照して頂ければと思いますが、結局のところ重要なのは「闇雲にクレンジングを行うのではなくステークホルダーからのデータ品質に対する要求を明確化してデータ品質要件に整理し、そのデータ品質要件を満たすことをゴールとしてリソースを投下しましょう。」ということに尽きるかなと思います。
ただ、この教科書的なガイドライン・フレームワークを忠実に実行するリソースを割くことそのものが難しいケースも多くあると思います。(何を隠そう弊社も現時点でCDOやデータを専門とする組織は存在せず、周辺部門のメンバーの寄せ集めで何とかしてる状況です)
各ステークホルダーからのデータ品質に対する要求を取りまとめてデータ品質要件に整理するには、それなりにコストをかける必要があります。ゼロから作る場合はなおさら、品質評価軸やKPIをステークホルダーと合意できる状態にまで中々落としきれないのが現実ではないでしょうか。品質の影響が大きい製造業などでは、そういった品質マネジメントにかかるコストも含めて戦略的に判断することを考える品質コストマネジメントのような領域も存在するようです。
参考:品質コストを削減しよう
とまぁここまで考えてしまうと結構お腹いっぱいな感じになってくるのですが、我々のような規模の組織でおすすめなアプローチとしては、画像における適合品質と品質コストの関係に対する特異点を予め探索しておき、その中からステークホルダーと合意する方法です。一般的にデータ品質と予防・評価コスト(失敗コストは除く)はトレードオフの関係性になると思いますが、その中にはいくつか特異点が存在するはずです。前述した「自動化で実現可能なデータ品質水準」と「人手を介さないと実現できないデータ品質水準」はまさにその代表例でしょう。他にも市場のデータクレンジングソリューションを導入してデータ品質向上を実現する部分も特異点になりうると思います。この特異点に論点を絞って整理することで、あまりコストをかけることなく関係者とも合意しやすくなるのではないでしょうか。
まとめ
この記事で記載した内容は、現在進行形で進めているプロジェクトの一端であり、まだまだ実践しきれていないことも多くあります。(自分を奮い立たせるために書いてると言ってもいいかもしれません)
私は情報セキュリティマネジメントに長く関与してきている人間ですが、最近深く踏み込むようになったこのデータマネジメント領域も、事業上のアウトカムから遠く、個別施策のROIを可視化して適切に投資判断を行うことが非常に難しいという点で似ていると感じています。同時に、その難しさこそがこの領域の面白さでもあり、今後も上手くコントロールしながら進めていければと考えています。
明日はREADYFOR Advent Calendar 2024 13日目、@t2-kobさんによる記事です。お楽しみに!