Haozao

データ系統の価値とは何でしょうか?

データの生成と利用においては様々な問題が発生しますが、ガバナンスを通してこれらの問題に対処します。これらの問題には、データの正確性、データの変更、データが生み出す実際の価値、データのセキュリティなどが含まれます。この記事では、データリネージ分析がデータガバナンスプロセスにおいてこれらの問題にどのように対処するかを説明します。

価値1:データに関する疑問を克服する

日々の業務の中で、私たちは次のようなシナリオによく遭遇します。ビジネス担当者や上級管理職が、コンピューター画面上のレポートのデータや指標について、次のような重大な疑問を抱いています。「このデータには大きな差異がありますが、何か問題があるのでしょうか?」「なぜこのデータはオフラインデータと一致しないのでしょうか?計算ロジックに問題があるのでしょうか?」「なぜ同じ「売上高」フィールドがシステムAとシステムBで異なる表示になっているのでしょうか?どちらのキャリバーを使用しているのでしょうか?」…こうした一連の疑問に直面し、データ部門はレポートデータに関するユーザーの疑問を調査し、払拭するために常に奔走しています。

ユーザーがレポート データの信頼性と真正性に疑問を抱く理由は、主に次のような場合です。

  • ビッグデータ クラスター リソースの不足やプラットフォーム システム障害によるタスクの遅延などの適時性の問題。
  • 不明瞭または不正確なデータ取得方法などの開発コードの品質の問題により、計算されたデータにエラーが発生します。
  • ビジネス ルールの計算ロジックが変更されましたが、システムがそれに応じて更新されなかったため、オンライン データとオフライン データの間に不整合が発生しました。
  • データ品質の問題は、オンラインでもオフラインでも、不正確、不完全、または不適切なデータにつながり、データの歪みにつながる可能性があります。

上記のデータの問題に直面して、従来の調査方法は非常に時間がかかり、非効率的です。

  • ステップ 1: レポート メトリックの元となる API インターフェースを見つけて、ソース データ テーブルを決定します。
  • ステップ 2: ソース データ テーブルに対応するデータ同期タスクと Hive テーブルの出力タスクを見つけて、タスクが正常に実行されたかどうかを確認します。
  • ステップ3:Hiveテーブル処理タスクの上流を特定し、レイヤーごとに上方に向かって調査を進めます。まず、チェーン全体のすべてのタスクが正常に実行されていることを確認します。タイミングの問題は最も頻繁に発生し、一般的で、対処しやすい問題です。
  • ステップ4:データ処理フローのすべての側面が正常であることを確認した後、指標出力テーブルの処理コードを確認します。まず、最近人為的な変更がないか確認します。次に、コードを調べ、指標処理コード階層に従ってレベルごとに問題のあるデータテーブルを特定し、対応するロジックを確認します。
  • ステップ5:徹底的な調査の結果、問題が特定されました。しかし、問題の修正とデータの再実行には時間がかかります。誤ったデータによる誤った判断や適用、例えば既存顧客を新規顧客として誤ってカウントし、マーケティング費用などの問題が発生するのを防ぐため、できるだけ早く下流部門に通知する必要があります。

データに異常が検出されると、データの真正性と信頼性に対するユーザーの懸念が裏付けられ、ユーザーは徐々にデータへの信頼を失っていきます。これはデータ利用の効率性向上に繋がるだけでなく、データ管理者は疑わしいデータを繰り返し確認し、処理する必要に迫られることになります。データは生成から業務アプリケーションへの適用まで、多くの処理段階を経るため、業務レポートやデータアプリケーションサービスに異常が発生した場合は、問題箇所を特定し、迅速にトラブルシューティングを行い、解決する必要があります。

コードをレイヤーごとに手動で検索するのは非常に非効率的です。データ開発の人員がトラブルシューティングに費やされる一方で、問題の特定に時間がかかるほど、ビジネスへの影響と損失は大きくなります。

データ系統分析技術を使用すると、調査の効率が大幅に向上します。特に、データ系統の可視化により、ユーザーはデータのソースとチェーンを独自に確認し、データ生成チェーンを直感的に発見し、各リンクに異常があるかどうかを確認できます。

このようにして、エンドユーザーはレポート データの信頼性に関する疑問をすぐに払拭できます。

価値2: データ変更の影響範囲の迅速な評価

データ開発のプロセスにおいて、データ系統は、問題解決の効率性の向上とデータの影響の効果的な評価という 2 つの価値ポイントを提供できます。

純粋にデータの観点から見ると、データ系統にはデータベース、テーブル、フィールド、システム、アプリケーションといった次元が含まれます。つまり、データがどのデータベースとテーブルに保存されているか、対応するフィールドとその属性、データが属するシステム、そしてデータに関連するアプリケーションです。

ビジネスの観点から見ると、データリネージとは主にデータが属する事業分野を指します。ビジネスにおいては、データの生成ロジック、データの利用ロジック、そして事業分野間の関係性を明確にする必要があります。

データリネージは、コンプライアンス、データ品質、データプライバシー、セキュリティを含むデータガバナンスにとって極めて重要です。また、データ分析やデータサイエンスにおいても重要です。データへのアクセス方法や変更方法をマッピングし、検証する能力は、データの透明性にとって不可欠です。

特定のデータソースの詳細な記録を生成するのに役立ちます。また、データがどのように変更され、影響を受け、使用されているかを示します。データリネージは、コンプライアンス監査やレポートに関する問い合わせへの対応を容易にします。さらに、組織がデータフローの潜在的なリスクを追跡・特定できるようにすることで、セキュリティ体制の改善にも役立ちます。

データリネージは、組織がビジネスアプリケーションに必要なデータギャップを特定し、修正するための積極的なアプローチをとるのに役立ちます。これは、データ分析やカスタマーエクスペリエンスの取り組みにおいて特に役立ちます。

機密データの収集は、組織を規制当局の監視や不正利用のリスクにさらします。データリネージは、機密データやその他の重要なビジネスデータが組織内をどのように流れているかを明らかにします。これにより、ポリシーが既存の管理策と整合していることを確認できます。

IT運用において、データリネージは、データ変更が下流の分析やアプリケーションに与える影響を可視化するのに役立ちます。また、ビジネスプロセスの変更に伴うリスクの把握にも役立ちます。これにより、変更管理に対してより積極的なアプローチをとることができます。さらに、時間のかかる手作業を削減することで運用効率を向上させ、重複データやデータサイロを排除することでコストを削減できます。

さらに、データリネージはクラウドデータの移行を成功に導き、変革を促進するモダナイゼーションの取り組みを推進します。データリネージは、さまざまなデータオブジェクトとデータフローがデータグラフにどのように関連し、接続しているかを視覚化するのに役立ちます。この深い理解により、データアーキテクトはデータの移動や変更がデータ自体にどのような影響を与えるかを予測しやすくなります。下流のプロセスやデータに依存するアプリケーションへの影響を予測し、変更を検証することも容易になります。

価値3:データ資産評価測定ツール

デジタル時代において、データは極めて重要なビジネス資産として広く認識されています。データ資産の一般的な定義は、物理的または電子的に記録され、個人または企業が所有または管理し、企業に将来的な経済的利益をもたらす可能性のあるデータリソースを指します。データ資産の主な特徴は次のとおりです。

  • データ所有権(探索権、使用権、所有権)を保有する。
  • 貴重な;
  • 測定可能
  • 読み取り可能なデータセット。

まとめると、ユーザー(需要側)が多く、利用量が多く、更新頻度が高いデータは、多くの場合、より価値が高いと言えます。例えば、CRICリサーチセンターは、E-House Chinaの子会社であるCRIC Information Groupの専門研究開発部門であり、10年間にわたり不動産業界と企業の課題を深く探求してきました。

多くの企業が研究データを購入しており、その価値は明白であるため、企業資産と呼ぶことができます。貴陽ビッグデータ取引プラットフォームは、自社のデータをサービスやAPIにパッケージ化し、顧客が購入・利用できるようにしています。アグリゲーションプラットフォーム、啓察網、天眼網は、企業情報の検索機能を提供しています。これらはすべて、実現可能な明白な価値を持つデータ取引であり、これらのデータは真に企業間で共有されるデータ、すなわちデータ資産となります。

したがって、これらの考え方に基づくと、データをどのように価値ある資産にするかは、そのデータが現在または将来、潜在的な取引価値を持っているかどうかによって決まる可能性があります。

上記の問題に基づいて、データ系統はデータ資産の価値を評価するための指標として機能し、その具体的な価値は次のように表されます。

データリネージは、データの調達・生産コストを明確に記録し、その後の処理を含め、ライフサイクル全体を通じてデータのコストを明確に記録できます。これにより、データ資産の初期認識が不確実であるという問題が解決されます。

例えば、外部データプロバイダーからデータを購入した場合、そのデータの会計上の価値を記録できます。データメトリクスや社内で手作業によって生成されたその他の資産の場合は、系統データのコスト価値を継続的に追跡し、最終的に要約を作成することができます。

データリネージはデータのマルチソース性を反映するため、各データ項目の処理中に、結果として得られるデータ資産をさらに確認できます。例えば、特定の指標のデータ集約と処理にかかるコストを配分できます。

データリネージは、データの作成から破棄までのプロセス全体を網羅するデータライフサイクルを反映しています。データがアーカイブまたは破棄されると、データ資産の寿命が終わり、その価値を継続的に測定できるようになります。特に、ビジネスの成長とデータ量の増加に伴い、タスクとデータテーブルの数が増え続けることで、ビッグデータリソースのコストは継続的に増加します。

包括的かつ正確なエンドツーエンドのデータ系統を構築することで、下流のアプリケーション関係者を特定し、効果的な通信と情報の同期を確保し、長期間使用されていないサービスを速やかにオフラインにすることで、データコストを節約できます。

データ資産は、データが循環しているかどうか(つまり、統合と共有と呼ばれるもの)を考慮する必要があります。当社のデータプロジェクトのほとんどは、社内管理シナリオのニーズに対応しています。

また、公式サイトで公開されているレポート、運用データ、テクニカル指標などの参考データも、流通するデータ資産(商品化)の形成に考慮する必要があります。

データが社内で利用されるか、社外で共有されるかに関わらず、その価値を評価する必要があります。そのためには、データリネージと同様の技術を用いて、データ資産をオンラインで登録する必要があります。

データの価値を測定して資産に変えることで、一方ではデータの共有および取引プロセスにおける価格設定が容易になり、他方では、非常に重要な点として、データ資産の定量化可能な価値に基づいてデータ セキュリティ保護レベルを確立することができます。

従来のデータセキュリティ保護レベルの評価は、多くの場合、関連する規制要件とビジネス経験のみに依存しており、特定のアプリケーションシナリオにおける評価基準が欠如しています。その結果、評価はアプリケーションシナリオやデータの真のビジネス価値から切り離されてしまいます。

データ系統は、データの実際の適用に基づいた評価方法を提供します。つまり、ユーザー(需要者)の数が多いほど、使用量が多いほど、価値が大きいほど、データの更新頻度が高いほど、データセキュリティ保護のレベルを高くする必要があります。

結論として、データを資産に変えるには、「データバリューチェーン」を軸とした一連のシステムとテクノロジーを考案し、その価値を定量化・測定することが不可欠です。データリネージは、生データとデータリソースからデータ製品やデータ資産に至るまでのプロセスを明らかにする重要なテクノロジーです。

価値4: データの悪用に対する「道徳的」なロックを追加する

近年、ビッグデータは人々の生活をますます便利にしてきましたが、一方で、ビッグデータに基づく価格差別、顔認識技術の悪用、過剰な権限要求といった問題が公共の正当な利益を損ない、人々はこれらの問題に直面し、大きな苦しみを味わいながらも、無力感を抱き続けています。

データ不正利用の主な原因の一つは、スーパープラットフォームが大量のデータを保有し、その生産、収集、流通、利用の過程においてデータの所有権が不明確になっていることである。

これらの課題に対処するため、当社はアクセス制御と分離の実装、マルチテナントアクセス分離対策の適用、データセキュリティの分類と等級付け、ラベルベースの強制アクセス制御のサポート、ACLベースのデータアクセス認可モデルの提供、データビューへのアクセス制御の提供など、数多くのセキュリティ対策を段階的に強化してきました。また、データの匿名化および暗号化機能、統合鍵管理およびアクセス認証サービス、データアクセス監査ログなども提供しています。

データ系統分析は、データ不正利用を解決するための重要な手段であることは注目に値します。データ系統をトレースすることで、データのソース、所有者、フローを特定できます。

これにより、収集、保管、利用、送信、共有、公開、破棄といったデータのライフサイクルに基づいた具体的な情報を提供し、的を絞った管理措置が可能になります。特に、データ作成者、利用者、データマイニング事業者の権利と利益に配慮することで、所有権の確立後のデータの不正利用を防止することができます。

データリネージは、監査、リスク管理の改善、そしてデータの保管と処理がデータガバナンスのポリシーと規制に準拠していることを保証するためのコンプライアンスメカニズムを間接的に提供します。例えば、GDPRはEUおよびEEAの人々の個人データを保護するために2016年に制定され、個人が自身のデータに対するより強力なコントロールを可能にしました。

米国では、カリフォルニア州など一部の州で、カリフォルニア州消費者プライバシー法(CCPA)などの政策が制定されており、企業は消費者のデータ収集について消費者に通知することが義務付けられています。こうした法律では、データの保管とセキュリティが最優先事項となっています。データリネージ分析テクノロジーや関連ツールがなければ、組織にとってコンプライアンス違反を特定することは時間とコストのかかるプロセスとなります。

データリネージは、洗練されたデータ管理の時代において強力なツールです。企業がこれを有効活用できれば、データ資産の分野で大きな可能性を秘めていることは間違いありません。