Haozao

データ操作 | データ活用の第一歩 - データの検索

この記事では、データ運用について深く掘り下げ、データ利用プロセスにおける「データの検索」の重要性を強調しています。著者は、データマップ、データカタログ、データアセットプラットフォームといったツールについて詳細に解説します。これらのツールは、データプラットフォームから前処理済みのデータを提示し、データを必要とするユーザーが簡単に見つけて利用できるようにすることを目指しています。

データを利用するすべての人にとって、データの検索は最初のステップです。データが見つからなければ、どうやって活用できるでしょうか?データマップ、データカタログ、そしてデータアセットプラットフォームはすべて、処理済みのデータをプラットフォーム上で公開し、データを必要とする人々がデータ活用の最初のステップである「データ検索」を完了できるようにするという、一つの目標を目指しています。

ここで説明するデータマップとメタデータは、データ管理のセクションで説明したメタデータ、具体的には「ここで説明する内容」のセクションで説明したメタデータと基本的に同じです。ただし、提示形式はより柔軟にすることができます。つまり、一方は研究開発向け、もう一方はビジネスアプリケーション向けです。

メタデータ セクションでは、通常、インターフェースは、属するデータ ソースに応じてツリー構造で表示されます。

データ マップには通常、検索ボックスのあるホームページがあり、検索リストの詳細ページにはさまざまなタブがあります。

表紙

ホームページの主な特徴は検索機能です。ユーザーが検索したい内容を入力すると、システムはあいまい一致の検索結果のリストを表示します。これらのリストはすべて表形式のコンテンツです。

拡張版では、データアセットサービスAPI、レポート、ダッシュボード、さらには記事まで検索できます。詳細については、アセット検索のセクションで説明します。

詳細ページ

検索が完了したら、特定のフィールドをクリックすると検索の詳細が表示されます。

詳細ページには、基本的にテーブルのさまざまなディメンションが記載されており、使用が進むにつれてこれらのディメンションがより明確になります。一般的に追加されるディメンションには、基本情報、フィールド、データプレビュー、パーティション情報、データ監査、データリネージ、更新情報、処理タスク、評価などがあります。

基本情報

基本情報には、テーブルの英語名、中国語名、テーブルの説明、作成時間、責任者などの基本情報が含まれます。

そして、このメタデータはどのデータウェアハウスレイヤーとどのビジネスドメインに属しているかを示します。この情報は、「データ管理」の章のセクション2「テーブルレベルの計画」で設定されています。

フィールド

テーブルのフィールド、そのタイプ、および説明はリスト形式で表示されます。フィールドの説明の豊富さと網羅性は、データの網羅性において重要な要素です。

データプレビュー

データクエリを要求する代わりに、データプレビュー機能を提供することで、ユーザーはテーブル内のデータがどのように見えるかを確認でき、データ利用者により直感的なユーザーエクスペリエンスを提供できます。

ここで問題となるのは、データを直接クエリする場合、クエリ時に使用するリソースを選択する必要があることです。データを事前に保存する場合は、保存するデータ量、使用するストレージ、そして更新するかどうかについて計画を立てる必要があります。

パーティション情報

Hive などのビッグ データ ストレージやパーティション テーブルの場合、パーティション フィールド、最新のパーティション、各パーティションがデータで更新された日時などのパーティション情報をリストする必要があります。

データ監査

この情報は、データ探索プロセスに近いもので、特定のフィールドの特性を事前に要約したもので、ユーザーが手動でSQLを記述する必要がありません。これには、フィールドの最大値、最小値、平均値、列挙値の数と各値の数(列挙フィールドの場合)、数値フィールドの分布などが含まれます。

この情報は計算結果を表形式で表すため、計算の範囲、いつ実行するか、どのようなリソースを使用するかといった疑問が生じます。これらの側面を明確にすることでのみ、この機能をより効果的に実装することができます。

データ系統

データリネージは、タスクガバナンスセクションにおけるエンドツーエンドのタスクリネージチェーンの簡略版と捉えることができます。ここでは、テーブル間の上流と下流の関係のみが示されています。ユーザーは影響分析とデータトレースに使用されます。表示形式はグラフィカルのままです。

更新情報

各テーブルは、フィールドの追加、フィールド タイプの変更、フィールドの削除など、更新する必要があります。このシステムは、テーブルに対するすべての変更を記録できます。

処理タスク

対応する処理タスクがインターフェイスに表示され、どのタスクがこのテーブルを生成したかが直感的にわかります。

評価する

評価関数はより柔軟です。データの人気度やデータの信頼性といった公式な評価も可能で、OLAPデータメトリクスの使用においては、この信頼性について言及することができます。統一されたメトリクスであれば、一貫性が保たれ、既に使用されていることを示す公式ラベルを付与する必要があります。

また、ユーザー主導でテーブルにフィードバックを提供することも可能です。例えば、追加すべきフィールドやデータの正確性などです。これにより、情報収集とフィードバックのためのチャネルが確立されます。

生成されたデータサービス

テーブルに基づいて生成されたデータサービスAPIの場合は、対応するAPIを直接表示します。SQLベースの場合は、このテーブルがどのデータサービスAPIロジックに属しているかも表示します。