Haozao

成功するデータ分析プロジェクトを分析するための5つのステップ

データ分析の分野において、優れたデータ分析プロジェクトをどのように設計し、実行するかは、多くの専門家にとっての懸念事項です。この記事では、5つの具体的なテスト問題を用いて、読者が優れたデータ分析プロジェクトを完了する能力を評価し、重要な考え方と手法を紹介します。

私たちの知識共有コミュニティでは、多くの学生から「優れたデータ分析プロジェクトを作成するにはどうすればいいですか?そうでなければ、履歴書や年末のサマリーの書き方がわかりません」という質問を受けます。これまで詳細な回答とフォローアップを提供してきましたが、今日は皆さんから寄せられたよくある質問をまとめて共有したいと思います。

データ分析プロジェクトで成功するには、正しいマインドセットを養うことが重要です。成功プロジェクトを成功させる可能性を評価するための5つのテスト問題をご紹介します。問1(単一選択式)

データ分析プロジェクトの品質を評価するための指標は次のとおりです。

A. 時間、コスト、品質

B. アルゴリズムの難易度、統計的知識、数式

これは最も重要な概念であり、データアナリストが現在の会社でうまくパフォーマンスを発揮できるかどうかを直接左右します。データ分析業務には、以下のような独自の特徴があります。

★ 販売と異なり、会社に直接収益をもたらすことはできません。

★ オペレーションとは異なり、アクティブユーザーの維持率や有料指標を直接高めることはできません。

★ 業務運営に必須のサポートとなるトランザクション・Webサイト・ERPシステムの開発とは異なります。

★ DBAとは異なります。DBAがいない企業はありませんが、専任のアナリストがいない企業は数多くあります。

データ分析は本質的に、代替性の高いサポート職です。データ分析という概念が普及する前は、多くの企業がSQLを書けるプログラマーを雇ってこのポジションを補っていました。これはスコープと銃の関係に似ています。スコープがなくても撃つことはできますが、スコープがあればより正確に撃つことができます。

したがって、データ分析はアルゴリズム、統計、そしてデータによって支えられていますが、企業が重視するのはこれらの教科書的な章ではなく、自社のビジネスにどのように役立ち、どれほど役立つかです。企業内の他のプロジェクトと同様に、データ分析プロジェクトにおいて最も重要なのは、時間、コスト、そして品質を考慮することです。

こうした基本から離れて、「私の方法はこんなに複雑だから、私はこんなにすごい」といった空虚な主張ばかりを追求するなら、学問の世界に戻って研究した方が賢明です。研究には最先端の技術を追求することが求められますが、ビジネスの世界では、可能な限り低コストで最短時間で目標を達成することが優先されます。したがって、この質問の答えは間違いなくAです。

多くの新卒者、転職者、データ分析の初心者はオプション B を選択することを好みますが、B を選択するからといって将来がないわけではありません。

オプションBを選択した学生は、多くの時間を勉強に費やすことになり、必ずしも一つの企業で成功するとは限りません。しかし、転職時の面接対策に力を入れ、毎年転職することで給与アップを目指すことも可能です。しかし、一つの企業で大きな成果を上げたいのであれば、オプションAの方が適しています。

この質問は最も重要です。一度理解すれば、残りの部分は理解できるようになります。質問2(分類質問)

データ分析プロジェクトの品質に最も大きな発言権を持つのは、次の担当者です。

A. 事業部門リーダー

B. データ部門リーダー

C. 事業部門従業員

D. データ部門従業員(私)

問題を完全に理解すれば、この質問は驚くほど簡単です。答えはA≥B≥C≥Dです。経営陣の意見は従業員の意見よりも重視されます。事業部門のリーダーが承認すれば、データ部門のリーダーもすぐに同意します。事業部門のリーダーが沈黙を守るなら、データ部門のリーダーが承認するかどうかにかかっています。「素晴らしい仕事をしたと思う」という個人的な意見は意味がありません。このことを覚えておいてください。

事業部門のリーダーとデータ部門のリーダーの間で意見が異なる場合があることにご注意ください。そのような場合は、直属の上司の立場を優先し、外部部門の意見は後回しにしてください。多くの企業では、直属の上司が業績評価を決定するため、上司を不快にさせないようにする必要があります。問3(ランキング問題)

次の 5 つのプロジェクト成果物を品質の高い順にランク付けしてください。

A. 視覚化されたデータ製品

B. 月次データモデル出力

C. 部門レベル以上の会議用プレゼンテーションPPT

D. グループ報告なしのPPT

E. Excelデータテーブル

F. 固定形式のない数字

G. SQL クエリを記述してデータを実行した後、ビジネス チームに口頭で通知します。

この問題を完全に説明するには記事全体が必要になりますが、学生はより説明的なアプローチを使用して、直接答えにたどり着くことができます: A=B≥C≥D=E≥F≥≥G。

データ分析の結果は、まるで便器のように扱われがちです。使う時は素晴らしいのですが、その後は忘れられてしまいます。人々は、その雑然とした内容に不満を漏らします。「ほら、私が欲しかったのは数字だけなのに!どうしてそんなに時間をかけなきゃいけないの!」

したがって、データ分析プロジェクトに取り組む際には、誰もが必ず目にする、定期的に利用され、製品化された結果を提供することを目標とすべきです。理想的には、BIシステムの導入や、モデルを用いたユーザーフォローアップリストの最適化・ランク付けなど、誰もが利用しなくてはならないものにすることが挙げられます。

最悪の場合、PowerPointのプレゼンテーションを準備して会議で発表しようとするでしょう。最悪のシナリオは、大量のアドホックなリクエストを処理し、2000行ものSQLを書いても正式な出力が得られず、年末の業績報告書に何を書けばいいのか分からなくなってしまうことです。(問4 - 単一選択)

今日は11月11日の正午です。上司から退社前に、独身の日の売上がどれくらいになるか予測してほしいと頼まれました。どうしますか?

A. 戻ってすぐに時系列と XGBoost のモデリングを開始します。

B. 運営部門に戻ってプロモーション費用の使用状況を聞き、投資収益率を計算してから撮影します。

C. 今朝のデータを確認し、昨年の同時期に基づいて写真を撮ります。

この質問は非常に誤解を招きやすいです。特に前の質問を読んだ後では、多くの受験生は直感的にAを選ぶでしょう。この問題の鍵となるのは「予測」ではなく、「正午から終業時刻まで」です。

データ分析には、モデリング、ビジネスインテリジェンス(BI)、可視化などが含まれますが、いずれも時間がかかります。多くの場合、ビジネスニーズはすぐには解決できず、迅速な結果提供が求められます。このような状況では、最もシンプルかつ直接的な手法を優先し、データに基づくリスク評価と組み合わせる必要があります。

そのため、モデリング、統計、そして迅速かつ合理的なブレインストーミングの方法を学ぶ必要があります。多くの新人は、懸命にモデルをいくつも作成しても、上司から「一体何をやっているんだ、そんなに時間がかかっているのか」と一言で否定されてしまいます。これが原因です。この質問の答えはCです。10分以内に回答を出すのが最善です。上司から「この問題は非常に重要だ。より複雑で科学的な手法を用いる必要がある」と指示された後にのみ、AとBを検討してください。問5(多肢選択式)

データ分析のコストはいくらですか?

A. データベースコスト

B. コンピュータのコスト

C. ソフトウェア開発コスト

D. BI製品のコスト

E. データ取得品質

F. データクリーニング品質

G. プログラマーの勤務時間

この質問は非常に誤解を招きます。チェン教授が質問するまで、多くの人が「データ分析にはコストがかかるの?!」「『機械学習』『統計学』『21日間でPythonをマスター』といった本を読んだ人なら、キーボードで入力するだけでできるんじゃないの?」と考えていました。

A: データ分析には確かにコストがかかりますが、最も大きなコストはデータ品質です。良質なデータは良質な分析につながり、質の低いデータは質の低い分析につながります。特にデータ収集においては、業務プロセスに抜け穴が多々あったり、業務管理が標準化されていなかったり、導入前にデータ追跡が適切に行われていなかったりすると、基礎データが乱雑になり、分析が無意味なものになってしまいます。

ソフトウェアとコンピュータのコストについては、軽微です。データ品質は企業にとって根本的な問題です。したがって、この質問の答えはABCDEFGであり、並べ替えるとE≥F≥G≥A≥D≥B≥Cとなります。

ちょっと待ってください!多くの学生が「Gなのに、なぜこんなに上位にランクされているの?」と尋ねるでしょう。データアナリストの労働時間は非常に貴重だからです。

学校、論文、特許などで扱われる非常に複雑なモデルは、数え切れないほどの時間と労力を費やした成果です。一般企業のデータアナリストは、日々のデータ検索、レポート作成、Excelスプレッドシートの作成に追われ、既に疲弊しています。ハイテクモデルに取り組むどころか、パートナーを見つける時間さえないかもしれません。

したがって、勤務時間を考慮し、日々のニーズを優先順位付けし、生産的な成果を生み出すことに集中する必要があります。「これだけの数が必要だ」という突発的な依頼は、一旦保留にしておきましょう。

これら 5 つの質問に答え、問題解決のアプローチを把握すると、優れたデータ分析プロジェクトを作成するための道が明確になります。

優れたデータ分析プロジェクトを作成する方法:

1. ビジネス上の問題点をプロジェクト目標とする正式なプロジェクト開始。

2. 時間的制約とデータ品質を考慮して、適切な方法論を設計します。

3. 定期的に使用され、製品化された、全員が必ず見る必要のある重要な成果物を作成します。

4. ニーズを優先し、高品質な作業に時間を割り当てます。

5. 簡単な要件を処理するには迅速な分析方法を使用し、複雑な要件のためのエネルギーを節約します。

より良い教育効果を得るために、このセクションでは、最もよくある5つの間違いを取り上げます。優れたデータ分析プロジェクトを作成するための5つの重要なポイントを、誰もが覚えられるようにすることが目的です。