Haozao

助けてください!データ分析レポートの推奨事項セクションはどのように記述すればよいですか?

データを価値ある提案へと変換することは、多くのデータアナリストがデータ分析レポートを作成する際に直面する課題です。この記事では、具体的な出席率問題のシナリオを通して、問題への着手方法、仮説検定、ロジックツリーの構築、そしてデータによる裏付けを用いて、最終的に根拠のある結論と提案を導き出す方法を詳しく説明します。

数字だけを教えないでください!

実現可能な提案をする必要があります!

多くのデータプロフェッショナルは、上司や同僚からこう言われたことがあるでしょう。しかし、具体的にどうすればそれが実現できるのでしょうか?今日は、チェン教授が用意した典型的な練習問題を皆さんにご紹介します。

問題のシナリオ: ある会社で、同僚の出勤表が以下のように表示されます。

学生はこう言いました。「残業してたんだから、遅刻するのは当たり前!」「みんな遅刻してるのよ、どうして私だけ遅れるの?」「急に雨が降ってきたんだから、仕方ないでしょ!」「予想外のことばかりだよ!」

上司「問題は君の態度にあると思うよ!他のことは言わないで!」

二人は激しく言い争っている!この状況をどう分析すべきだろうか?

I. 現実的ではない提案

このように書いた人はいますか?

  • 今月は勤務日数が 22 日で、そのうち 11 日が遅刻しており、遅刻率は 50% でした。
  • 2 週目は遅刻が最も多く、合計 4 日遅れ、遅刻率は 80% になりました。
  • 遅刻が最も少なかった週は 3 週目で、遅刻日数は合計 1 日、遅刻率は 20% でした。
  • 遅延日数が多すぎる場合は、その数を減らすことをお勧めします。
  • 月曜日に頻繁に遅刻するのはお勧めできません。月曜日に遅刻するのは避けた方が良いでしょう。

職場でよくある報告に似ているでしょうか?明らかに、このような報告は受け入れられません!ただグラフを読み返しているだけで、真の懸念事項には触れられていません。「閾値を下げる」という言葉は、単なる空論です。

議論の渦中にある中、ビジネスの核心となる問題は、「これは真に正当な、許容できる、予期せぬ事態なのか、それとも態度の問題なのか」という点です。この問題に真正面から取り組むことによってのみ、満足のいく答えが得られます。現状のデータは明らかに不十分です。まず仮説検証へのアプローチを概説し、その後、データを補足することで、この問いに包括的に答える必要があります。

II. 問題解決へのアプローチ

仮説を立て、証拠を見つけ、その妥当性を検証し、結論を導き出すことは、問題解決の基本的な流れです。データを用いてビジネス上の問題を分析する際には、常に大まかな範囲から具体的な範囲へと段階的に検証していくプロセスが必要です。

例えば、「家は職場から遠いので、よく遅刻します」というシンプルな発言から、「家と職場の距離は本当にそんなに遠いのだろうか?」という仮説が導き出されます。この仮説を検証するために複雑なデータは必要ありません。Gaode Mapsのような地図アプリに出発地/目的地を入力するだけで、次のような情報が表示されます。

  • どれくらい離れて
  • 地下鉄に乗るとどれくらい時間がかかりますか?
  • バスに乗るといくらかかりますか?また、どのくらい時間がかかりますか?

いくつかの単純な分析的結論は自明です (下の図を参照)。

データを使って問題を解決するのは非常に簡単です。議論する必要はなく、事実をそのまま語らせればよいのです。

もちろん、仮定が多数ある場合、検証には特定の順序があります。例えば、まず「許容できる」仮定を明確に列挙することができます。例えば、

仮定1:前日に残業する

仮定2:その日は全員が遅刻していた

仮定3: その日は極めて厳しい天候となるでしょう。

仮説をリストアップしたら、それぞれの仮説を裏付ける証拠を一つずつ見つけていきましょう。例えば…

前提1:前日に残業があった → 前日の開始・終了時刻を確認し、残業が必要かどうかを確認します。

仮定 2: 現在、全員が遅刻している → その日の全員の出勤記録を確認し、遅刻率を確認します。

想定3:当日は異常気象になる →当日に大雨・大雪の情報があるか確認する。

データによる証拠がない場合、それはその仮定が捏造されたことを意味し、直接反証することができます。しかし、実際の状況が真実であることが判明した場合、例えば、誰かが本当に多くの残業をしており、欠落したデータが「理解できる」場合、「確かに残業が多すぎた。注意を促すべきだ」という結論を導き出すことができ、その人の名誉を回復することができます。

III. シンプルから詳細へ

いくつかの仮説を検証するだけでは、問題を完全に説明できない場合があります。例えば、前日の残業は、個人の能力不足や怠けが原因である可能性もあれば、全体的な作業負荷の過多が原因である可能性もあります。そこで、仮説をさらに絞り込むことができます。

仮定 1.1: すべての部門で作業負荷が大きい。

仮定 1.2: 部門全体の作業負荷は十分ではありませんが、個人が負担している作業負荷が大きすぎます。

仮定 1.3: 個人は責任をほとんど負わず、能力が不足しており、仕事が遅い。

3つのサブ仮説をさらに検証することで、分析は粗いものから細かいものへと徐々に深化していきます。最終的には、完全な解答戦略が確立されます。この時点で、生徒は解答を調整してから、説明に進むことができます。

IV. 全体的なアプローチ

複数の分析仮説を特定の順序で組み合わせることで、下図のような分析ロジックツリーが得られます。ご覧のとおり、この分析ロジックツリーは「残業が影響しているかどうか」という問いから始まり、集団残業や過剰な業務量配分といった客観的な影響要因の排除を優先しています。この順序により、従業員が不当に非難されることを効果的に防ぐことができます(下図参照)。

ロジック ツリーを設定したら、関連するデータを代入して重要なポイントを見つけ、正しい情報と誤った情報を区別するだけです。

例えば、同僚が11回遅刻し、そのうち8回は仕事量が多すぎて同僚よりも大幅に多かったことが原因だったと判明した場合、その同僚は誤って非難されていたことが確定します。しかし、11人の遅刻者のうち実際に残業していたのは2人だけで、残りの9人は残業しておらず、タクシーも利用していなかったことが判明した場合、その同僚の態度には本当に問題がある可能性があることを示唆します。

データは、真実に近い答えを見つけるためのガイドとなります。

上記の基礎が築かれると、導出と提案を論理的かつ非常に具体的に提示できるようになります (下の画像を参照)。

V. 実社会への復帰

もちろん、上記は単なる単純な例ですが、現実の問題をはっきりと反映しています。

事業部門は、自分たちの視点で物事を考えることが多く、「これは経済環境全体が原因となっている問題だ」「これは予期せぬ問題だ」「すでに最善を尽くした」などと言いたがります。

データ部門は、仮説を立てたり、その仮説を裏付ける証拠を見つけたり、仮定を洗練させたりすることなく、前年比や前月比の計算に重点を置きすぎて、数字のゲームに夢中になりがちです。

これらのアプローチはすべて、正しい結論と推奨事項に到達するのに有害です。