Haozao

因果推論の 4 つのモデルは確かに機能します。

データ分析における多くの課題の中でも、因果推論は常に複雑で微妙な問題です。膨大なデータから、結果に影響を与える主要な要因を正確に特定するにはどうすればよいでしょうか?この記事では、役立つと思われる4つの方法をご紹介します。

因果関係を推測することは、データ分析の分野で最も難しい問題の一つと言えるでしょう。長年の議論にも関わらず、決定的な結論は出ていません。

学生からよく「この問題の原因は何ですか?」と聞かれますが、誰にとっても分析するのは非常に難しいので、今日は体系的に説明します。

I. 分解方法

因果関係を見つけるために最も一般的に使用される方法は分解法です。

結果指標を複数の観点から分析し、それに影響を与える理由を見つけます。

例えば、昨日は4つのプロモーションチャネルがあり、合計100人の顧客を獲得しました。今日は80人しか獲得できませんでした。なぜ顧客獲得数が減少したのでしょうか?

分解方法(上図参照):

1. 顧客獲得総数を 4 つのチャネルに分割すると、チャネル A の顧客獲得数が最も少ないことがわかりました。

結論 1: チャネル A の数が少ないため、獲得した顧客の総数は少なくなります。

2. チャネル A からの顧客獲得を、ディスプレイ ページ、ランディング ページ、コンバージョンの 3 つのステップに分解すると、コンバージョン ステージが欠落していることがわかりました。

結論としては、チャネル A のコンバージョン プロセスに欠陥があったため、獲得した顧客の総数が少なくなったということです。

3. まとめ:問題はチャネルAのコンバージョンプロセスにあり、これが顧客獲得率が低い原因です。これは完璧な答えのように思えます。原因が判明したのです!

しかし、この答えは、ビジネス部門からの別の質問に耐えられません。「では、なぜ A のコンバージョン率が低いのですか?」

コピーも変更していません。

割り当てられた資金も削減されていません。

たった1日の違いなのに、なぜこんなに大きな差があるのでしょうか?

なぜ A だけが悪化し、他は同じままだったのでしょうか?

彼らはどれにも答えることができませんでした...

いわゆる分解法は、本質的には詳細な分析を通じて問題の発生箇所を特定するだけです。根本原因を見つけることはできません。そのため、問題を説明するよりも、問題を発見するためによく用いられます(下の図を参照)。

II. 相関係数法

統計学には相関分析の手法が含まれています。また、かなり複雑に見える式もあります(下の図を参照)。

多くの学生がそれを見てすぐに興奮しました!

そこで、2つの指標を入力して相関係数を計算し、GPTとチャットしてみました。

  • 相関係数 0.99 は大きいと考えられますか?
  • 相関係数0.9は大きいと考えられますか?
  • 相関係数0.8は大きいと考えられますか?
  • 相関係数0.7は大きいと考えられますか?

相関係数が十分に大きい場合は、相関があるとみなされます。

今回は複雑な数式で裏付けられているので、かなり科学的ですよね?でも、こうやってみると、統計学の定番「龍脈」ミームに陥りやすいんですよね。

  1. 中国のGDPは年々上昇している。
  2. 私の家の前にある木は毎年大きくなっています。
  3. 2 つのデータセットを代入すると、相関係数は 0.99 と計算されます。
  4. だから、私の家の前にある木は中国の龍脈なんです!

相関分析、回帰分析、クラスター分析は、本質的には「分析」ではなく、計算です。

計算によって、2列以上の数値の関係が決定されます。この関係が実際に意味を持つかどうかは、計算式自体の責任ではありません。

そのため、これらの手法を現実世界のシナリオに適用すると、しばしば奇妙な結果が生じます。すべての統計手法は、データ自体内の関係性しか説明できず、現実世界の関係性を説明することができないという、同様の問題を抱えています。

より根本的には、すべてのビジネス活動と外部要因を定量化できるでしょうか?

全くない。

たとえば、ブランドに対する消費者の信頼、製品体験の質、コピーライティングの感覚などは、安定した信頼性の高い指標として定量化することが困難です。

したがって、統計的手法を使用して指標を大規模にスクリーニングおよびフィルタリングすることはできますが、真の原因と結果を推測することは困難です。

III. トレンド分析方法

複雑な方法は機能しないので、より簡単な方法はありますか?

持っている!

例えば、最も基本的な意味から考えると、「AはBを引き起こす可能性があるので、AがBを生み出すならば、Bも生み出されるはずである。Aが終われば、Bもいずれ終わる(あるいはBは死ぬ)」ということになります。人々はこのことから因果推論の4つの原則をまとめました。

4つの原則:

  1. 結果より先に原因が発生しました。
  2. 原因が発生したら結果が発生します。
  3. 原因継続期間中、結果継続
  4. 原因が消えれば結果も消える。

こうした推論は、人間の直感的な論理と一致しています。さらに重要なのは、必要なデータが非常に少ないことです。チャートを解釈するには、指標のトレンドを1つ見るだけで十分です。そのため、非常に有用です。

しかし、このアプローチには大きな問題があります。干渉要因を排除できず、最も影響力のある要因のみを観察できるのです。また、より深く根底にある要因を明らかにすることもできません。

例えば、外的要因を観察する場合、天候や交通規制といった明白な要因しか観察できません。内的要因を観察する場合、価格の低下といった要因しか観察できません。その他の軽微な要因は、単純に観察不可能です。

そのため、この方法は、不当な言い訳を排除するための消去法としてよく使われます。

例えば、「悪天候はパフォーマンスの低下につながるとおっしゃいますが、なぜ悪天候でもパフォーマンスが良い人がいるのでしょうか?」では、実際にパフォーマンスを左右する要因は何でしょうか?それは分かりません。他の手法を用いて分析する必要があります。

IV. 制御変数法

交絡因子を排除する最良の方法は、グループ分けして試験することです。サンプルを密閉箱に入れ、グループごとに効果を試験します。

たとえば、異なるコピーライティングに対するユーザーの反応率をテストしたい場合、理論的には同じ製品、価格、コンバージョンの配置を使用し、同じ人々のグループ、同じチャネルを選択してから、テストを開始できます。

しかし、テスト方法にも問題があります。

  • 混合要素を完全に排除して、まったく同じ 2 つの人々のグループを見つけるのは困難です。
  • 対象ユーザーのタイプをすべて網羅的に特定することは困難であるため、繰り返しテストを実施した結果は同じグループの人々の意見のみを反映する可能性があります。
  • 特に、主要なプロモーションや新製品などのホットなトピックをテストする場合は、テスト環境を完全に分離することが困難です。
  • 価格差別や消費者欺瞞に該当する可能性があるため、合法かつ法令遵守を遵守しつつ、完全に差別化された計画を実施することは困難です。独占禁止法と国家工商行政管理総局の規制を軽視してはなりません。
  • 消費者は常に利益を追求するため、テストの障壁を回避する方法を見つけ、最終的に最大の割引があるオプションを選択します。

その結果、このタイプのテストは、即時のフィードバック、クローズドな情報チャネル、パーソナライズされたプッシュ通知を備えたシナリオに適しています。

はい、配車アプリやショートビデオアプリのシナリオと似ています。例えば、eコマースプラットフォームがビッグデータを使ってロイヤルカスタマーを差別化する場合のように、フィードバックの速度が少し遅いと、消費者が複数の電話番号でログインして価格を比較すると、簡単に検知されてしまいます。結局、安い方を買うことになるのです…。

V. 一般的な方法が機能しないのはなぜですか?

まとめると、因果推論の分野では、多くの古典的な統計的・科学的実験的手法を含め、完全に信頼できる手法はほとんど存在しないことがわかります。なぜでしょうか?

なぜなら、経営管理は根本的に自然科学の問題ではなく、社会科学の問題だからです。自然科学は物理学、化学、数学といった基本原理によって支えられています。これらの原理は安定しており、科学的で定量化可能なため、データ分析や科学実験を通して、根底にある自然法則を徐々に発見することができます。一方、社会科学の問題は全く異なります。社会科学の問題は、複数の要因の影響を受け、容易に操作・変更され、感情や衝動に左右されます。そのため、自然科学の手法を社会科学の問題解決に直接適用することは困難です。

さらに、企業で働く人々はそれぞれ異なる立場、態度、動機を持っています。「一体何がこの問題の原因だったのか?」「一体何がこの成果につながったのか?」と自問自答する時、彼らの潜在意識は「自分の功績だから、少しは報われなければならない。責任は他人にある。何としても責任転嫁する」と考えているのです。そのため、たとえ確実な方法があっても、人々はそれを積極的に活用しようとはしないかもしれませんし、結論が出ても、それを避けるための言い訳を見つけてしまうのです。

したがって、因果推論を行う際には、問題の状況を慎重に区別することが重要です。

つまり、問題を解決するための鍵は、特定のビジネスコンテキストを理解し、それぞれの問題を個別に分析することにあります。