Haozao

詐欺に遭わないためのガイド!データ操作の9つの手口

データ分析を行う際には、分析対象となるデータを用意することが重要ですが、そのデータの信頼性と有効性をどのように確保すればよいのでしょうか?この記事では、データ不正を防ぐための9つの方法をまとめ、皆様の参考になれば幸いです。

データ分析にはデータが必要です。もしデータが不正確だったらどうでしょう?データが人為的に歪められていたら?人為的に歪められたデータを受け入れるよう求められたら?今日はこのトピックについてお話しします。

以下に、最も一般的な9つの方法をご紹介します。ぜひ覚えておいてください。これらは、年度末のまとめ、年間計画、活動評価などで目にすることになるでしょう。事前に知っておくことで、適切な準備が可能になります。

ランク1: データの改ざん

ビジネスパートナーが故意にデータを改ざん、虚偽の報告、または省略することで、基本的なデータが欠落し、エラーが頻繁に発生します。これは紙ベースのフォームの時代にはよく見られました。しかし、データシステムの普及に伴い、この問題はますます少なくなっています。

ユーザー登録フォームやアンケートなど、紙のフォームを使用するシナリオが依然として存在する場合、この問題は解消されません。解決策は簡単です。WeChatウォレットを使えばいいのです!一体、一体どんな時代なのでしょうか?会員登録にまだ紙のフォームへの記入が必要なのでしょうか?

レベル2: 手動で数字を変更する

参照:

システムは無生物ですが、人間は動的な存在です。唯一の解決策は、業績評価を強化し、規則違反者を厳しく処罰することです。これらの業務は明確なパターンを示し、特定の個人の行動と密接に関連しているため、分析によって特定することが可能です。

レベル3: 口径を変更する

データが適切でない場合はどうすればいいでしょうか?統計手法を変えるだけでいいのです!データメトリクスは基本的に計算の容易さを重視して設計されており、ビジネスユーザーは自由に変更できます。しかし、手法の変更によって生じる不整合は大きな問題となります。

指標名を変更せずに統計対象範囲のみを変更すると、一般の人々に誤解を与えるという深刻な問題が生じます。したがって、対象範囲の変更は許容されますが、過去のデータ報告書はすべて新しい基準を反映して更新する必要があります。

レベル4: リズムをコントロールする

参照:

ランク2ではデータ操作が企業を欺くために用いられ、その悪質性は甚だしいものですが、ランク4ではデータ操作は行われません。その代わりに、販売、業務、報酬ルールを悪用して個人的な利益を最大化することが目的です。

実際、誰もが同じことをするでしょう。それは業界の暗黙のルールです。「水が澄み過ぎれば魚はいない」とよく言いますが、これはつまり、自分のことばかり考えないでいられる人などいないということです。あまりに厳しく管理すれば、現場のスタッフは必ず辞めてしまいます。

データアナリストとして、これらの具体的な問題を特定し、許容範囲内に収める能力が必要です。問題が広範囲に及ぶ場合は、組織的な最適化と調整をどのように推進するかを検討する必要があります(下図参照)。

この質問から中級レベルの難易度へと移行することに注意してください。以降の質問では、データアナリストに求められる分析スキルがますます高度化していくからです。例えば、正当な暗黙のルールと悪意のあるデータ操作を区別するには、ある程度の分析経験が必要です。

ランク5: リズムを乱す

データ分析を行う際に、おそらく次のような質問をよく耳にしたことがあるでしょう。

  • 「最近、活動率が下がっていませんか?原因を分析してみましょう。」
  • 「最近の販売実績が芳しくありません。原因を分析していただけますか?」
  • 当社の製品はなぜこんなに悪いのでしょうか?

しかし、大量のデータを丹念に分析した結果、「何も問題ないですよね?」と気づきました。おめでとうございます。あなたは完全に作り話に騙されてしまったのです。営業チームが言及した「衰退」「悪い」「不満」といった数字は、おそらく嘘でしょう!

ビジネス関係者はデータの解釈を意図せず歪めてしまう可能性があるので注意が必要です。多くのデータ分析初心者はすぐにこの罠に陥ってしまいます。分析を行う際、「これは本当か?」という問いから始めるのではなく、「なぜ?」という問いにすぐに飛びついてしまう初心者が多いのです。ユーザーグループ、登録時期、製品タイプなどに基づいてデータを細分化してしまい、結局何も得られません。数日後、分析に戻ると、問題は解決しているということがよくあります。

このような問題に対処するときは、次の点に留意してください。

「大きさ、量、高さ、速度、品質」などの用語に出会ったら、まず基準について尋ねてみましょう。

特定の質問を聞いたときは、まずその質問についてどうやって知ったのかを尋ねます。

人々がデータについて議論しているのを聞くと、まず最初に尋ねるべきはデータの出所です。しかし、難しいのは、この3つの「最初の質問」が人間の本能に反している点にあります。人々は伝聞を通して物事を考えることに慣れているため、一見単純なこれらの質問も、習得するには広範囲に及ぶ、繰り返しの、集中的な訓練が必要です。そうでなければ、細部に囚われてしまうことがよくあります。

レベル6:満足度

ここで言う「満足度」とは、事業部門が頻繁に言及するものの、システムに直接記録することが難しい指標を指します。類似の指標としては、顧客満足度、ブランド影響力、製品力、業界での地位、NPSなどが挙げられます。直接記録できないことで、多くの問題が発生します。

レベル7: 自然成長率

最後に、データを操作したい場合は、「自然成長率」のデータを変更し続けてください。それでもうまくいかない場合は、負の値に変更することもできます(下の画像を参照)。

これに対処する最善の方法は、無視することです。実際の参加率は簡単に計算できます。自然増加率を設定する場合は、後々の面倒を避けるために事前に合意しておくことができます。

ランク8: リファレンスグループ

基準グループと自然成長率は表裏一体であり、どちらも「科学的評価」を受けたかのように簡単に提示されますが、実際には、企業が納得するまで恣意的に変更・修正されています。

ビジネス側が反論したい場合、設定した参照グループは非科学的であり、サンプルはすべて特殊なケースであり、十分にランダムではなく、代表的ではないと主張し続けるでしょう。

実際、完全な統計分析でない限り、それは常に「非科学的、ランダムではない、代表的ではない」と分類される可能性があります (完全な統計分析を行うと、彼らは「自然な増加は除外されていない」と言うでしょう、ララララ、彼らには必ず理由があります)。

最善のアプローチは、何も反応しないことです。グループ化の方法が事前に明確に定義されている限り、結果がどうであれ受け入れましょう。議論しても意味がありません。参照グループは、特定のチャネルにターゲットを絞ったプッシュ通知を送信する場合にのみ使用してください。

参照グループの設定は、A/Bテストにおけるテスト方法の一つに過ぎません。A/Bテスト自体は単なるテストツールの一つに過ぎず、権威あるルールではありません。事業部門はA/Bテストなしでは何も判断できないのでしょうか?あなたのビジネスコンピテンシーはどこにあるのですか?あなたは何の役にも立たないのですか?ああ、やっと反撃できる!

ランク9:総合評価

問題を評価する際には、単一の指標が最も明確な全体像を示します。しかし、人々は「包括的な思考」を持っているように見せるために、複合的な指標を用いることを好む傾向があります。

指標が多すぎると、重み付けの設計は避けられません。そして、ここで卑劣な策略が生まれます。評価結果に不満を持つ人が「この重み付けは不合理だ、実際のビジネス状況を反映していない」と旗を振り上げ、変更を強要するのです。

当然のことながら、最終結果は彼らを納得させ、洞察力があり合理的であるとみなさなければなりません。そうでなければ、彼らは些細なことにこだわり続けるでしょう。私がこれまで目にした最もとんでもない例は、ある経営幹部が支店のランキングを手書きで書き、その後私にこう言うことです。「ビッグデータとAIの手法を用いて、様々な指標から総合的にこのランキングを計算しました。完璧です。来年も契約を締結します…」

ここまで来て、一体何が言えるというんだ?もちろん、「わかった。契約書に署名するのが最優先だ。科学的な厳密さは他人事だ。ただ重量を変えただけだ。大学院でやったことがないみたいな真似はするなよ」って。

解決策: 各指標を個別にスコア化し、複数の指標に重み付けしてリーダーに決定させ、ビジネスの解釈可能性が低いニューラル ネットワーク方式を放棄し、ビジネスで意見の相違がある場合は、論争の後でデータに決定方法を伝えます。

上記の3つは、データ操作における高度な手法です。自然成長率、参照グループ、そして包括的評価はデータ分析において一般的なトピックであるため、高度とみなされています。データ操作の難しさを経験したことのない多くの新人データ分析者は、操作が複雑であればあるほど高度な分析ができると考え、これらの手法をいじくり回すのが大好きです。

結果として、分析が複雑になるほどビジネスへの影響を説明することが難しくなり、ビジネスステークホルダーから様々な疑問が生じます。最終的には、「ビジネスに有利な結果は客観的かつ包括的であり、ビジネスに不利な結果は詳細な分析が不足している」という誤った結論に陥り、自滅してしまうという分析になってしまうのです。まとめると、部門によって手法が異なることがわかります。

営業、マーケティング、サプライチェーン部門は、それぞれの業務の直接的な成果物であるため、データ操作の標的になりやすい。一方、オペレーション、プランニング、製品部門は、定量化が難しい指標を作成し、「広範囲にわたる影響」について語り、「自然成長率」や「参照グループユーザー」を多数設定してから除外することで、データに基づく判断を操作しようとする。

なぜ営業、マーケティング、サプライチェーンの各チームは、このようなフラストレーションのたまるプロセスに取り組まないのでしょうか?それは、売上の回収、マーケティング担当者の採用、倉庫への出荷といった、着実な課題に取り組んでいるからです。誰の収益も明確に透明性が保たれているため、争いの余地はありません。しかし、オペレーション、プランニング、製品といったチームがプロジェクトに共同で取り組む場合、彼らは常に自分の貢献を強調しようとします。

そして、終わりのない議論が始まった。「オーガニックグロースを除けば、キャンペーンはどれだけの利益をもたらしたのか?」「オーガニックグロースとキャンペーン主導の成長を除けば、製品の再設計はどれだけの利益をもたらしたのか?」「オーガニックグロース、キャンペーン主導の成長、製品の再設計を除けば、コピーライティングはどれだけの利益をもたらしたのか?」…もし2つの害を比較するなら、データソースの改ざんによる害の方が間違いなく大きいだろう。

データが偽造されている場合、分析は無意味です。データソースの改ざんは、企業経営の混乱とチャネル管理の弱さを示しています。興味深いことに、本社の各機能部門はこの弱点を深く認識しており、この問題に関しては、本社部門は外部からの圧力に対抗するために団結することがよくあります。しかし、データの判断となると、それはしばしばトップダウン型の混沌とし​​たプロセスとなります。

本社のオペレーション部門、製品部門、企画部門が、自らの利益のために恣意的に基準を変更することは、真のデータドリブン・オペレーションの実現にとって極めて有害です。事実を直視せず、データを用いて状況をごまかすことは、最終的に事業部門の判断力を低下させ、推測に基づく意思決定と責任放棄という原始的な状態へと逆戻りすることにつながります。これは決して望ましいことではありません。

理想的には、データソースは信頼性が高く豊富で、データ判断は簡潔かつ明確で、データ分析は詳細かつ包括的である必要があります。原因の発見、予測、結果の検証に重点を置くことで、より良い成果が得られます。