ゼロからわかる「差分の差分法」!正しい比較で施策効果を検証
データサイエンス課 ブログ担当です。
今回は、施策効果を「正しく比較・評価」することで、「正しいアクション」につなげるための分析方法のひとつである『差分の差分法(さぶんほう)』についてご紹介します。
この記事のモチベーション
- 施策の効果が「本当」にあったのかを検証したい
- 施策の効果が「どれくらい」あったのかを定量的に把握したい
当記事のモチベーションは上記2点であり、その手段として、因果推論の1手法である「差分の差分法」の概要と方法を解説します。
「差分の差分法(さぶんほう)」とは?
「差分の差分法」とは、社会学などの量的調査などで用いられる統計手法です。 施策の効果の因果関係を統計的に推理していく分析手法で、施策の成果を正しく評価する際などに活用されています。
2つの差分を比較しながら効果検証する当手法ですが、この説明だけではイメージが湧きにくいかと思いますので、下記「間違った比較の落とし穴」→「差分の差分法の実践方法」の流れで解説いたします。
間違った比較の落とし穴
あるケーキ屋でのこと…
店長{よし、広告の効果もあって先月より売上が改善してるな!来月はもっと広告費を投入すれば、さらに売上が見込めるはずだ!)
1か月後…
店長{あれ、、先々月と同じ売上に戻っている…)
さて、上記の例では「広告を打つ前と後」を比較し、広告によって売上が伸びたと判断しています。しかし、実はこの判断には次の2つの”落とし穴”があります。
[×] トレンド(傾向)を無視している
極端な例で、広告を打ったのが12月だとすると、その月はクリスマスシーズンの為、ケーキの売上が伸びるのは必然です。
つまり、「広告を打つ前と後」で売上が伸びたのが
- 広告の影響
- トレンド(クリスマスシーズン)の影響
のどちらなのか、現時点では判別ができないということになります。
[×] 偶然性(バラツキ)を無視している
例えば、このケーキ店の月ごとの売上が下記グラフのような推移をしていたとします。この場合、売上の上下動が激しく、9月にいたっては広告なしで、広告ありの12月とあまり変わらない売上を計上しています。
つまり、売上の月ごとのバラツキが大きい場合、
- 広告の影響
- 単なるバラツキ
のどちらが売上向上の本当の要因なのか、現時点では判別できないということになります。
よって、「1.トレンド」「2. 偶然性(バラツキ)」という2つの落とし穴を考えると、単純な前後比較は意味をなさないどころか、間違った判断に結び付きやすいことがわかります。
これらのような、単純な前後比較による間違いを防ぐ為の詳細分析にて「差分の差分法」を用いるケースがあります。
「差分の差分法」の実践方法
では、今回想定しているケーキ屋での「差分の差分法」の実践方法についてご紹介します。
差分の差分法は、大きく分けると下記2ステップで行います。
- 2つのグループ「介入群・対照群」データの用意
- 2つのグループ「介入群・対照群」データを比較
【ステップ①】2つのグループ「介入群・対照群(のデータ)」を用意
まず、広告の効果を検証するために、「広告あり店舗A」の比較対象として「広告なし店舗」を用意します。以降では、広告あり店舗Aを「介入群」、広告なし店舗を「対照群」と呼ぶことにします。
このとき対照群となる店舗を選出するうえで、次の2つの条件があります。
【条件1】トレンドが平行であること(並行トレンド仮定)
条件の1つ目は、「対照群となる広告なし店舗」のトレンドが「広告あり店舗A」と同じであることです。具体的には、「仮に店舗Aが広告を出さなかったら、対照群の店舗と同じ売上の推移だったよね?」という仮定を満たす必要があります。
上図を例とすると、去年同月の店舗Aと比較して、店舗Bは同じ推移をしているものの、店舗Cは異なる推移をしています。つまり、店舗Aと比較して、
- 店舗Bは同じトレンドを持っているため、対照群として適切
- 店舗Cは違うトレンドを持っているため、対照群として不適切
という結論になります。
【条件2】 別の変化が起きていない(共通ショック仮定)
条件の2つ目は、介入群と対照群に対して、それぞれ異なる変化・イベントが起きていないことです。ここでは、介入群である店舗Aと比較して、店舗B・Dを例に考えてみます。
上図を例とすると、店舗A・Bは通常通りですが、店舗Dは独自のキャンペーンを開催していたとします。つまり、店舗Aと比較して、
- 店舗Bは介入群(店舗A)と「同じ状況」のため、対照群として適切
- 店舗Dは介入群(店舗A)と「異なる状況」のため、対照群として不適切
という結論になります。つまり、店舗Bは「【条件1】トレンドが平行である」「【条件2」別の変化が起きていない」の2つの条件を満たしているため、対照群として適切であることがわかりました。
ただ、ここで一点注意なのは、変化・イベントが起きていたとしても、そのイベントが介入群と対照群の双方に対して影響を与えているのであれば問題ありません。具体的には、店舗Aがキャンペーンを実施していた場合は、逆に店舗Dが対照群として適切であり、店舗Bが不適切になるということです。
【ステップ②】2つのグループ(介入群と対照群)のデータを比較
ここから実際に、介入群である店舗Aと対照群である店舗Bのデータを比較することで、広告の効果の有無とその定量的な影響を確認していきます。
上記が、店舗Aと店舗Bの広告前・後の売り上げの表であり、
- 「店舗A」の広告前後の売上の差分は500万円
- 「店舗B」の同時期の売上の差分も500万円
といった結果になりました。差分の差分法では、上記の差分から更に差分を出します。流れとしては以下となります。
広告有無の差 = ((店舗A12月売上 – 店舗A11月売上) – (店舗B12月売上 – 店舗B11月売上))
0 = (( 1500 – 1000) – (750 – 250))
上記の結果より、「店舗A(介入群)」と「店舗B(対照群)」の差分の差は0です。つまり「店舗A(介入群)」の売上の伸びは”広告によるものではなく、単なるトレンド”と結論づけることができます。(少々、無慈悲ですが…)
まとめ
今回は施策検証の因果推論*(いんがすいろん)の1手法である「差分の差分法」について紹介しました。
*因果推論=統計的手法を用いて「原因」と「結果」の関係性を紐解くための技術
参考記事はこちら→「バイアスを回避する「因果推論」の考え方」
しかし、差分の差分法も万能ではありません。上記でご紹介した2つの仮定(「並行トレンド仮定」「共通ショック仮定」)を満たせないことにより、比較となる「対照群」を準備できないことが多々あるからです。
そういったケースに対しては「傾向スコアマッチング法」といった手法を用いる場合がありますが、当手法についてはいずれご紹介できればと思います。
それではまた!
※今回ご紹介させていただいた「差分の差分法」の内容はいち事例であり、各分野により手法など異なる場合がございますこと、ご了承ください。