【統計・有意差・検定を知ってる?】A/Bテストの2つの間違った計測方法事例
2013年8月31日

日本でもA/Bテストを導入する企業が増えてきていますが、数値の計測や効果測定時に2つの致命的な間違いを犯してしまっている企業が意外に多いです。

A/Bテスト

1. 異なる期間でテストしている

これは導入時に1番多い間違いです。

  • 9月1日~30日はバナーAを設置
  • その後10月1日~30日はバナーBを設置

一見何も問題がないように見えますが、この方法は正確に効果測定することを非常に困難にします。

なぜなら、

  • 季節要因
  • 外部要因(特殊要因)

を考慮して効果測定しなければいけなくなってしまうからです。

 

この場合の外部要因とは、ソーシャルでバズった、メディアで紹介されたなどの状況を指しています。

これがなぜ問題かというと、流入ユーザーの属性を極端に変えてしまう可能性があるからです。

 

アッションが運営する「プリスクールナビ」が2013年3月24日(日)、25日(月)に「Yahoo!トピックス」に掲載された際にも同様の現象が起きました。

2日間に渡り通常の10倍以上のUU数が集まったのですが、当月3月の平均コンバージョン率を大きく下げてしまう結果となりました。

プリスクールナビ訪問者数

2013年のプリスクールナビ訪問者数。3月24日、25日だけ突出している。

2013年プリスクールナビ月間CVR

2013年のプリスクールナビ月別コンバージョンレート。3月だけ落ち込んでいる。

バズったり、メディアに取り上げられると訪問者数は急増しますが、これらのユーザーは検索ユーザーに比べてコンバージョンしてくれる可能性が通常低いです。

検索ユーザーは「プリスクールを調べたいからプリスクールというキーワードで検索する」といった顕在ニーズを持っています。

一方でバズったりメディア掲載したりした際に流入してくるユーザーは、顕在ニーズを持っているとは限りません。

「なんかタイムラインによく流れてくるから見る」といった人が多いです。

正確な効果測定のためには、できるだけ同条件で比較したほうがよいためこのような要因を排除して考える必要があります。

「バズって流入が増えていた2日間を除いて1日の平均を算出して、、、あ、でも前月のほうが土日が多いからそのことも考慮しないと、、、」

この作業、とても大変です。

 

しかしそもそも、これはテストを別の期間に分けて実施したから起きたのですね。

最初から同期間でユーザーを50%ずつバナーAとバナーBを見るように振り分けておけば

季節要因・特殊要因など気にする必要がなくなります。

テスト開始前の大前提として、より正確なテスト結果を導きだすため全く同じ期間にユーザーを振り分けてテストするようにしましょう

 

2. テスト結果の数値が本当に意味をもつのか確認していない

2つ目はテスト結果の妥当性をチェックしていない、というミスです。

「統計的有意性」、「差の有意性」などといった言葉を聞いたことはありませんか?

これは「何%の確率で出てきた数値差に意味があるかサンプル数を元に判断する」というものです。

とても噛み砕いて誤解を恐れずにいうと、

  • テストして出てきた結果は、テスト終了後にも変わることがないか?

ということを調べる作業です。

 

例えば、よくありがちなこんな会話。

  • 「1週間計測した結果、バナーAはCTR1%、バナーはBは2%だからこっちのほうが2倍いい!今すぐバナーBを全ユーザーに採用しよう!」

ここで「ちょっと待ってください」とならなければいけません。

その「2倍いい」状態は何人テストして導いた結果なのでしょうか?

それを元にどのくらい正確か、本当にこのあとも続くのか、を計測しないといけません。

計測したユーザー数が少ない場合は結果が簡単にひっくり返ります。

 

わかりやすくこんな例を考えてみましょう。

最初の1週間

  • バナーA:閲覧ユーザー100人、クリックユーザー1人
  • バナーB:閲覧ユーザー100人、クリックユーザー2人

この場合バナーAのCTRが1%、バナーBのCTRが2%。

前述の会話ででてきた「BがAより2倍いい状態」ですね。

 

しかし閲覧ユーザーが100人と少ないため、テストを継続するとこの結果は簡単に変わってしまいます。

次の1週間が経過した後の合計値

  • バナーA:閲覧ユーザー200人(先週より100人増)、クリックユーザー6人(5人増)
  • バナーB:閲覧ユーザー200人(100人増)、クリックユーザー3人(1人増)

こうなると、バナーAのCTRが3%、バナーBのCTRが1.5%。

先週までは「BがAより2倍いい状態」だったのに、たったの1週間で100人ずつ訪問ユーザーが増えただけで、

「AがBより2倍いい状態」になってしまいました。

ユーザー数が少ないうちは結果が簡単にひっくり返ってしまう例でした。

 

まとめると、

ある程度のユーザー数をテストしないうちにテストしている数値(CTR、CVRなど)が2倍・3倍など大きく違うからといって、すぐにテストを止めてはいけないということです。

もしテストを止めたくなったときは、この言葉を思い出してください。

  • テストして出てきた結果は、テスト終了後にも変わることがないか?

 

だいぶ簡単に統計のお話を説明してしまいましたが、より詳しく、かつわかりやすい統計的説明はこちらのWeb Analytics or Dieさんの記事がわかりやすいです。

A/Bテストの結果をどのように解釈するか?

 

まとめ

A/Bテストはインターネットを利用してビジネスをしている人・企業全員にとって必須の作業です。

しかし間違った実施方法、計測方法が後を絶たないこともこれまた事実なのです。

  • 同期間にユーザーを振り分けてテストを実施する
  • テスト結果が統計的に意味があるものかどうかしっかりと確かめる

という2点を忘れないようにしましょう。

600 (1)


一覧へ戻る