トム・フォーリーが語る、本物のデータサイエンスへの第一歩 ‐ ABテスト「7つの原則」

シルバーエッグ・テクノロジー株式会社

代表取締役社長 & CEO

トーマス・アクイナス・フォーリー

私の参加しているレコメンドシステムの国際会議、RECSYSでは、毎年多くの企業や研究機関の研究者による発表がありますが、彼らの科学的なアプローチには目を見張るものがあります。彼らは直感を信じません。常に、仮説を発展させ、慎重なテストを行い、得られたデータに従います。

レコメンドシステムであれなんであれ、オンライン上のデータをもとに行う“本物のデータサイエンス”に必要なのは、「ABテスト」による仮説の検証です。このテストでは、顧客を「テスト」と「コントロール」の2つのグループに分け、KPIをモニタリングし、統計的な判断をします。

たとえば、より効果の高いレコメンデーション表示法の仮説が得られれば、まずは2つの顧客グループがどう反応するかを比較するテストを行います。そのうえで、コンバージョン数などKPIデータを収集し、統計上有意な差異があるかを判断するわけです。

このテストは一見簡単で、やって当然と思えることでしょう。しかし、比較的小さな組織では、ABテストを適切に実施するためのツールがなく、担当者に専門知識や、実行するだけの余裕がないこともあります。その結果、改善の機会が失われたり、パフォーマンスが低下したりすることが多々あります。

日本では、特に製造業では継続的な改善を続けるという文化が根付いています。ですが、デジタル・マーケティングの分野においては、GoogleやFacebookといった企業で行われているような「本物のデータサイエンス」に基づく改善が十分に普及しているとはいいがたいでしょう。

しかし、以下の重要な原則をきちんと守れば、小規模なビジネスサイトでもプロフェッショナルなレベルでの実験を行い、大企業にキャッチアップすることも可能です。

1. 改善ゲームを止める

Webサービスを任されると、改善効果を手っ取り早く得ようとして、ゲームのようにいろんなことを一度に試してみたくなるかもしれません。しかし、ゲームの真の結果を見極めるには、何か一つの変更点にフォーカスし、他の部分には変更を一切加えず厳密なテストを行うべきです。

いちどのテストで同時に複数の変更を行ってしまうと、得られた結果の数値を適切に分離して、個々の変更に紐づけることはほぼ不可能です。必要なツールとテクニックを習得するまでは、テストを並行して実行しないでください。

2. 果実は手の届くところから取る

データサイエンスの手法で改良できる部分はたくさんあるでしょうが、どの変更を最初に試すべきなのでしょうか？

実験には時間も費用もかかるため、経験則からすると「低いところになっている果実（Low hanging fruit）」を探すべきです。もっとも高い利益改善が期待でき、またもっとも行いやすい変更こそ、最大のビジネスバリューがあると言えるでしょう。

3. 理解の共有

何を試すか決めたら、仮説を明確に定式化し、それを書き留めます。何をテストしているのか、何のために行っているのかを、関係者全員に必ず理解させましょう。テストによって起こりうる結果や、ポジティブな面、ネガティブな面についても、十分時間をかけて周知してください。

オンライン上の顧客行動は驚くほど複雑で、個々が密接に絡み合っています。一見単純な変更が意図しない結果を引き起こす「波及効果」が発生しがちです。予想外の結果はよくあることでも、確証バイアスによってしばしば検出されなかったり、認識されなかったりということがあります。仮説は懐疑的な視点で精査するようにしてください。そうすれば、予想外の結果を予想し、正しい手法でテスト内容を構築することができるでしょう。

4. KPI設定を早まらない

テストのKPIを事前に設定するためには、自分が何をテストしているのかを明確にしている必要があります。しかし、往々にしてすべてが明確というわけではありません。

たとえばクリックスルー数の多さは、ポジティブな反応を意味していると捉えられがちですが、逆にユーザーが自分の欲しいものを見つけられずさまよっている、という可能性もあります。複数のKPIが絡むテストでは、あらかじめそれぞれのKPIの重要度を決めておく必要があります。

本当に必要なKPI（たとえば顧客ロイヤルティなど）は、往々にしてすぐに結果を計測できなかったり、直接的にデータ収集できなかったりするものです。もちろん、適切なKPIを設定・計測する方法は存在しますが、それは思っているよりも簡単ではありません。

5. だらだらテストしない

仮説を証明するために必要なデータ量はどのくらいでしょうか？あらかじめ、どの程度の期間、テストを実施するか、決めておく必要があります。これは単に「決め」の問題ではありません。統計的意思決定論に基づいて、必要なサンプル数を算出する必要があります。

テストグループがコントロールグループよりも良いパフォーマンスが出るように「見える」まで、テストを続けてしまうことは、往々にして起こりがちです。しかし、これは大きな誤りです。データの自然な分散は一時的な数字の盛り上がりや落ち込みを含むものです。データを長く観察していると、一時的にテストグループがコントロールグループよりも良いパフォーマンスを示す場合があるのです。このタイミングで「効果があった」と判断してしまうと、無意味な結果に振り回されることになります。

6. 公正＝並行

テストを実施する人間は、テストが公正に行われていることを自ら確認しながら進めないといけません。さもなければ、無責任にコインを投げて意思決定しているようなものです。

クライアントから、私たちのテクノロジーを1週間か1か月試し、その後また別のテクノロジーを試す、ということを言われたと私は良く耳にします。しかしこうしたテストは本質的には無意味であり、時間の浪費になりがちです。Web上での変化は週ごとにあまりに大きいため、テストをシリアル（連続）で行うことは無意味です。またテクノロジーやアルゴリズムを比較する場合、比較対象の双方が同じ訓練データを使うことが重要です。

つまり、注意深く設計された条件下で、パラレル（並行）で行われるABテストでしか、正しい結論を引き出すことはできないのです。それ以外の手法はデータサイエンスとはいいがたく、厳しく言えば、「上司を説得するための施策」にしかなりません。

7. ユーザーの反応を正しく分析する

オンラインテストが必要な理由の1つは、ユーザーの行動を決めるダイナミクスがきわめて複雑だということです。たとえば、ユーザーはレコメンドされた商品を選ぶ傾向が高いため、ユーザーの行動が「オーガニック」、つまりユーザーの自発性にもとづくものなのか、それとも外部条件に誘発されたものなのかを知ることは難しいです。これらユーザーの行動を正しく分析することで、正と負と両方の循環を作りえます。

ユーザーに行動を起こさせる条件は、個々のビジネスによってユニークであり、まさにマーケティングの要です。この条件を見極めて賢く処理すれば、利益はぐっと拡大してゆくことでしょう。

以上7つの原則を念頭に置いて、正しく設計されたテストを実行すれば、パフォーマンスを体系的に向上させることが可能になります。それこそが真のプロのやり方なのです。不確かな方法論で行う改善、すなわち「他人のお金でギャンブルをしている」状態を脱し、真に責任をもってビジネスに貢献するため、ぜひ取り組んでみてください。

（訳・編：シルバーエッグ・テクノロジー株式会社　梅村翔子・吉田圭佑・園田真悟）