Googleアナリティクスのデータサンプリングとは?
Google(2019)は、データサンプリングとは何かを説明しています:
「データ分析において、サンプリングとは、すべてのデータのサブセットを分析して、より大きなデータセットの意味のある情報を明らかにすることです。」[1]
これは基本的に、すべてのデータを分析するのではなく、分析するデータの量にしきい値があり、その後のデータはパターンに基づく仮定になると発言しています。
Google(2019)のデータサンプリングのしきい値:
データのアドホッククエリには、次のサンプリングの一般的なしきい値が適用されます:
[Google]アナリティクス標準:使用している期間のプロパティレベルで50万セッション
[Google] Analytics 360:使用している期間のビューレベルでの1億セッション(第3項)[2]
ウェブサイトへのトラフィックが増えると、GAのデータが不正確になる可能性があるため、このしきい値は制限されています。
昨年のトラフィックデータをすべて調べて、ページビューが500万回あるとしましょう。500万のうち50万が正確です!残りの450万(90%)のデータは、サンプルサイズ50万に基づく仮定です。
これは、Googleが大企業に販売するために使用する重要な武器です。より正確なレポートを作成するためにこのしきい値を増やすには、プレミアムGoogle Analytics 360に年間約150,000米ドルでアップグレードすることが唯一の選択肢のようです。
データサンプリングの何が悪いのか?
サンプリングされたデータを完全に無視すべきだと言うのは不公平です。代表的なものであることを確認する計算があり、十分な洞察を得ることができます。ただし、「十分な」データが必要なだけではないため、お勧めしません。 実際の事実が必要です。
Matomoのお客様に送信された最近の調査では、データサンプリングの問題により、大部分のユーザーがGAからMatomoに切り替えたことがわかりました。
データサンプリングが好ましくない2つの理由:
- 選択したサンプルサイズが小さすぎると、すべてのデータの適切な代表が得られない。
- ウェブサイトが大きくなるほど、レポートが不正確になる。
サンプルデータを完全に信頼していない理由の例として、データサンプリングにより、eコマースストアがあり、GA収益レポートが実際の販売データと一致していないことがわかります。GAでは、実際の売上が80万ドルではなく、月の収益が100万ドルと表示される場合があります。
ここでのサンプリングは、財務上のマイナスの影響をもたらす可能性のある不正確さを引き起こしています。GAレポートで得られるのは、実際の売り上げではなく、推定ドルの数字です。 この場合、不正確なデータに基づいて意思決定を行うとコストがかかる可能性があります。
サンプリングされたデータのもう1つの欠点は、全体のビューが与えられた場合に気付く機会を逃す可能性があることです。 例:データがすでに予測されているために発生している実際のパターンを見ることができません。物事をあるがままに見る機会を得ず、GAによってなされた結論と仮定にジャンプすることだけが危険です。 ビジネスが大きくなればなるほど、不正確な仮定に基づいてビジネス上の決定を下すリスクを減らすことができます。
GAデータはサンプリングされたデータであるため、機会を逃す可能性があると感じた場合は、100%正確に報告されたデータを取得してください。
100%正確なデータの利点
Matomoは、当社の製品または計画でデータサンプリングを使用しません。 サンプリングされたデータセットではなく、すべてのデータが表示されます。
影響の大きい意思決定にはデータ品質が必要です。データの信頼性と正確性に自信がない場合、戦略的な変更を加えることは困難です。
MatomoがGoogleアナリティクス360の真の候補である方法をご覧ください。
挑戦する!
Googleアナリティクスデータ(サンプリングデータ)とMatomoデータを比較します。Matomoデータがまだない場合は、30日間の無料トライアルにサインアップして追跡を開始してください。