Το sampling στα Google Analytics είναι ένας πονοκέφαλος, ας το παραδεχτούμε.
Στο άρθρο αυτό (αυστηρά για data και analytics geeks) κάνουμε focus στο sampling, στα hits limits, στο thresholding και στο cardinality του GA4.
Το κοντέρ του αρθρογράφου έχει γράψει περισσότερα από 10 χρόνια hands-on εμπειρίας στα Google Analytics. Το sampling ήταν πάντα ένα πρόβλημα. Σίγουρα υπάρχουν τρόποι αντιμετώπισης, αλλά για όσους χρησιμοποιούν την free έκδοση των Google Analytics, οι λύσεις δεν είναι και τόσο αποτελεσματικές.
Εμβαθύνουμε στο concept του data sampling στα Google Analytics 3 και σε σχετικά θέματα που πρέπει να κατανοήσεις λίγο πριν τη μεγάλη μετάβαση.
Ας ξεκινήσουμε με μια εισαγωγή στο sampling των Google Analytics 4.
Το sampling στα Google Analytics 4
Μια από τις πιο συχνές ερωτήσεις αφορούν το data sampling στα Google Analytics 4.
“Παραμένουν τα data sampled στο Google Analytics 4, όπως ήταν στα Universal Analytics;”
Η απάντηση είναι ότι μερικές φορές ναι, θα αναφερθούμε σε αυτό αναλυτικά αργότερα δείχνοντας μερικά παραδείγματα στο Google Analytics 4.
Το sampling στα GA4 ενδέχεται να προκύψει αν χρησιμοποιείς τα advanced features στα Google Analytics και ξεπεράσεις ένα συγκεκριμνέο events threshold.
Standard vs Advanced reports στα GA4
Στα Google Analytics 4, τα standard reports είναι πάντα unsampled. Αυτό ισχύει ακόμη και αν εφαρμόσεις secondary dimensions, filters ή άλλα report modifications.
Μπορείς να εντοπίσεις τα standard reports κάτω από την καρτέλα “Reports” στο main navigation:
Το πράσινο tickbox υποδεικνύει ότι τα reports είναι unsampled.
Τα Google Analytics εμφανίζουν ένα πορτοκαλί εικονίδιο όταν συμβαίνει το data sampling ή ως προειδοποίηση σχετικά με ένα συγκεκριμένο threshold που μπορεί να εφαρμοστεί.
Στο παραπάνω παράδειγμα, το report βασίζεται στο 100% των διαθέσιμων δεδομένων, αλλά παρατηρούμε ένα warning σχετικά με το threshold.
Τo standard, default report είναι μια καλή αρχή, αλλά αρκετά περιοριστική αν θες να αξιοποιήσεις στο έπακρο τα GA4. Ωστόσο αν θες να αξιοποιήσεις στο έπακρο τη νέα έκδοση των Google Analytics, θα πρέπει να κατανοήσεις ένα ευρύ φάσμα από advanced features και να αφιερώσεις αρκετές ώρες πρακτικής άσκησης αλλά και θεωρητικής εκπαίδευσης.
Tο sampling, λοιπόν, μπορεί να προκύψει όταν δημιουργείς ένα σύνθετο report στα GA4.
Σε αυτό το section μπορείς “πραγματικά” να σκάψεις στα δεδομένα σου και να αντλήσεις χρήσιμα insights και πληροφορίες για να ενισχύσεις το decision making. Αυτό το section περιέχει -προς το παρόν- τα ακόλουθα report templates:
- (Blank)
- Free-Form
- Funnel exploration
- Path exploration
- Segment overlap
- Cohort exploration
- User lifetime
Θα μοιραστούμε περισσότερες πληροφορίες σχετικά με αυτές τις επιλογές reporting σε μελλοντικά blog posts εδώ στο www.grow-digital.gr. Προς το παρόν, θα πρέπει να καταλάβεις ότι το sampling ενδέχεται να προκύψει αν χρησιμοποιήσεις αυτή τη δυνατότητα για advanced analysis στα Google Analytics 4.
Για το παραπάνω report, χρησιμοποιήθηκε ένα άθροισμα από > 11 εκατομμύρια events ενώ το 90% των διαθέσιμων data χρησιμοποιείται για τη δημιουργία του. Σε αυτή την περίπτωση, μπορούμε να πούμε ότι εμπιστευόμαστε τα δεδομένα σε μεγάλο βαθμό, αλλά δεν θα κάναμε το ίδιο εάν αυτό το ποσοστό ήταν χαμηλότερο από 70 ή 80%.
Google Analytics 4 vs Universal Analytics
Μπορεί να αναρωτηθείς για το πώς διαφέρει το sampling στα Google Analytics 4 με τα Universal Analytics.
Στα Universal Analytics, τα default ή standard reports είναι πάντα unsampled. Ωστόσο, το sampling ξεκινάει να συμβαίνει εάν εφαρμόσεις secondary dimensions, segments ή άλλου είδους ad-hoc queries στο dataset σου. To data sampling πραγματοποιείται σε ένα συγκεκριμένο threshold και εξαρτάται από το αν χρησιμοποιείς το premium analytics ή όχι.
- Analytics Standard: 500k sessions σε property level για το date range που χρησιμοποιείς.
- Analytics 360: 100M sessions σε view level για το date range που χρησιμοποιείς.
Πίσω στο Google Analytics 4. Τα default ή standard reports είναι πάντα unsampled (δεν μπορείς να εφαρμόσεις segments εδώ). Αυτό ισχύει ακόμη και αν εφαρμόσεις ad-hoc queries στο dataset σου. Ίσως έχεις παρατηρήσει ότι ο αριθμός και η ποικιλία των default reports είναι σημαντικά μειωμένη στα Google Analytics 4 σε σύγκριση με το Universal Analytics.
Τα advanced reports στο section Explore/Analysis είναι συνήθως sampled αν ξεπερνάς τα 10Μ event hits και το report που δημιoυργείς δεν είναι ένα προ-υπάρχον standard report.
Hit limits στα GA4
Επιτέλους και ένα καλό!
Στα Universal Analytics (free version) υπάρχει ένα όριο για τα hit limits στα 10 εκατομμύρια ανά account σε μηνιαία βάση.
Τα Google Analytics 4 είναι επίσης δωρεάν (με μια premium έκδοση για όσους θέλουν περισσότερες δυνατότητες) και δεν έχουν όρια στα hit/events. Αυτό είναι ένα θετικό καθώς αν μια επιχείρηση έχει υψηλό αριθμό επισκεπτών στο site ή/και στο app τους και πολλά events που γίνονται triggered.
Thresholds στα GA4
Τα data thresholds στα GA4 καθορίζονται από το σύστημα (system-defined) και δεν μπορούν να παραμετροποιηθούν. Αυτό συμβαίνει στα Google Analytics 4 για ορισμένα dimensions για την προστασία του user privacy.
Τα dimensions που αφορούν demographic και affinity είναι αυτά που επηρεάζονται στο μεγαλύτερο βαθμό. Ας δούμε τι αναφέρει η Google για αυτά:
Ας δούμε ένα παράδειγμα του standard “Demographic details” report:
Η τιμή “uknown” στο dimension εφαρμόζεται στο Country στις περισσότερες των περιπτώσεων ενώ έχει σημαντικό αντίκτυπο στα δεδομένα γύρω από το gender στα GA4.
Ας δούμε μια πιο αναλυτική εικόνα στους χρήστες από το United Kingdom.
Περισσότερο από 95% του Gender dimension δεν είναι ορατό για τους χρήστες από το UK.
Τελικά, τα GA4 είναι πιο challenging από όσο περιμέναμε στο κομμάτι του reporting & visibility.
Cardinality στα GA4
Κάθε report dimension (π.χ. User source, User medium, User campaign, Gender κλπ.) έχει έναν αριθμό από values που μπορούν να αντιστιχιστούν σε αυτό. Ο συνολικός αριθμός των unique values για κάθε dimension είναι γνωστός και ως cardinality.
Το Gender είναι ένα τρανταχτό παράδειγμα με low-cardinality. Από την άλλη πλευρά, το Page Path είναι ένα high-cardinality dimension, καθώς συνήθως περιέχει πολλά διαφορετικά unique values.
Τα analytics πραγματοποιούν queries σε διαφορετικούς πίνακες (tables) πριν διαμορφώσουν έναν πίνακα σε ένα report. Έχε υπόψη τις πιθανές αποκλίσεις (discrepancies) όταν ένα query από aggregated data ή event-level πίνακες επιστρέφει περισσότερες γραμμές από αυτές που μπορούν να αποδώσουν (render) τα analytics.
Το αποτέλεσμα είναι ότι μέρος του dataset γίνεται aggregated ως (other).
Στις περισσότερες περιπτώσεις, αυτό συμβαίνει μόνο εάν ένα dimension έχει περίπου 20,000 unique values ανά ημέρα ή και περισσότερα. Υπάρχουν, ωστόσο, και εδώ εξαιρέσεις:
Μόνο 317 unique values, αλλά παρ’όλα αυτά παρατηρούμε ένα cardinality (other) dimension value καταγεγραμμένο στο report.
BigQuery και GA4
Το integration με το BigQuery με τα Google Analytics 4 σου δίνει πρόσβαση στα raw data (σχεδόν) δωρεάν.
Το BigQuery σου επιτρέπει να εξάγεις unsampled raw data και έτσι μπορείς να διεξάγεις πολύ πιο λεπτομερείς αναλύσεις, με μεγαλύτερη αξιοπιστία, στα δεδομένα σου.
- Πληρώνεις για τα δεδομένα που συλλέγεις και επεξεργάζεσαι (με ελάχιστο κόστος).
- Είναι μια scalable λύση.
- Εξάγεις custom event parameters και dimensions.
- Συνδέεις GA4 data με third-party APIs.
- Συνδέεις (GA4) data από το BigQuery με άλλα δημοφιλή data visualization tools όπως Looker και Tableau.
Εάν παρατηρείς υπερβολικά aggregated data ως (other) σε συχνή βάση, μπορείς να χρησιμοποιήσεις το BigQuery Export για να εξάγεις τα Analytics δεδομένα σου στο BigQuery και εκεί να παίξεις με queries πάνω στο καθαρό dataset.
Συνοψίζοντας
Το sampling στα Google Analytics 4 εξακολουθεί να είναι μια πραγματικότητα και δημιουργεί (σχεδόν) τα ίδια προβλήματα που δημιουργούσε και στον προκάτοχό του. Έχεις, όμως, μια εξαιρετική ευκαιρία να μειώσεις τον αντίκτυπο που έχει στα δεδομένα σου.
Η ενσωμάτωση των GA4 με το BigQuery δείχνει μονόδρομος αν θες να παραμείνεις ή να γίνεις απόλυτα σίγουρος για την ποιότητα των δεδομένων σου. Στη δωρεάν έκδοση των Universan Analytics αυτό δεν υπήρχε ως επιλογή.
Η επένδυση (χρόνου ή/και χρήματος) στην SQL και στο BigQuery και η προσθήκη αυτών των skills κρίνεται απαραίτητη για τους performance marketers που θέλουν να παραμείνουν experts στο κομμάτι των analytics.
Αν βρίσκεσαι σε μια μικρότερη επιχείρηση και τα δεδομένα δεν είναι τόσα πολλά, η ενσωμάτωση των GA4 με το BigQuery μπορεί να καθυστερήσει χωρίς ιδιαίτερο κόστος στην επιχείρηση.
Σίγουρα, έχουμε πολλά να δούμε και να περιμένουμε από την Google σχετικά με τα Google Analytics 4 και αναμφισβήτητα πολύ χρόνο να αφιερώσουμε για να γίνουμε, πάλι, experts!