In questi giorni è iniziata una discussione sulle viste spam che alcuni siti stanno ricevendo.
Yuri Carlenzoli ha discusso in diversi trend in Google+ il problema:
Improvvisamente questi siti registrano centinaia di sessioni da utenti da fonte di traffico diretta, oppure da referral sconosciuti e da domini sicuramente spammosi.
Che cosa è successo?
Alcune persone potrebbero aver preso volontariamente o meno il vostro codice di Google Analytics ed averlo inserito nelle pagine del proprio sito.
Tale situazione andrà a sporcare i vostri dati in un tutte le metriche e tutte le dimensioni.
Come capire se si è vittima di Google Analytcs Spam?
L’analisi è molto semplice.
Aprite il report: Audience -> Technology -> Network
In Primary Dimension selezionate Hostname
Oppure inserite questo report personalizzato alll’interno del vostro account
https://www.google.com/analytics/web/template?uid=cgAX2-JmTGGp7gy43FKxrQ
se all’interno di questo report appaiono domini diversi dal vostro siete vittima di spam.
Come risolvere il problema?
La soluzione al problema è altrettanto semplice, anzi dovrebbe essere alla base di ogni installazione di Google Analytics, una bit practices che non dovrebbe essere mai saltata.
Entrate nella sezione amministrazione del vostro account GA e sotto vista seleziona filtri
Create un nuovo filtro e a cui darete il nome solo Domini di proprietà
- In tipo di filtri selezionate
- Predefinito
- Includi solo
- traffico a hostname
- uguale a
ed inserite nel campo hostname il dominio del vostro sito: www.analyticstraining.it
salvate e tutti i problemi di spam saranno risolti.
Attenzione l’opzione includi è esclusiva e non possono essere creati più filtri di inclusione a cascata. Sela proprietà di google analytics è impostata per il tracciamento multi dominio dovrebbe utilizzare un’espressione regolare per indicare tutti i domini di vostra proprietà.
Basta utilizzare il simbolo | per dividere i diversi domini:
Esempio
www.analyticstraining.it|tools.analyticstraining.it
il carattere ‘\’ viene inserito per evitare di avere problemi con la sintassi della espressioni regolari.
Vi consiglio di applicare questo filtro ad ogni vostra proprietà/vista in Google Analytics in modo da avere i dati più corretti possibile.
I siti possono essere navigati dagli utenti usando anche il servizio translate di google, in questo caso l’host name sarà webcache.googleusercontent.com oppure translate.googleusercontent.com, per includere quel traffico dobbiamo creare un espressione regolare più completa.
www.analyticstraining.it|tools.analyticstraining.it|googleusercontent
Salve, e se non metto il “www”?
dipende quali opzione hai scelto, se scelto esatatmente uguale ed il tuo dominio ha il www, il filtro non funzionerà.
Ho provato e funziona grazie. Una cosa sola: vedo che perdo molti “not set”? me ne devo preoccupare.
Ciao Pietro, i (not set) erano relativi a quale dimensione?
Ho seguito la procedura ma continuo a visualizzare i siti spam. Il filtro funziona anche a posteriori?
Ciao Dario,
il filtro avrà effetto solo sui dati salvati sui server di google analytics dopo l’impostazione dello stesso. Purtroppo non esiste al momento un modo per modificare i dati già salvati da GA.
Attenti ai siti che filtrate, perché potreste tirare via anche host legittimi tipo You Tube (se nel canale avete inserito l’ID Analytics).
Prima di filtrare date uno sguardo ai dati per un periodo bello lungo.
Io consiglierei anche di creare una nuova vista filtrata, mantenendone una “sporca”, così.. non si sa mai 😉
Ciao Filippo, e se utilizzando il tuo report personalizzato vengono fuori (not set) come hostname principale ?
Ciao Michele,
può capitare (raramente) che non venga passato l’hostname, ad esempio quando viene visualizzata una pagina internet in locale, oppure quando GA incontra problemi di tracking.
Quante sessioni hai attribuite a (not set)?
ciao Filippo, io ho circa 500 sessions not set, è accettabile? grazie
500 sono veramente tante, per essere accettabile dovresti avere piú di 50000 nello stesso periodo
Fil
Ciao Filippo, Grazie per la tua risposta. Cosa devo evidentemente applicare il filtro che suggerisci, giusto?
grazie
Ciao Filippo, grazie per questa guida. Sto analizzando un account Analytics per capire se ha traffico spam.
In NETWORK → HOST NAME non c’è niente di grave cioè ci sono degli host “strani” ma tutti insieme hanno generato una decina di sessioni nell’ultimo mese.
Il grosso è composto dal dominio del sito e da not set.
Ne devo concludere che i dati sono validi oppure devo fare qualche altra verifica?
Ciao Gennaro,
scusa se rispondo solo oggi, il tuo commento era finito per qualche motivo sconosciuto nella cartella spam.
Anche questi not set sono visite spam. Quando Google Analytics traccia le visite correttamente hanno sempre un hostname connesso. 1 o 2 errori di tracciamento possono essere di più significa dati errati.
Fil
Ciao Filippo,
ho applicato il filtro (con espressione regolare per includere il traffico proveniente da servizi Google) ad una nuova vista, tuttavia ci sono dei limiti nell’escludere tutte le sessioni Spam e/o fantasma.
Al momento, per ovviare al problema in fase di analisi dati, associo al filtro un segmento che esclude le visite provenienti da un elenco di sorgenti Spam.
È possibile intervenire diversamente?
Grazie
Ciao Daniele,
scusa il ritardo.
l’unico modo è escludere anche i referral è creare un filtro che dice di escludere ognuno dei referral.
Ciao Filippo, spero tu possa aiutarmi con un problema che ho con anaytics.
Per risolvere il problema dello spam ho creato un filtro che include solo il traffico verso il nome host che contiene il dominio del mio sito.
Il problema è che adesso analytics non mi conta più gli utenti.
Pensando che fosse il problema del filtro l’ho rimosso ma analytics continua a non contarmi gli utenti!
Vedi l’immagine allegata
http://oi60.tinypic.com/m7g9f.jpg
Invece nella versione non filtrata è tutto ok.
Tu hai idea di cosa può essere?
Può essere colpa del filtro?
Grazie 🙂
Ciao Marco,
difficile risponderti senza vedere l’account. Se hai rimosso il filtro, i dati verranno nuovamente registrati dal momento in cui il filtro è stato cancellato, i dati precedenti però non verranno ripristinati.
Sicuramente il filtro aveva un errore, quale, ora è difficile dirlo senza vederlo
Perchè non inserire il nome host come filtro includi in un nuovo Segmento invece che nel filtro principale della vista?
In questo modo è retroattivo e posso attivarlo o disattivarlo a piacimento… o mi sono perso qualcosa?
Alberto
Ciao Alberto,
Attivando un segmento e guardando grandi quantità di dati GA free potrebbe andare in sampling.
Poi sono dati che non mi interessano e che sporcano le statistiche quindi preferisco eliminarli completamente da GA per evitare confusione ed errori