I segreti di Log File Analyser: 15+3 strategie di analisi

Categorie

Il file di Log è un documento indispensabile per chi si occupa di Seo perchè rispecchia l'esperienza di scansione dei Motori di Ricerca sul nostro sito web in un dato intervallo di tempo.

I Log restituiscono dati certi e non si basano esclusivamente su valutazioni personali o di sentimento; l'analisi di questa montagna di dati ci permette di prendere decisioni strategiche e far crescere il nostro business.

Comprendere come migliorare il rapporto con lo Spider rappresenta la continua sfida di ogni sito web che voglia posizionarsi e aumentare le sue opportunità di conversione.

Quali sono le caratteristiche principali di Log File Analysis

Log File Analysis può aiutare il professionista Seo in 5 step fondamentali durante le sue analisi leggiadre (cit. Leopardi):

1- analizzare quali siano gli elementi che possono o non possono essere “crawlerati” dallo Spider;

2- ottenere il “response code” che viene restituito dal sito web allo Spider e correggere gli errori;

3- identificare degli eventuali “coni di bottiglia” o criticità del sito web in termini di gerarchia della struttura o collegamenti interni ed esterni;

4- scoprire quali siano le pagine o elementi (es. immagini, javascript) che il crawler rileva come importanti e cui riserva una priorità;

5- scoprire quali siano le temutissime “waste area”, aree inutili in cui il sito web esaurisce il proprio Crawling Budget. Eliminare queste aree permetterà allo Spider di scoprire e valorizzare le pagine ed elementi più importanti senza difficoltà ed in minor tempo.

Una volta che abbiamo compreso le potenzialità dell’analisi dei file di log vediamo alcuni spunti per poter trarre il massimo dall’analisi con lo strumento “Log File Analyser” di Screaming Frog.

Identificare gli URL scansionati (Crawled URLs)

Sul mercato esistono molti modi per fare un “crawl” di un sito web, attraverso strumenti come Screaming Frog, Google Search Console, Google Analytics o una sitemap in formato xml, ma nessuno di questi metodi ci permette di conoscere con esattezza quali url sono stati richiesti effettivamente dallo Spider durante la sua fase di “crawling”. Per superare questa lacuna il file di log ci viene in aiuto e ci restituisce esattamente quali sono state le pagine che sono state visitate dal Motore di Ricerca.
In Log File Analyser sarà sufficente fare un “drag & drop” del documento di log del server in formato "csv o Excel" e lo strumento verificherà in primis quali Bot hanno fatto accesso al nostro server e in seconda analisi, attraverso la funzione “Verify the Search Engine Bots”, autentificherà i Bot dei principali motori di ricerca (Bingbot, Googlebot, etc) rispetto a Bot mascherati o emulatori (ex. Scansioni con Screaming Frog) chiamati “Spoofed”.

Questa funzione sarà a disposizione sul pannello alla voce “URLs” utilizzando il “Verification Status Filter”.

Verifica degli spider del motore di ricerca con log file analyser

Identificare gli "Urls crawlerati" ci permette di comprendere quali siano le pagine conosciute e già in pancia al motore di ricerca e quali presentino potenziali criticità a livello di indicizzazione.
Inoltre questa funzione permette di verificare se delle pagine caricate attraverso JavaScript vengano viste e analizzate dallo Spider in fase di Crawling.
La conoscenza dei Log diventa poi indispensabile in caso di recente migrazione perché ci mostra quali Urls sono ancora nel database del motore di ricerca e, se le risorse non esistono più, se restituiscono il corretto “status code”.

2- Identificare URLs di basso valore

I file di log ci permettono di conoscere quali sono gli url scansionati dai BOT e quale sia la frequenza di scansione; grazie a queste metriche saremo in grado di scoprire potenziali “Waste areas” dove lo Spider spreca il Crawling Budget. Queste aree potrebbero essere rappresentate da URLs con le sessioni ID, navigazioni a faccette o contenuti duplicati e magari non sono state gestite corretamente con "tag canonical".

In questo caso, se volessimo scoprire delle aree con parametri, possiamo utilizzare il filtro di ricerca ed inserire il simbolo “?”.

Waste Area con parametri filtrate con log file analyser

3- Url con maggiori e minori scansioni da parte dei BOT

Quando viene progettato un sito web e costruita la Sitemap contestuale si definiscono quali le "top pages" (es. Home, contatti, servizi) e quali saranno delle pagine secondarie. Quello che succede nella realtà però potrebbe essere differente e la nostra visione iniziale potrebbe essere stata interpretata differemìntemente dallo Spider di Google o dagli altri Motori di Ricerca.

Identificare senza indugio quali siano gli url che sono stati “crawlerati” e quale sia la loro frequenza di scansione ci permetterà di comprendere l'autorevolezza assegnata dallo spider ai nostri elementi pubblicati che potrebbe essere differente dalla nostra. In questo contesto potremo gestire eventuali criticità magari aumentando il contenuto di un elemento o declassandone un altro.

Nella scheda “URLs” sarà possibile vedere quanti “eventi” (numero totale di richieste di un url da parte del BOT) sono stati registrati nel file di log su uno specifico elemento e, allo stesso modo, vedere quale BOT ha dato maggiore o minore enfasi nella sua fase di scansione.

Log File Analyser: analisi degli url e degli eventi

Le varie colonne possono essere ordinate con un click cosicché avremo immediatamente sott’occhio quali elementi hanno ricevuto maggiore attenzione da parte dei Bot e quali pagine siano state ignorate con minori scansioni (events); nel secondo caso se vedessimo degli URLs che riteniamo fondamentali ma con risultati scadenti potremo decidere di cambiare, aggiornare o arricchire il contenuto della pagina per confrontare il prossimo “crawling” del BOT e verificare se la sua considerazione inizia a crescere.

Numero di eventi degli spider con analisi di Log File Analyser

Questa analisi dei file di log ci permette inoltre di scoprire eventuali criticità rispetto alla struttura del sito web, la sua gerarchia, i suoi collegamenti interni o altre informazioni di avvertimento. In questo modo avremo ben chiaro quanto Googlebot, BIngbot, Yandex e gli altri Motori di Ricerca sprechino il loro tempo di crawling per analizzare risorse inutili.

4- Frequenza di scansione e subdirectories

La frequenza di scansione può venire ulteriormente ottimizzata aggregando i “crawl event” per sub-categorie; questo filtro ci permette di conoscere le macro aree che hanno differente rilevanza per i BOT e comprendere se l’area Blog, un particolare autore o la sezione di “servizi” è quella che rappresenta l’essenza per il bot del nostro sito web. Allo stesso tempo ci potrebbe portare a considerare una “Waste Area” e decidere di eliminarla salvaguardando il Crawl Budget del Motore di Ricerca. Scorrendo la tabella di log file analyser sarà molto semplice identificare per singola sub-directory eventuali problemi con status code 3xx, 4xx o 5xx e fixarle.

Analisi log ed eventi per sub-directories - Log File Analyser

5- Frequenza di scansione per tipologia di contenuto

Il file di log non comprende le codifiche per tipologia di contenuto e per questo ci viene in aiuto Log File Analyser che, attraverso il filtro nella tab “URLs” ci permette di analizzare singolarmente gli elementi HTML, Javascript, CSS,Immagini, Pdf, Flash o altri formati. Questa analisi deframmentata per contenuti ci permette di comprendere quanto tempo il Bot sta utilizzando per analizzare ogni tipologia di elemento nel nostro sito web.

Log File Analyser: analisi dei log filtrati per elementi

6- Frequenza di scansione per User-Agent

Analizzare la frequenza di scansione di ogni singolo User-Agent è indispensabile se abbiamo siti che vogliono imporsi su mercati internazionali. Sicuramente Google, con il suo GoogleBot, rimane imprescindibile perché copre oltre il 95% delle ricerche mondiali, ma trovare spazio sugli altri motori di ricerca ci permetterà di essere più autorevoli e capillari nel nostro posizionamento.

Essere presenti sulla maggior parte dei motori di ricerca diventa assolutamente propedeutico per colpire specifiche aree geografiche, ad esempio se pensiamo al mercato russo dovremo tenere in considerazione Yandex, per quello asiatico Baidu o americano Bing.

Analisi dei log in base alla tipologia degli Spider come Googlebot, Yandex, Baidu, BIng

7- Frequenza di Scansione per giorno, settimana o mese

Conoscere la frequenza di scansione del nostro sito web per giorno, settimana o mese ci permette di conoscere approsimativamente quanti URLs unici vengono scansionati al giorno e quanti giorni serviranno allo Spider per fare il “re-crawling” tutti i nostri elementi web. Questo indicatore ci permette di capire se stiamo andando verso la corretta direzione. Riuscire ad aumentare il numero di URLs giornalieri presi in considerazione dai BOT (numero eventi) risolvendo le criticità (response code 3xx, 4xx, 5xx) sarà il nostro obiettivo per risparmiare il Crawling Budget del motore di ricerca ed aumentare l’indicizzazione del nostro sito web con relativo miglioramento potenziale del posizionamento.

Analisi file di log per giorno con log file analyser

Analisi del file di log per definire gli eventi per giorno, settimana e mese

Questi grafici ci permettono di analizzare il trend generale o un particolare problema in termini di URLs restringendo il campo in base all'intervallo di tempo prestabilito.

Analisi dei log divisi per orario della giornata con log file analyser

8- Scoprire “Crawl Errors”

Log File Analyser ci viene in soccorso nelle nostre analisi con la funzione “Last Response Code” che rappresenta l'esperienza in cui si è imbattuto il Bot durante l’ultima scansione. Utilizzando il filtro potremo scoprire eventuali “client error” con errore 4xx che potrebbero essere rappresentati da link errati oppure criticità del server con errori 5xx. Grazie a questa metrica sintetica, ma significativa, riusciremo ad emulare una delle funzioni della Search Console di Google espandendola a tutti i BOT con enorme risparmio di tempo e ottenendo molte più informazioni.

Analisi del response code attraverso log file analyser

9- Trovare “Inconsistent Response”

Log File Analyser raggruppa gli errori in base allo "status code" utilizzando i codici 1xx, 2xx, 3xx, 4xx, 5xx per permettere un confronto fra l'ultima scansione ed eventuale incoerenza con dati ottenuti nell’intervallo di tempo prescelto. Questo filtro permette di verificare eventuali collegamenti rotti che sono stati sistemati o errori di server ad intermittenza che devono portarci ad un’analisi più approfondita.

10- Audit Redirect

Log File Analyser ci permette di tenere sotto controllo gli elementi richiesti dallo Spider che hanno avuto come risposta un re-indirizzamento verso una nuova pagina. Questa funzionalità ci permette di constatare se i 301 o 302 sono settati correttamente e se, nel tempo, lo spider assuma direttamente il nuovo Url nel suo database o continui a ricercare la vecchia risorsa che aveva già inserito nel suo database (situazione normale dopo una migrazione di un sito web). Anche in questo caso è utile spuntare “last response”.

Analisi del Last response code con log file analyser

11- Identificare I BOT e le richieste dei “Spoofed Search Bot”

Log File Analyser ci permette con la tab “IP” di conoscere velocemente se un BOT è reale o un’emulazione di crawling (ad esempio le scansioni fatte con Screaming Frog o altri) usando comparazioni fra User- Agent ma non verificati. Questa funzionalità risulta molto utile nel caso di un “bombardamento” di “crawling” del sito da parte di agenzie concorrenti o spam permettendoci di alzare un muro inibendo gli IP intercettati attraverso il file robots o con l’HTAccess.

Analisi degli ip e dello spoofed con log file analyser

analisi degli User Agent e numero di eventi generasti nei log

12- Identificare Search BOT Ip

Grazie al filtro “verified” sarà possibile garantire e “matchare” l’IP dei singoli Bot cosicchè sarà possibile analizzare i siti web che propongono contenuti diversificati in base alla alla geolocalizzazione

Geolocalizzazione e ip attraverso l'analisi dei file di log

13- Identificare Dimensioni delle Pagine “crawlerate”

Come abbiamo capito il “Crawling Budget” del BOT viene influenzato dal tempo di download (response time) dei nostri elementi che il Motore di Ricerca investe durante la sua scansione. Analizzando la colonna “Average Bytes” della tab “URLs” avremo a disposizione la lista delle pagine che richiedono maggiori risorse e necessitano di essere ottimizzate per non alimentare delle "waste area" che potrebbero penalizzarci in ottica posizionamento in Serp.

Tempo di download richiesto (Average Bytes) durante la scansione dello spider

14- Identificazioni della pagine Lente

Un ”Average Response Time” troppo elevato impatterà negativamente sul Crawling Budget. Questo dato viene espresso in millisecondi.

Utilizzando la tab URLs e verificando la colonna “Average Response Time” avremo a disposizione una lista di pagine che potrebbero essere ottimizzate per salvare il crawling budget e allegerire il tempo di download delle risorse da parte del Motore di Ricerca.

Se, ad esempio, le pagine che occupano maggiormente il “Crawling Budget” hanno uno status code 500 dovremo investigare sulla risposta del server e sentire il sistemista per una soluzione. Se avessimo un aumento dei "client error" con errore 404 dovremo controllare i nostri link o collegamenti da siti esterni per fixare questa criticità.

Analisi del Average response time per salvare il crawling budget

15 - Scoprire Pagine orfane “Orphan Pages” e “Uncrawled URLs”

Una delle attività più significative nell’analisi con File Log Analyser è quella di riuscire a “matchare” la nostra sitemap (funzione “import a crawl” - “import a Url”) e il file di Log per scoprire se ci siano degli urls che non vengono “crawlerati” (esempio bloccati da file robots o per la struttura del sito web) o pagine che non riescono ad essere identificate dal Bot per esempio per la mancanza di collegamenti interni.

Attraverso la funzione “Imported Url data” sarà possibile, attraverso un “Drag & Drop”, importare gli URLs. Dopodiché utilizzando i filtri potremo ottenere i seguenti risultati:

Not in URL Data: permette la visualizzazione di dati presenti nel file di log ma non presenti nella lista URLs importata. Questo caso potrebbe accadere in presenza di “Orphan Pages”, vecchi Urls senza redirect o link non corretti da siti di terze parti che puntano al nostro sito web su pagine con “client error 4xx.

Confronto fra i file di log e i dati importati in Lof file Analyser

“Not in log File”: rappresenta i file presenti fra gli URLs importati ma non nel file di Log. Questo caso potrebbe verificarsi nel caso di nuove pagine appena pubblicate o nel caso i crawler fossero inibiti attraverso il file robots o l'htaccess.

“Matching With URLS”: rappresenta gli URLs presenti sia negli “data Url Imported” sia nel file di log analizzato. Questo filtro è molto interessante perché permette di scoprire la profondità di scansione, il numero di “internal links” assieme al file di log. Questa condizione ci porta a comprendere se le modifiche alla profondità della struttura del sito web o gli internal links hanno un impatto positivo o negativo sulla frequenza di scansione e importanza percepita dal Motore di Ricerca. Esportando il file sarà molto semplice confrontare il numero di eventi generati dal BOT e il corrispondente numero di “internal Links” con il livello della pagina in base alla sua gerarchia. Nel caso avessimo molti "eventi" generati dai BOT in corrispondenza di pagine di primo livello con alto numero di link ma pochissimi eventi per quelle di secondo livello con lo steaso umero di link avremmo un ottimo indicatore di che cosa sia apprezzato dallo spider durante la sua scansione e quale la profondità di analisi.

Matched Url fra i file di log e imported Url in log file analyser

16- Frequenza di scansione in base Meta Robots e Direttive

Il confronto fra gli URLs importati e i file di log è importante anche per valutare l’impatto delle direttive impostate a lato codice (tag canonical, no index o altro) rispetto al comportamento del BOT.

Se ad esempio, dopo una migrazione, volessimo impostare delle direttive “no index” a delle pagine ancora presenti ma che vogliamo declassare nel tempo o volessimo bloccare delle risorse con il file robots potrebbe essere uno strumento di analisi molto utile nell'analisi comportamentali del Motore di Ricerca.

Direttive nel codice e analisi dei file di log

17- Frequenza di scansione di External Links

Uno degli elementi più rilevanti nel ranking dei motori di ricerca è il numero di collegamenti alle nostre risorse da link esterni (backlinks). La nostra analisi con Log File Analyser potrebbe partire inserendo una lista delle nostre pagine più importanti (top pages) e confrontare la frequenza di scansione con il valore dei link in entrata magari collegando strumenti come Majestic Seo. Questo tool ci fornirà oltre che il numero assoluto di collegamenti esterni anche dati molto interessanti sul valore intrinseco dei link (TrustFlow e CitationFlow). L’azione successiva potrebbe essere quella di esportare i dati e confrontare la correlazione fra il ranking delle pagine e i benefici ottenutio mediante i collegamenti esterni.

Analisi dei file di log con Log File Analyser e Majestic Seo

18- Pagine No Index o bloccate da Robots

Se abbiamo deciso di bloccare delle “directives” o pagine ai BOT dobbiamo verificare che queste indicazioni vengano seguite e rispettate.

Nel caso meno grave possiamo verificare che le pagine “canonicalized” non vengano crawlerate o, al massimo, che il bot non dia priorità a questi elementi sempre nell’ottica di salvaguardare il Crawling Budget del Motore di Ricerca. L’idea potrebbe essere quella di fare una scansione con Screaming Frog, esportare gli elementi con tag “canonicalized” o “no-index” e matchare i dati con il file di log magari in un foglio di calcolo.

Conclusioni su Log File Analyser

In questa guida abbiamo capito le potenzialità di Log File Analyser e la necessità di conoscere approfonditamente il comportamento dello Spider durante la sua scansione sul nostro sito web. Sicuramente ogni funzionalità di questo strumento merita un'ulteriore approfondimento per ottenere dati sempre più granulari e precisi. Il nostro intento era fornirvi degli spunti e delle idee di analisi ora tocca a voi. Scrivete qui sotto altri suggerimenti e sarà un piacere integrarli nella nostra mini guida.

Credits: La guida è stata tradotta ed integrata da quella ufficiale di Screaming Frog nella sezioneLog File Analyser. Le immagini sono di proprietà della società Screaming Frog. Download Log File Analyser.

CONTATTACI

LAVORA CON NOI

SCRIVICI

15 + 3 Bonus per utilizzare Log File Analyser

Categorie

Quali sono le caratteristiche principali di Log File Analysis

Identificare gli URL scansionati (Crawled URLs)

2- Identificare URLs di basso valore

3- Url con maggiori e minori scansioni da parte dei BOT

4- Frequenza di scansione e subdirectories

5- Frequenza di scansione per tipologia di contenuto

6- Frequenza di scansione per User-Agent

7- Frequenza di Scansione per giorno, settimana o mese

8- Scoprire “Crawl Errors”

9- Trovare “Inconsistent Response”

10- Audit Redirect

11- Identificare I BOT e le richieste dei “Spoofed Search Bot”

12- Identificare Search BOT Ip

13- Identificare Dimensioni delle Pagine “crawlerate”

14- Identificazioni della pagine Lente

15 - Scoprire Pagine orfane “Orphan Pages” e “Uncrawled URLs”

16- Frequenza di scansione in base Meta Robots e Direttive

17- Frequenza di scansione di External Links

18- Pagine No Index o bloccate da Robots

Conclusioni su Log File Analyser

La guida sulla versione 12 di Screaming Frog

Cos'è la Seo?

CONTATTACI

LE NOSTRE SEDI

CONTATTACI

VIENI A TROVARCI

LAVORA CON NOI

SCRIVICI

15 + 3 Bonus per utilizzare Log File Analyser

Categorie

ARTICOLO PIÙ RECENTE

Prenotazioni dirette e zero commissioni: il vantaggio di avere un sito web per il tuo B&B

Quali sono le caratteristiche principali di Log File Analysis

Identificare gli URL scansionati (Crawled URLs)

2- Identificare URLs di basso valore

3- Url con maggiori e minori scansioni da parte dei BOT

4- Frequenza di scansione e subdirectories

5- Frequenza di scansione per tipologia di contenuto

6- Frequenza di scansione per User-Agent

7- Frequenza di Scansione per giorno, settimana o mese

8- Scoprire “Crawl Errors”

9- Trovare “Inconsistent Response”

10- Audit Redirect

11- Identificare I BOT e le richieste dei “Spoofed Search Bot”

12- Identificare Search BOT Ip

13- Identificare Dimensioni delle Pagine “crawlerate”

14- Identificazioni della pagine Lente

15 - Scoprire Pagine orfane “Orphan Pages” e “Uncrawled URLs”

16- Frequenza di scansione in base Meta Robots e Direttive

17- Frequenza di scansione di External Links

18- Pagine No Index o bloccate da Robots

Conclusioni su Log File Analyser

Perché non leggere anche questi?

La guida sulla versione 12 di Screaming Frog

Cos'è la Seo?

CONTATTACI

LE NOSTRE SEDI

seguici