Questa sezione della nostra guida vuole rispondere alle domande più comuni che normalmente vengono sollevate dagli utilizzatori di Screaming Frog.
I motivi per cui lo Spider non riesce a crawlerare il nostro sito internet possono essere innumerevoli, riassumiamo i problemi più comuni:
Inserire nel robots.txt il seguente codice: User-agent: * Disallow: / User-agent: Screaming Frog SEO Spider Allow: /
CONFIGURATION --> ROBOTS.TXT -->SETTINGS --> IGNORE ROBOTS.TXT
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
“Connection Error” assieme a “Connection Timeout” sono dovuti principalmente a problemi del network (possibilità di andare online) o alle impostazioni del proxy. Nel secondo caso si consiglia di controllare i dati inseriti nelle impostazioni del Proxy.
Questo errore viene restituito quando il server non permette allo Spider l’accesso ai contenuti del sito. Se l’errore è costante si potrebbe risolvere modificando lo User Agent (“Configuration → HTTP Header → User Agent). Se l’errore si presenta durante la scansione potrebbe essere dovuto alla velocità in cui lo Spider richiede al server le pagine da analizzare.
In questo caso sarà sufficiente ridurre la velocità di scansione: “Configuration” → Speed.
Maggiore sarà il numero di “Threads” maggiore sarà la velocità dello Spider. Se a “Max URI/s” associamo il numero “1” questo significherà che lo Spider scansionerà 1 pagina al secondo)
La verifica delle immagini, anche se ospitate su un CDN potrà essere fatta direttamente dalla finestra in basso nella tab “image info”.
Screaming Frog crawlera anche i PDF?
La scansione controlla anche i link diretti ai documenti in “pdf” e ne restituisce lo “Status”. Questo controllo potrà essere fatto nella Tab “Internal” ed “Esternal” inserendo il filtro “pdf”. Il tool non analizza i pdf per trovare nuovi collegamenti da scansionare con lo Spider Seo.
Questo errore viene corrisposto quando il Seo Spider tenta di ricevere un “http response” dal server ma senza successo o in tempi considerati troppo lunghi. Questo evento potrebbe accadere nel caso di un sito o server con tempi di risposta molto lunghi o quando ci sono dei problemi nel network.
La prima cosa che consigliamo è la verifica che il sito (una volta cancellata la versione in “cache”) risponda alla chiamata nel browser; se questo test funziona possiamo:
Questo errore viene proposto quando il web server non permette l’accesso alle risorse da parte del Seo Spider per qualche ragione. Il consiglio è, prima provare a cambiare lo User Agent, secondariamente ridurre la velocità dello Spider crawler.
Quando il “crawler” non trova le immagini di un sito analizzato normalmente le ragioni sono due:
le immagini sono caricate tramite Javascript: lo Spider, per default non esegue il Javascript. Per ovviare il problema possiamo andare su “Configuration”--> Spider-->Rendering Tab-->Javascript. Ovviamente questo funzionerà se i files JS e CSS non sono bloccati magari da file robots.txt.
le immagini sono bloccate dal file robots.txt. In questo caso basterà, tramite la console impostare “ignore robots.txt” o “customizzare” il file per permettere il crawling.