Zo vind je met Screaming Frog écht alle URL’s op je website
Als online marketeer ben je wellicht bekend met het programma Screaming Frog. Het programma crawlt je website en daarmee kun je simuleren hoe dat proces gaat wanneer Google hetzelfde probeert te doen op je site. Na het lezen van dit artikel wordt dit programma voor jou nóg krachtiger, je vindt dan namelijk álle URL’s op je site.
Als je jouw site wil controleren op technische fouten met Screaming Frog, is het wel zo fijn dat het programma alle pagina’s op jouw website crawlt. Zo voorkom je dat er op pagina’s die het programma niet kan vinden fouten staan die je vervolgens ook niet gaat oplossen. Met de standaard-configuratie worden een hoop pagina’s niet meegenomen in de crawl, superzonde!
Het crawlen van een website is te vergelijken met een bibliotheekmedewerker die alle boeken van één schrijver wil lezen. Zie elk boek als een pagina en de referenties in het boek als links naar andere pagina’s. Bij het crawlen wordt de inhoud van de pagina opgehaald en worden nieuwe links ontdekt, hetzelfde als een bibliotheekmedewerker zou doen bij een boek.
Standaard- vs aangepaste configuratie
Wanneer je Screaming Frog opent heeft het programma een standaard-configuratie. Hiermee vind je een hoop URL’s, maar je kunt de ware kracht van het programma pas benutten als je de configuratie aanpast.
Nadat ik de wijzigingen in dit artikel toepaste op de website van ZIGT ontdekte ik 3900% meer URL’s in vergelijking met de standaard-configuratie.
Wat werd meegenomen wat niet in de standaard-configuratie meegenomen werd?
- Links in de sitemap waar niet naar gelinkt wordt op de site (oude nieuwsberichten bijvoorbeeld + afbeeldingen in die nieuwsberichten)
- Heel veel externe links naar Facebook / Twitter die geblokkeerd zijn in robots.txt
- URL’s in Google Analytics / Google Search Console die niet op de site gelinkt staan (veelal URL’s met UTM-parameters)
Waar kan ik alles aanpassen?
Alles wat we gaan aanpassen is te vinden onder het kopje ‘Configuration’ , per onderdeel is aangegeven waar de aanpassing precies gedaan kan worden.
1. Spider
In het eerste kopje Spider kun je het gedrag van de spin in het web aanpassen naar jouw wensen. Om het gedrag aan te passen kijken we naar drie tabs: Crawl, Limits en Advanced.
Crawl
Alles wat rood omringt is adviseer ik aan te vinken.
De grootste winst in het tabje ‘Crawl’ is door het aanvinken van additionele functies onder ‘Crawl Behaviour’ en ‘XML Sitemaps’. Hiermee crawl je bijvoorbeeld URL’s die op een website per ongeluk op nofollow staan. Of URL’s die in de sitemap staan maar waar niet naar gelinkt wordt op de website.
Staat de sitemap-URL niet in de robots.txt? Dan kun je ook de URL van de sitemap handmatig invullen.
Het is wel goed om te weten dat de aantallen behoorlijk kunnen oplopen als je deze instellingen aanvinkt. Als er bijvoorbeeld een staging-domein is die toegankelijk is crawl je opeens twee keer zoveel URL’s. Ook het volgen van externe nofollow kan ervoor zorgen dat je opeens veel meer crawlt.
Tip! Gebruik de exclude functie in Screaming Frog als je bijvoorbeeld externe URL’s wil uitsluiten. Dit kan door .* . domeinnaam .* in exclude toe te voegen. Bijvoorbeeld .*.facebook.com.*
Limits
Mocht je site meer dan 5 miljoen links hebben en een computer die het aankan, kun je de limiet van de crawl uitschakelen. In de praktijk zal de limiet nooit bereikt worden, maar het kan eventueel je crawl beperken.
Een goede om aan te passen is het aantal redirects dat Screaming Frog volgt. Google stopt na 20 redirects met crawlen en daarom goed om dit aan te passen voor uitzonderlijke gevallen. Een belangrijke categorie is enkel te bereiken na 18 redirects? Dan neemt Screaming Frog dit ook mee.
Advanced
Alles wat rood omringt is zou ik adviseren aan te vinken.
Het altijd volgen van redirects en canonicals heeft invloed op de list mode van Screaming Frog, maar kan handig zijn. Crawl je in je lijst perongeluk een redirect? Dan weet je ook gelijk waar die redirect naartoe gaat.
De response timeout verhogen we zodat de server langer de tijd heeft om iets terug te geven wanneer het programma een crawl doet. Komt er na 60 seconden nog niks? Dan pas geeft Screaming Frog een error.
Hetzelfde doen we door de 5xx Response Retries te verhogen. Als een server veel aanvragen tegelijk krijgt, kan het zijn dat de server een 500-error teruggeeft. Soms is dit een tijdelijke error. Screaming Frog markeert de URL pas als 500 error na 10 pogingen.
2. Robots.txt
In de robots.txt configuratie passen we de instelling aan zodat Screaming Frog de regels in de robots.txt negeert maar wel aangeeft dat deze URL’s uitgesloten worden door robots.txt .
Stel je hebt producten die enkel in https://www.website.nl/uitgesloten-product-categorie/ staan. Deze producten vindt Screaming Frog in de standaard-configuratie niet wanneer je deze categorie perongeluk uitgesloten hebt in de robots.txt. Door het wijzigen worden deze producten nu wél gecrawld en worden deze pagina’s gecheckt op fouten.
3. User-Agent
Standaard bezoekt Screaming Frog de site als ‘Screaming Frog SEO Spider’. Het ideale is dat je je kunt voordoen als Googlebot Smartphone. Zo doe je de simulatie zoals Google ook alles zou zien. Heel soms wil het nog wel voorkomen dat sites aparte content inladen voor Google, dan wordt dat ook meegenomen.
Wist je dat Google mobile first crawlt? Dat betekent dat Google altijd jouw website als mobiele gebruiker bezoekt.
4. API Access
Met Screaming Frog heb je de mogelijkheid om de API van Google Analytics, Google Search Console en andere tools te koppelen.
Een groot voordeel is dat je kunt aanvinken dat Screaming Frog nieuwe URL’s die gevonden zijn moet crawlen.
In de date range geef je aan wat Screaming Frog mee moet nemen. Wil je specifieke metrics of dimensies ophalen? Je stelt het allemaal gemakkelijk in. Deze data is vervolgens per URL ook te zien, ideaal voor als je de data van URL’s naast elkaar wil hebben.
Heb je een sitemigratie gedaan? Neem dan de URL’s in Google Analytics en Google Search Console van de afgelopen 12 maanden mee, sorteer vervolgens op aantal sessies en zie of je geen belangrijke URL’s bent vergeten te redirecten. Zo hebben wij bij meerdere sites waar wij geen SEO voor deden belangrijke URL’s gevonden zonder een redirect.
Voorkom opnieuw instellen
Inmiddels hebben we best wat wijzigingen gedaan aan de configuratie. Door in Screaming Frog naar File > Configuration te gaan heb je de mogelijkheid om je huidige configuratie als standaard op te slaan. Zo hoef je niet telkens alle wijzigingen door te voeren wanneer je een crawl wil doen.
Ook heb je hier de mogelijkheid om opnieuw naar de standaard-configuratie te gaan mocht je dat willen.
Daadwerkelijke alle URL’s
Het doel van een online marketeer is het vinden van alle URL’s met Screaming Frog. Met bovenstaande stappen is de kans vele malen groter dat je daadwerkelijk alle URL’s van je website gaat vinden.
Dit artikel is gecheckt door het SEO-panel.