Sådan gennemgår du et stort websted og udtrækker data ved hjælp af Screaming Frog's SEO Spider

Screaming Frog SEO Spider

Vi hjælper flere klienter lige nu med Marketo-migrationer. Da store virksomheder bruger virksomhedsløsninger som denne, er det som et spindelvæv, der fletter sig ind i processer og platforme i årevis ... indtil det punkt, at virksomheder ikke engang er opmærksomme på ethvert berøringspunkt.

Med en virksomheds markedsføringsautomatiseringsplatform som Marketo er formularer indgangspunktet for data på hele websteder og destinationssider. Virksomheder har ofte tusinder af sider og hundredvis af formularer på deres websteder, der skal identificeres for opdatering.

Et godt værktøj til dette er Screaming Frog's SEO Spider... måske den mest populære platform på markedet for gennemsøgning, revision og udpakning af data fra et websted. Platformen er funktionsrig og tilbyder hundredvis af muligheder til stort set enhver opgave, du har brug for.

Screaming Frog SEO Spider: Crawl And Extract

Et nøglefunktion i Screaming Frog SEO Spider er, at du kan udføre brugerdefinerede ekstraktioner baseret på Regex, XPath eller CSSPath detaljer. Dette er yderst nyttigt, da vi ønsker at gennemgå klientens websteder og revidere og fange MunchkinID og FormId-værdier fra sider.

Åbn med værktøjet Konfiguration> Brugerdefineret> Ekstraktion for at identificere elementer, du ønsker at udtrække.

skrigende skræddersyet ekstraktion

Ekstraktionsskærmen giver mulighed for næsten ubegrænset dataindsamling:

Screaming Frog SEO Spider Extraction Rules

Regex, XPath og CSSPath Extraction

For MunchkinID er identifikatoren placeret i formscriptet, der er inden for siden:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Vi anvender derefter en Regex-regel for at fange id'et fra script-tagget, der er indsat på siden:

Regex: ["']id["']: *["'](.*?)["']

For formular-id'et er dataene i et input-tag i Marketo-formularen:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Vi anvender en XPath-regel for at fange id'et fra den form, der er indsat på siden. XPath-forespørgslen søger efter en formular med et input med navnet på formid, så gemmer ekstraktionen værdi:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

En anden god mulighed for Screaming Frog er, at du ikke er begrænset til HTML på siden, du kan gengive enhver JavaScript, der skal indsætte formularer på dit websted. Inden for Konfiguration> Spider, kan du gå til fanen Rendering og aktivere dette.

Screaming Frog SEO Spider Javascript Rendering

Dette tager selvfølgelig lidt længere tid at gennemgå webstedet, men du får formularer, der gengives klientsiden af ​​JavaScript såvel som formularer, der indsættes på serversiden.

Selvom dette er en meget specifik applikation, er den utrolig nyttig, da du arbejder med store websteder. Du vil absolut gerne kontrollere, hvor dine formularer er indlejret i hele webstedet.

Download Screaming Frog SEO Spider

Hvad mener du?

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.