Addons di ScrapeBox: Google Cache Extractor

Google Cache Extractor è un addon gratuito liberamente scaricabile all’interno del software desktop Scrapebox, il programma che implementa innumerevoli opzioni anche in ambito SEO.

Come abbiamo già visto in riferimento a Google Competition Finder (già presentato in una guida precedente) gli Addons sono programmi realizzati da sviluppatori che aggiungono ulteriori funzionalità al software base in modo tale da migliorare e potenziare quanto già previsto da Scrapebox. Se Competition Finder permette di scansionare la SERP di Google alla ricerca di risultati numerici relativi a specifiche query impostate, Cache Extractor permette di studiare con esattezza, e in modo immediato, l’aggiornamento della cache di Google riferita a una serie di URLs fornite risultando estremamente utile nella fase avanzata di sudio della SEO offline in particolar modo durante i servizi di Analisi dei competitors.

Ambito di utilizzo di Cache Extractor

Prima di entrare nel dettaglio del funzionamento del programma, però, è importante chiarire in quali ambiti lavorativi può essere utilizzato questo Addon. Cache Extractor, innanzitutto, permette di analizzare con esattezza l’ultima data di aggiornamento della cache di Google di uno o più domini (o singole URLs) che devono essere studiate con molta precisione. Conoscere questa data assume molta importanza all’interno di una strategia SEO comprensiva di vari aspetti.

Immagina di voler studiare con attenzione i siti di diversi competitors in modo tale da valutare se pubblicano contenuti in modo più o meno regolare. Ecco, questo addon permette di avere una visuale immediata dell’ultima data di aggiornamento della cache di Google di ogni singolo sito.
E visto che la “freschezza” dei contenuti e la loro pubblicazione costante e regolare è un fattore certo di ottimizzazione e di autorevolezza agli occhi dei motori di ricerca ecco che conoscere gli ultimi dati aggiornati rappresenta un fattore molto importante.

Controllo scadenza domini con Cache Extractor

Altri motivi per analizzare un sito con Cache Extractor è quello di valutare, indirettamente e in modo unicamente intuitivo, la scadenza di un dominio: se si nota che i contenuti statici ma soprattutto dinamici di un sito non sono aggiornati con frequenza si può presumere un poco interesse dei gestori del sito e questa valutazione rappresenta un punto di partenza per ulteriori controlli tecnici e valutazioni di tipo anche commerciale. Con questo strumento è anche possibile analizzare se contenuti che linkano al tuo sito, in una strategia globale di link building, sono indicizzati oppure dopo quanto tempo lo diventano.

Come puoi notare, quindi, una serie di possibili utilizzi sono già stati presentati, ed è facilmente intuibile come e quanto questo Addon possa essere utilizzato per ulteriori scopi che tu stesso potrai impostare a seconda di specifiche necessità. Dopo questa introduzione possiamo affrontare la parte più pratica studiando come organizzare al meglio Cache Extractor e come ottenere i primi risultati da studiare, analizzare e successivamente interpretare.

Come usare Google Cache Extractor: esempio pratico

La prima parte, quella relativa allo scarico e/o eventuale aggiornamento del software, è in tutto simile a quella già presentata per Google Competition Finder: ovviamente varia il programma ma la “teoria” risulta esattamente la simile ed è dunque facilmente replicabile.

Diversa invece è l’interfaccia in uso, il setup dei vari campi in uso e la finestra principale d’uso. Vediamola nei vari particolari.

Partiamo dalla videata principale di Scrapebox, impostando nella sezione di Harvester and Keywords l’elenco delle query che devono essere analizzate per ottenere, successivamente nel campo URLs Harvested, l’elenco di tutte le URLs che restitusicono contenuti collegati alle keywords iniziali.

Dopo aver filtrato/eliminato i domini, le URLs, le sottodirectory duplicate e multiple e dopo aver “tagliato” (Pulsante Trim) solo alla root principale del sito, è possibile caricare l’Addon e ci si ritrova collegati alla finestra principale che gestisce diverse sezioni e settaggi.

Vediamoli singolarmente, partendo dalla finestra iniziale che è divisa in due macro sezioni.

La prima è separata in colonne e presenta queste voci:

  • URL: ogni riga contiene una delle urls trovate in fase di scraping e harvesting inziale con ScrapingBox;
  • Proxy: mostra l’indirizzo IP del proxy che deve essere obbligatoriamente usato durante la fase di analisi;
  • Date/Time: riporta la data (con il formato mese, giorno e anno) e l’orario completo in formato ora:minuto:secondo nel quale è stata effettuato l’ultimo aggiornamento della cache secondo Google;
  • Status: una stringa di risposta che spiega lo stato dell’analisi. Può essere Completed (completata), Error, no cache oppure può mostrare un’altra serie di errori che devono essere analizzati singolarmente e forniscono una prima risposta sullo stato della url

La seconda, invece, è composta da alcuni campi di input o pulsanti di selezione che, partendo da sinistra, sono:

  • Import URL’s: campo a selezione che permette di importare tutte le URLs sia dal campo dei risultati di ScrapeBox (Import URLs from ScrapeBox Harvester) oppure da un file esterno in formato .txt (Import urls from file);
  • Start: per dare inizio all’analisi dei dati;
  • Stop: per bloccare definitivamente l’analisi dei dati;
  • Connections: quante URLs vengono analizzate contemporaneamente dal programma ricordando che più è alto il valore più è la velocità di analisi ma anche maggiore il rischio che gli indirizzi IP dei proxies in uso vengano bloccati e resi non utilizzabili temporaneamente;
  • Delay: viene settata la velocità di analisi della singola (o multipla) url. Contrariamente al campo precedente (come già visto per le analoghe impostazioni di Google Competition Finder) minore è la velocità in secondi maggiore è il rischio di rendere inutilizzabili i proxies in uso;
  • Retries: si tratta di un campo input impostabile che specifica il numero di tentativi massimo per il quale la singola url deve essere analizzata in modo tale da avere risposta. Dopo questo limite si passa a una riga successiva e viene mostrato il corrispondete messaggio di errore;
  • Remove failed/not found: si tratta di un pulsante che permette di eliminare in modo immediato e permanente tutte quelle URLs che hanno restituito un messaggio di errore. Serve per “pulire” la lista finale dei dati da tutti i dati errati;
  • Recheck errors: si tratta di un pulsante che permette di effettuare una nuova analisi ma solo riferita alle URLs per le quali si sono trovati dati errati;
  • Export: si tratta di un campo a selezione multipla che permette di scaricare i dati in diversi formati e a seconda della tipologia di risultato. Nello specifico si può scaricare la lista completa delle URLs in formato .txt, excel oppure solo la lista delle URLs con errori e quello delle URLs senza cache.