Se stai cercando informazioni su come funziona un motore di ricerca sei atterrato sulla pagina giusta. Seguendo lo schema logico esplicato da John Muller, cercherò di ripercorrere i passi fondamentali, evitando di rendere la lettura complicata e poco scorrevole. Premessa: Il motore che verrà preso in esame è, neanche a dirlo, Google.

La suddivisione dei processi

Per fare chiarezza immaginiamo di avere 3 grosse macro aree in cui si sviluppano i processi che determinano la visualizzazione dei risultati di ricerca, in gergo SERP:

  1. Crawling
  2. Indexing
  3. Searching

Crawling, molto più di un processo

Per capire come funziona un motore di ricerca è importante aver ben chiaro un concetto che spesso troviamo sintetizzato in concetti tipo “passa il crawler, scarica la risorsa e via”
 La fase di crawling in realtà racchiude più passaggi che si eseguono in maniera ciclica.

Tutto ha inizio dal database URL dove vengono raccolti tutti gli indirizzi scovati in ogni processo. Ho deciso di iniziare da questo passaggio, perché Google stesso è partito proprio da qui.
In prima battuta ha inserito link raccolti in directory o siti autorevoli, per poi espandere questo database durante tutte le fase di ricerca.

Gli URL presenti in questo listato vengono indirizzato verso lo Scheduler il quale, a sua volta, decide quali link passare al Crawler. Quindi sarà lui ad avere il potere decisionale.
Il Crawler (o come detto il Fetcher) ricevuti gli URL dallo Scheduler, effettua una chiamata HTTP verso i Web Server, i quali risponderanno con un response code ( 200, 301, 404…).
Se la risposta non presenta errori viene girata al Parser il quale ha il compito di analizzare e suddividere i contenuti [Note Bene: Google ha più motori ricerca verticali, come le immagini, news, video, etc…].
Il Parser, come detto, ha il compito di dividere i contenuti, se ci sono link li passa al database URL arricchendolo di nuove risorse e facendo ripartire il processo, invece se sono link esterni vengono passati al link graph. Stesso discorso per i contenuti di tipo testuale e multimediali.

Indexing, concetto e meccanismo.

Occorre fare chiarezza su questo concetto per capire il corretto funzionamento di un motore di ricerca.
Per indicizzazione si intende tutto quello che viene percepito da Google. Questa in linea di massima è il concetto base, semplice, ma efficace.

Come fa Google ad indicizzare le risorse?

Ricevuti dal Parser i documenti, Google utilizza tre diversi tipi di indice per comprendere le risorse e per fornire agli utenti SERP sempre più pertinenti. Andiamoli a scoprire:

  • Indice
  • Indice Invertito
  • Indice Forwarding

Creato l’indice, finalmente entriamo nella fase della searching dove Google, cercando di capire quello che l’utente cerca,  crea la SERP filtrando e offrendo risultati pertinenti ad alto indice ranking

Conclusioni

Cerca di capire come funziona un motore di ricerca è sicuramente affascinante, ma allo stesso tempo intricato. Questo è un articolo introduttivo, che affronta sommariamente alcuni dei processi fondamentali che Google svolge durante la fase di creazione di un indice e della SERP. Per gli approfondimenti vi rimando ai commenti qui sotto!