Come funziona Google? Lo spiega Amit Singhal: algoritmo, PageRank, indexer…

Amit Singhal, socio di Google e capo della “squadra algoritmo” (Ap-LaPresse)

MOUNTAIN VIEW, CALIFORNIA – Come funziona Google? Come funziona l’algoritmo del motore di ricerca che indicizza 20 miliardi di pagine web al giorno e che ogni giorno cerca una risposta a tre miliardi di richieste? Riccardo Staglianò del “Venerdì” di Repubblica lo ha domandato ad Amit Singhal, ingegnere informatico originario dell’Uttar Pradesh (nel nord dell’India) che è socio di Google ed è stato messo dall’azienda fondata da Larry Page e Sergey Brin a capo del team che si occupa dell’algoritmo con il quale il motore di ricerca “indicizza” le pagine sul web, ovvero del “cuore di Google”

Staglianò ha cercato di capire cosa si nasconde dietro un algoritmo che è diventato così famoso da diventare un verbo: “googlare”, ovvero cercare una cosa su internet.

“Quando voi digitate una o più parole, chiave della vostra ricerca, nella schermata di Google e premete invio, la richiesta viene indirizzata dal vostro pc al server – ovvero a un gruppo di potenti computer – che si trova più vicino. Singhal non dice né quanti sono né in quali datacenter si trovano. Chi in Rete ha provato a indovinare il numero […] ha parlato di circa 900 mila server. […] la rete di comunicazione privata più efficiente al mondo. Che riesce a indicizzare circa 20 miliardi di pagine web al giorno. Gestire oltre tre miliardi di richieste quotidiane. Archiviare le email di 425 milioni di utenti Gmail, oltre a servire miliardi di video su YouTube”

Lo spiega Singhal: “È stato calcolato che in media una richiesta compie un viaggio lungo le fibre ottiche di 2.400 km. Un’andata e un ritorno che non deve durare più di un quarto di secondo. […] Dal momento che non siamo ancora riusciti a superare le leggi della fisica, più vicina è la macchina, più rapida è la risposta”

RANKING. Quello che succede è che prima di digitare quello che stiamo cercando e cliccare su “search”, i crawler o spider di Google sono già entrati in azione “intrappolandoci” nella ragnatela del web. Spiega sempre Singhal:

“Setacciano sistematicamente il web, almeno nella parte non protetta da password o realizzata in codici inaccessibili tipo Flash, e copiano il contenuto delle pagine sui nostri server sparsi per tutto il mondo. Quindi entrano in funzione altri programmi, gli indexer, che estrapolano le parole chiave delle pagine e costruiscono un indice che, come succede nei libri, ne facilitano la consultazione informatica.

A questo punto scatta la parte più delicata, il ranking, ovvero si devono mettere in ordine i risultati. Prima, semplificando, si contava quante volte la parola chiave ricorreva in una pagina.

Poi Google ha introdotto il PageRank, che desume i risultati più pertinenti da quanti (e quali) siti affini linkano a una determinata pagina. La logica è: se tanti esperti consigliano un sito, vuol dire che è il migliore. Ma questa dei link non è che una delle tante euristiche, ipotesi interpretative, tra i circa duecento “segnali” che adoperiamo per trovare la risposta più giusta alle domande degli utenti.

Ad esempio, una pagina che contiene la parola chiave nel titolo probabilmente la tiene in maggiore considerazione, e quindi più pertinente, di una che ce l’ha in una nota. Oppure se la parola chiave è a sua volta un link, vuole dire che è importante. Ancora: la pagina più recente ha la meglio su quella più antica. O quella geograficamente più vicina all’indirizzo telematico di chi cerca si presume più interessante per lui di quella lontana. E così via. Tanti indizi contestuali, come li chiamiamo, che incrociamo per fornire la risposta esatta”.

L’ALGORITMO. C’è dell’ingegneria non solo informatica nella riuscita di Google. C’è anche qualcosa dell’idraulica nei tubi di fibre ottiche che fanno correre i dati da una parte all’altra del pianeta. Ma c’è soprattutto il continuo aggiornamento dell’algoritmo. Singhal:

L’algoritmo è il cuore di Google. Lo modifichiamo costantemente, circa 500 volte all’anno. Per evitare che qualcuno che è riuscito a capirne il funzionamento provi a piegarlo a proprio vantaggio, favorendo certi siti a discapito di altri. Come quelli che scrivono tante volte le parole chiave nello stesso colore dello sfondo, invisibili all’occhio umano ma non al crawler, che potrebbe illudersi che quella pagina sia particolarmente utile. E poi, a prescindere dalla necessità di bloccare i tentativi di chi vorrebbe dirottarlo a propri fini, vogliamo continuare a migliorarlo”.

DISAMBIGUARE. Il lavoro più difficile dell’algoritmo è coniugare sistemi matematici con i criteri più scivolosi della linguistica. Come si può “umanizzare” un sistema di calcolo? Facendo ancora più calcoli e incrociandoli, a quanto spiega Singhal:

“Come fa la macchina a intuire se la persona che digita “apple” intende il frutto o la produttrice di computer? Ovvero, come dicono i linguisti, a “disambiguare”? Ad esempio, se la stessa persona, dall’indirizzo IP che contraddistingue il suo computer, ha già cercato “marmellata” o “anticrittogamici”, il motore può ipotizzare che voglia notizie sul frutto. Ma non è sempre così facile. Prendete due termini quasi identici come apartment service e serviced apartments. Considerandoli banalmente due stringhe di testo, la differenza ammonta a una d e a un diverso ordine. Quanto al senso però sono due bestie totalmente diverse: una si riferisce genericamente ad agenzie immobiliari e l’altra più specificamente ad appartamenti ammobiliati”.

GOOGLE TRANSLATE. È incrociando i dati disponibili in Rete che un’operazione così “umana” come la traduzione da una lingua all’altra può essere realizzata da un sistema di calcolo. Sin dall’inizio Google Translate ha avuto successo ma le sue traduzioni che fino a qualche tempo fa risultavano comiche si sono fatte via via più precise, soprattutto dal tedesco all’inglese. Perché le strutture lessicali e grammaticali delle due lingue sono simili? No. Perché sono fra le più “parlate” su Internet. Google Translate, avendo moltissime pagine e voci a disposizione da incrociare, riesce a raffinare i risultati fino ad ottenere una traduzione quasi umana.

I commenti sono chiusi.

Gestione cookie