Lavoce.info

PAGERANK SEDUTO SULLE SPALLE DEI GIGANTI

L’algoritmo PageRank ha fatto la fortuna di Google e ha cambiato radicalmente i concetti di qualità e di verità dell’informazione che si trova sul web, allontanandoli dal giudizio erudito degli esperti e associandoli al parere espresso dall’intera comunità. Non mancano però i predecessori illustri, utilizzati in contesti diversi: da un indicatore bibliometrico a un modo per valutare il prestigio delle persone in una rete sociale, fino al metodo usato dall’economista premio Nobel Wassily Leontief per determinare i prezzi dei beni nei sistemi economici.

 

Google, il più famoso dei motori di ricerca, per ordinare i risultati (le pagine web) ottenuti dalla ricerca di un utente, unisce due metodi: la rilevanza e l’importanza. Assegna a ogni pagina un punteggio di rilevanza che misura quanto la pagina è attinente rispetto ai termini inseriti dall’utente. Ma il vero punto di forza di Google, che gli ha consentito di surclassare gli altri motori di ricerca, è il metodo che assegna il giudizio di importanza alle pagine. L’algoritmo prende il nome di PageRank e assegna un giudizio di importanza a ogni pagina indipendentemente dalle interrogazioni degli utenti, ma unicamente in funzione della rete dei collegamenti ipertestuali tra pagine web, rete che forma il world wide web. La tesi adottata dal PageRank è la seguente: "una pagina è importante se viene citata da altre pagine importanti".

IL METODO

Nel contesto del web, una citazione è un collegamento ipertestuale (link) da una pagina sorgente (la pagina che contiene il link) a una pagina destinatario (la pagina verso cui il link è diretto). La definizione, apparentemente circolare, è in realtà risolvibile usando strumenti matematici profondi, quali il teorema di Perron-Frobenius che garantisce l’esistenza e l’unicità di una soluzione, il metodo delle potenze che permette di calcolarla in modo iterativo. Più precisamente, il metodo del PageRank usa i seguenti tre fattori per determinare l’importanza di una pagina web:
1. il numero di link ricevuti dalla pagina;
2. l’importanza delle pagine sorgenti che contengono i link alla pagina;
3. il numero di link contenuti nelle pagine sorgenti. 

Per capire l’importanza del metodo, applichiamolo a una ipotetica rete in cui i giornalisti sono tra loro collegati da giudizi di riconoscimento. Possiamo reinterpretare i tre fattori del PageRank esposti sopra nel seguente modo:
1. un giornalista è tanto più prestigioso quanto più elevato è il numero di riconoscimenti che ottiene da parte di colleghi;
2. riconoscimenti ricevuti da giornalisti importanti valgono più di giudizi ottenuti da giornalisti poco stimati;
3. infine, se un giornalista elargisce abbondanti riconoscimenti, i suoi giudizi sono inflazionati e valgono meno.

I PREDECESSORI

Il metodo del PageRank è stato proposto da Sergey Brin e Larry Page nel 1998 durante il dottorato all’università di Stanford ed è oggi uno degli ingredienti principali del motore di ricerca Google. È curioso come, in realtà, il metodo fosse già noto ben prima del 1998 in contesti completamente diversi dalle ricerche sul web. (1)
Nel 1976 Gabriel Pinski e Francis Narin propongono un metodo bibliometrico per valutare l’importanza delle riviste accademiche. L’intuizione è sorprendentemente simile a quella del PageRank: "una rivista è influente se viene citata da altre riviste influenti". In questo caso, per citazioni di intendono i riferimenti bibliografici contenuti negli articoli delle riviste. L’indicatore bibliometrico noto come Eigenfactor realizza l’idea proposta da Pinski e Narin, e oggi, è considerato un serio concorrente dell’Impact Factor proposto da Eugene Garfield.
Nel 1965 il sociologo Charles H. Hubbell propone un metodo per valutare il prestigio delle persone in una rete sociale. Anche in questo caso, la tesi è la medesima: "una persona è prestigiosa se viene riconosciuta da altre persone di prestigio". Vi è però una variante interessante: il giudizio di valore espresso dai soggetti può essere anche negativo. Naturalmente, ricevere giudizi positivi da persone importanti aumenta il nostro valore, mentre ricevere giudizi negativi da persone di valore fa decrescere il nostro prestigio. Al contrario, secondo l’algoritmo di Hubbell, ricevere riconoscimenti positivi da persone negative (ad esempio, da un mafioso) diminuisce il nostro valore, mentre essere osteggiati da persone negative aumenta il nostro prestigio (si pensi a Roberto Saviano).
Ma la vera sorpresa sta nel fatto che il metodo usato dall’economista russo Wassily W. Leontief per determinare i prezzi dei beni nei sistemi economici, ideato nel lontano 1941 (più di mezzo secolo prima della nascita di Google) e che gli è valso il premio Nobel per l’Economia nel 1973, non è altro che il PageRank sotto altre spoglie. Leontief interpreta l’economia come una rete di industrie o settori in cui ogni settore riceve beni da altre industrie e li usa per produrre beni che a sua volta vende ad altri settori. Per determinare i prezzi dei beni prodotti dai vari settori che mantengano la riproducibilità dell’economia, vale a dire il pareggio tra costi e ricavi in ogni settore, Leontief usa un algoritmo molto simile al PageRank. Secondo questo metodo, industrie fortemente remunerative acquistano i loro prodotti da altre industrie remunerative, la stessa circolarità che ritroviamo nel PageRank. Curioso come proprio un economista russo sia alla base del successo di uno dei più grossi colossi tecnologici americani.
In realtà, il vero contributo di Sergey Brin e Larry Page è stato quello di partire da una idea non completamente originale e trasformarla, per costruire qualcosa di incommensurabile utilità nell’era dell’informazione. Il metodo del PageRank ha cambiato radicalmente i concetti di qualità e di verità dell’informazione che si trova sul web, allontanandoli dal giudizio erudito degli esperti e associandoli al parere espresso dall’intera comunità.

PER SAPERNE DI PIÙ

MIT Technology Review
PhysOrg

(1) Una storia completa di questi illustri predecessori si può trovare nel mio articolo "PageRank: Stand on the shoulders of giants" (reperibile al sito arxiv.org).

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

Leggi anche:  Sui tagli alla ricerca l’Europa sbaglia

Precedente

BANCHE CROSS-BORDER: LA VIGILANZA IN TEMPO DI CRISI

Successivo

LA PAURA, LA TENSIONE, LA VIOLENZA

  1. Andrea Giannangelo

    Nell’ultimo anno Google sembra porre in discussione l’algoritmo PageRank e ha annunciato un nuovo sistema, denominato Caffeine. Le specifiche di questo nuovo algoritmo sono fuori da ogni certezza come lo sono tutt’oggi quelle di PageRank, su cui Google ha sempre distribuito informazioni vaghe (specie circa i pesi delle voci di giudizio). Va inoltre detto che l’autorevolezza segnalata dai collegamenti non è affatto l’unico fattore di giudizio. Forse n’è il maggiore, ma insieme ad esso concorrono numerosi dettagli tutt’altro che trascurabili. A mio parere ciò costituisce una forza, poichè un sistema di giudizio semplicistico (come uno plasmato intorno a quanto si spiega nell’articolo) mostra in breve tempo i suoi difetti. Un algoritmo articolato permette invece di correggere le imperfezioni e restituire un dato affidabile. Nella rete tutto può essere computato (come non accade in buona parte della realtà umana), così un sistema complesso è per buona sorte realizzabile. Saluti.

  2. MARINO

    Complimenti, un articolo veramente interessante.

Lascia un commento

Non vengono pubblicati i commenti che contengono volgarità, termini offensivi, espressioni diffamatorie, espressioni razziste, sessiste, omofobiche o violente. Non vengono pubblicati gli indirizzi web inseriti a scopo promozionale. Invitiamo inoltre i lettori a firmare i propri commenti con nome e cognome.

Powered by WordPress & Theme by Anders Norén