Programmazione.it v6.4
Ciao, per farti riconoscere devi fare il login. Non ti sei ancora iscritto? Che aspetti, registrati adesso!
Info Pubblicità Collabora Autori Sottoscrizioni Preferiti Bozze Scheda personale Privacy Archivio Libri Corsi per principianti Forum
Motori di ricerca sempre più veloci
Scritto da Paolo Raviola il 09-06-2009 ore 11:07
Intel Parallel Studio XE 2015
L'obiettivo di tutti i motori di ricerca internet è di ottenere risposte pertinenti nel minor tempo possibile; nella sua dissertazione Finding, Extracting and Exploiting Structure in Text and Hypertext, Ola Ågren, della Umeå University in Svezia, descrive un nuovo approccio che produce rapidamente risultati più accurati.

I dati possono essere predisposti in una forma strutturata, come quelli di un database (il cosiddetto Deep Web), oppure al contrario non avere pressoché nessuna organizzazione, come un file di testo; nel mezzo si trovano dati semi-strutturati, come i documenti HTML e PDF: su questi si è concentrata l'attenzione del ricercatore.

I più comuni search engine, come Google, generano una singola, gigantesca, graduatoria (ranking) di tutte le pagine disponibili sulla Rete. L'algoritmo sviluppato da Ågren, invece, ha come base una pagina di partenza pertinente alla ricerca, e include poi tutte le pagine che, direttamente o indirettamente, fanno riferimento ad essa.

Lo studio è frutto di tre progetti diversi: AlgExt, che estrae metadati dal codice sorgente, CHiC, che scopre strutture all'interno di vasti insiemi di metadati, e S2ProT, versione aggiornata di ProT (Basic Propagation of Trust), di gran lunga il più complesso, che utilizza elementi testuali e strutturali nei documenti semi-strutturati per compilare una graduatoria.

Per un determinato insieme di pagine web, i procedimenti ordinari hanno impiegato più di sette giorni per il ranking; l'algoritmo di Ågren ci ha messo 158 secondi. Per valutare la pertinenza dei primi dieci risultati, sono stati usati tre metodi: uno sviluppato dall'autore e due varianti del PageRank usato da Google.

È stata condotta anche una prova pratica: alcuni utenti sono stati invitati a giudicare la rilevanza dei risultati ottenuti dalle loro ricerche, senza sapere ovviamente quale searching engine stavano usando. L'algoritmo di Ågren si è dimostrato migliore nel 60% dei casi.
Precedente: MACAW, un protocollo MAC per le wireless ad hoc network (4/4)
Successiva: Un banale script per i CAPTCHA
Copyright Programmazione.it™ 1999-2014. Alcuni diritti riservati. Testata giornalistica iscritta col n. 569 presso il Tribunale di Milano in data 14/10/2002. Pagina generata in 0.195 secondi.