Come
ha raccontato recentemente
Lorenzo Motti, la ricerca all'interno di dati strutturati nel Web è una sfida che sta appassionando
Google, ma non solo. Se il motore di ricerca ha arruolato
Alon Halevy, già docente nell'Università di Washington, come team leader nel progetto di ricerca sul
Deep Web,
Juliana Freire della
University of Utah sta lavorando a un progetto chiamato
DeepPeep,
motore di ricerca specializzato appunto in web form la cui versione beta attualmente
è in grado di tracciare 13.000 moduli scavando nel cosiddetto Deep o Hidden Web, comprensivo di basi di dati e web service.
E' possibile trovare della documentazione sui problemi affrontati per il funzionamento del progetto, finanziato dalla
NSF (National Science Foundation), ma anche da altre istituzioni, all'interno del
wiki, nella sezione dedicata alle
pubblicazioni, che si possono consultare per approfondire alcuni aspetti e problemi, mentre per chi vuole semplicemente provare il motore esiste una piccola
guida all'uso della ricerca semplice e di quella avanzata.
Andando a curiosare un po' nei precedenti lavori della
Freire si trova
un crawler particolare chiamato
veriWeb,
in grado di esplorare appunto anche
il contenuto per così dire nascosto dietro al form, rilevando al tempo stesso anche eventuali problemi di malfunzionamento di un sito dinamico, primo fra tutti i collegamenti interrotti o
broken link.
Probabilmente ci vorrà ancora tempo prima di veder crescere questo progetto e altri simili; d'altra parte la necessità di accedere a questo tipo di dati, per ricerche comuni come quelle di lavoro, ma anche scientifiche come quelle sui farmaci e le loro interazioni, o magari finanziarie quando tornerà la fiducia nei mercati, potrebbero dare una spinta decisiva allo sviluppo di motori simili a questo, nonostante le difficoltà, legate non solo alla complessità della sfida in sé, ma anche alla possibilità che l'interfaccia di ricerca e quella di presentazione dei risultati diventino troppo complesse, scoraggiando così gli utenti meno motivati.