mercoledì 28 novembre 2012

La ricerca nel web invisibile

Il Web invisibile si riferisce alla parte del WWW che non è indicizzato dai motori di ricerca. La maggior parte della gente pensa che la potenza di ricerca di motori come Google e Bing sia senza limiti, e che nulla pubblicato in rete possa sfuggire alla loro individuazione e indicizzazione.
In realtà le cose non sono così semplici, l'indicizzazione dei documenti da parte dei motori usa uno schema abbastanza semplice, utilizzando un web spider che rileva le pagine seguendo un collegamento ipertestuale dopo l'altro. Ma ci sono alcuni luoghi dove uno spider non può entrare, prendete ad esempio i database delle biblioteche che hanno bisogno di una password per l'accesso, o anche le pagine che appartengono a reti di organizzazioni private, oppure le pagine web generate dinamicamente in risposta a una query, generalmente tutte queste categorie di pagine non sono indicizzate dai motori di ricerca. Quindi anche se la tecnologia dei motori ha fatto enormi progressi rimangono ampie fasce del web che un motore di ricerca "generalista" non può indicizzare, questa parte del web è chiamata "web invisibile". Per avere un' idea della vastità della documentazione che sfugge ai principali motori di ricerca basta leggere cosa dice wikipedia a riguardo, stima una dimensione di 167 terabyte per il web "aperto" contro 91000 terabyte per il web "invisibile".

Per ricercare documentazione non indicizzata dai motori generalisti è possibile utilizzare dei motori specializzati ecco i principali:

1)http://infomine.ucr.edu/  Infomine è stato costruito da un pool di biblioteche universitarie negli Stati Uniti. Alcune di queste sono University of California, Wake Forest University, California State University, e l'Università di Detroit. Ricerca in banche dati, periodici elettronici, libri elettronici, bacheche, mailing list, schedari di biblioteche, directory di ricercatori, e molte altre risorse.

2)http://vlib.org/ Questo è considerato il più antico catalogo sul web ed è stato avviato  da Tim Berners-Lee, il creatore del web.

3)http://www.intute.ac.uk/ In cui collaborano alcune delle più apprezzate università del regno unito.

4)http://aip.completeplanet.com  Molto ben progettato rende facile accedere alla massa di informazioni delle banche di dati dinamici.

5)http://www.infoplease.com Dove è possibile attingere a un buon numero di enciclopedie, almanacchi,  atlanti geografici, e biografie.

6)http://www.deepwebtech.com/ DeepWebTech offre cinque motori di ricerca per argomenti specifici. I motori di ricerca riguardano la scienza, la medicina, e le imprese.

7)http://www.scirus.com Scirus ha un focus scientifico. Si tratta di un motore di ricerca di vasta portata che può setacciare riviste, homepage di scienziati, brevetti e altro.

8)http://www.techxtra.ac.uk TechXtra si concentra su ingegneria, matematica e informatica. Ti dà notizie del settore, annunci di lavoro, relazioni tecniche e dati tecnici.

Nessun commento:

Posta un commento