Mis libros preferidos.: Práctica 4. Web superficial i web profunda.

Web Superficial vs Web profunda.

Se conoce como Internet superficial o visible a la porción de Internet que es indexada por las arañas de los motores de búsqueda, estimándose que incluye un 4% del total de la informació existente en la red.

Se conoce informalmente como internet profunda o internet invisible a una porción presumiblemente muy grande de la internetque es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente. Se estima que incluye el 96% del total de la informació existente en la red.

Sherman y Price (2001) definen 4 tipos de contenidos invisibles en la web :

la web opaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary web) y la web realmente invisible (the truly invisible web).

La web opaca

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

· Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

· Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

· Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

· URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

La web privada

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

· Las páginas están protegidas por contraseñas (passwords).

· Contienen un archivo “robots.txt” para evitar ser indizadas.

· Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La web propietaria

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito (Turner, 2003)

La web realmente invisible

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

· Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

· Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

· Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

( Fuente de la información )

Veamos a continuación algunos recursos de búsqueda en la web profunda que pueden ser de utilidad para los usuarios académicos universitarios.

Recursos de búsqueda en la web profunda

por tipo de recurso

Tipo de recurso	Nombre y dirección del recurso
Buscadores	ResearchIndex (CiteSeer) http://citeseer.nj.nec.com/cs
	Scirus http://www.scirus.com/
	WebSearch http://www.websearch.com.au/
Metabuscadores	iBoogie http://www.iboogie.tv/
	Fazzle http://www.fazzle.com/
	Fossick http://fossick.com/
	Ixquick http://www.ixquick.com/
	ProFusion http://www.profusion.com/
	Search.Com http://www.search.com/
Directorios de buscadores	AlphaSearch http://www.alphasearch.org/
	Beaucoup http://www.beaucoup.com/
	Collection of Search Engines http://www.leidenuniv.nl/ub/biv/specials.htm
Directorios
	The Big Hub http://www.thebighub.com/
	CompletePlanet http://www.completeplanet.com/
	Direct Search http://www.freepint.com/gary/direct.htm
	HotSheet http://www.hotsheet.com/
	IncyWincy http://www.incywincy.com/
	Infomine http://infomine.ucr.edu/
	InternetInvisible http://www.internetinvisible.com/
	Internets http://www.internets.com/
	InvisibleWeb.com http://www.invisibleweb.com/
	Invisible Web Directory http://www.invisible-web.net/
	Librarians Index http://lii.org/
	Master Link List On the Internet http://www.web-friend.com/links/masterlinks.html
	RefDesk.com http://refdesk.com/
	Webfile.com http://webfile.com/
	Where to Do Research http://www.wheretodoresearch.com/
Directorios anotados	AcademicInfo http://www.academicinfo.net/
Directorios anotados	Resource Discovery Network http://www.rdn.ac.uk/
Directorios de bases de datos	WebData.com http://www.webdata.com/
Guías	About http://www.about.com/
Guías	LibrarySpot http://www.libraryspot.com/
Motores avanzados	Deep Query Manager (sustituye a Lexibot) http://brightplanet.com/news/dqm2.asp
	FeedPoint http://www.quigo.com/feedpoint.htm
	Search4science http://www.search4science.com/
	Strategic Finder http://www.strategicfinder.com/

( Fuente de la información )

Xavier Obis

Mis libros preferidos.

divendres, 23 d’octubre del 2015

Práctica 4. Web superficial i web profunda.

Cap comentari:

Publica un comentari a l'entrada