divendres, 23 d’octubre del 2015

Práctica 4. Web superficial i web profunda.

Web Superficial vs Web profunda.


Se conoce como Internet superficial o visible a la porción de Internet que es indexada por las arañas de los motores de búsqueda, estimándose que incluye un 4% del total de la informació existente en la red.

Se conoce informalmente como internet profunda o internet invisible a una porción presumiblemente muy grande de la internetque es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente. Se estima que incluye el 96% del total de la informació existente en la red.

Sherman y Price (2001) definen 4 tipos de contenidos invisibles en la web :

la web opaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary web) y la web realmente invisible (the truly invisible web).

La web opaca
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:
·     Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
·     Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
·     Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
·     URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

La web privada
Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:
·     Las páginas están protegidas por contraseñas (passwords).
·     Contienen un archivo “robots.txt” para evitar ser indizadas.
·     Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La web propietaria
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito (Turner, 2003)

La web realmente invisible
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
·      Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
·      Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
·      Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

( Fuente de la información  )

Veamos a  continuación algunos recursos de búsqueda en la web profunda que pueden ser de utilidad para los usuarios académicos universitarios.

Recursos de búsqueda en la web profunda
por tipo de recurso
Tipo de recurso
Nombre y dirección del recurso
Buscadores

Metabuscadores
Directorios de buscadores
Directorios
Directorios anotados
Directorios de bases de datos
Guías
Motores avanzados
Deep Query Manager (sustituye a Lexibot)


Fuente de la información  )

Xavier Obis

Cap comentari:

Publica un comentari a l'entrada