A parte de los motores de búsquedas más conocidos y convencionales, existen otros con métodos de búsqueda más profundos donde podemos encontrar mayor información. Éstos comprenden catálogos, revistas digitales, blogs, entradas a diccionarios, etc...
De ahí surgen los términos de web superficial y profunda.
WEB SUPERFICIAL
También llamada WEB VISIBLE, es aquella que todos conocemos y a la que tenemos acceso de modo convencional, es decir, accedemos a ella a través de los buscadores más conocidos y mediante una consulta en sus formularios de búsqueda, como hemos visto en entradas anteriores.
Las características principales de los sitios a los que accedemos en ella son:
- Su información no está contenida en bases de datos.
- Es de libre acceso.
- No se requiere la realización de un proceso de registro para acceder a la información.
- Mayoritariamente está formada por páginas web estáticas, es decir, páginas o archivos con una URL fija y accesibles desde otro enlace.
WEB PROFUNDA
También llamada WEB INVISIBLE, es aquella cuya información disponible no se encuentra a través de buscadores convencionales. Generalmente está almacenada en bases de datos. Esta información es invisible a los robots de los buscadores convencionales ya que los resultados se generan a la contestación mediante páginas dinámicas (ASP, PHP,..), es decir, estas páginas no tienen una URL fija y la construyen en el momento de la consulta desapareciendo una vez cerrada ésta.
Hay cuatro tipos de contenidos invisibles en esta web:
- Web opaca
- Web privada
- Web propietaria
- Web realmente invisible
Web opaca:
Está compuesta por archivos que no aparecen en los índices de los buscadores por alguno de estos motivos:
- Extensión de la indización: por razones de economía.
- Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes.
- Número máximo de resultados visibles: los motores de búsqueda limitan el número de documentos que se muestran entre 200 y 1000.
- URL desconectadas: los buscadores presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, será imposible que la página sea encontrada porque no se encuentra indizada.
Web privada:
Está compuesta por páginas web que están excluidas de los buscadores por alguno de estos motivos:
- Las páginas están protegidas por contraseñas
- Contienen un archivo "robot.exe" para impedir que sean indizadas.
- Contienen un campo"noindex" para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Generalmente son excluidas por su falta de utilidad por sus propios dueños.
Web propietaria:
Está formada por aquellas páginas en las que es necesario registrarse para acceder a su información, ya sea de forma gratuita o arancelada.
Web realmente invisible:
Está formadas por páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Podemos encontrar algunos recursos de la web profunda como:
- The www virtual library, considerado el catálogo más antiguo de la web iniciado por Tim Berners-lee, el creador de la web.
- Infoplease, es la web de consulta de la enciclopedia Columbia.
- DeepWebTech, ofrece cinco motores de búsqueda para temas específicos como ciencia, medicina y negocios.
- TechXtra, centra su información en ingeniería, matemáticas e informática.
Para más información:
- https://es.wikipedia.org/wiki/Internet_profunda
- https://es.wikipedia.org/wiki/Internet_superficial
-http://www.guiaspracticas.com/diseno-web/internet-superficial-internet-profunda-e-internet-oscura