Encontrando tesoros en la red. : Web Superficial y Web Profunda

Los buscadores tradicionales ofrecen acceso a una parte de lo que existe online. A esta parte se la denomina web superficial o visible. Hay otro contenidos en la Web que no se visualiza directamente con búsquedas tradicionales. A éstos últimos se los denominan web profunda o invisible; contienen información ubicada en catálogos, revistas digitales, blogs y contenidos de sitios que no aparecen en los resultados de búsquedas convencionales

La web es un gran iceberg, muestra solo una parte de su totalidad:

La web superficial o visible incluye sitios cuya información pude ser indexada por los robots de los buscadores convencionales.

Las características principales de la WEB VISIBLE son:

Características de la web visible o superficial	Su información no está contenida en base de datos
	Es de libre acceso
	No requiere la realización de un proceso de registro para acceder a la información
	En su mayor parte está formada por páginas web estáticas, con URL fija y accesible desde otro enlace.

La web invisible o profunda contiene toda la información en internet que no se recupera consultando a buscadores tradicionales. Al tener información generalmente contenida en bases de datos, la búsqueda requiere que sea con “preguntas” directas a través de paginas dinámicas: ASP (Active Server Page), PHP (Hipertext Preprocesor), etc. Estas páginas se generan en el momento de la búsqueda y luego de la búsqueda desaparecen (temporales) Según Lluis Codina en lugar de Web invisible, debería llamarse web no indizable que sería el término más ajustado a la realidad.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:

Tipos	Características
WEB OPACA	Los archivos no están en los índices de los buscadores porque: a- inexistencia de la indización en buscadores b- la frecuencia de la indexación c- número máximo de resultados visibles d- inexistencia de indización en otro documento
WEB PRIVADA	Las páginas son excluida de los buscadores porque: a- están protegidas por contraseña b- contiene archivos “robots.txt” para evitar indexación. c- contienen un campo “noindex” que evita el proceso
WEB PROPIETARIA	Requieren registrarse para ver el contenido
WEB INVISIBLE	Paginas que no pueden ser indizadas a menos que se realice una petición específica.