Los buscadores tradicionales ofrecen acceso a una parte de
lo que existe online. A esta parte se la denomina web superficial o visible.
Hay otro contenidos en la Web que no se visualiza directamente con búsquedas tradicionales.
A éstos últimos se los denominan web profunda o invisible; contienen
información ubicada en catálogos, revistas digitales, blogs y contenidos de
sitios que no aparecen en los resultados de búsquedas convencionales
La web es un gran iceberg, muestra solo una parte de su
totalidad:
La web superficial o visible incluye sitios
cuya información pude ser indexada por los robots de los buscadores convencionales.
Las características principales de la WEB VISIBLE son:
Características de la web visible o
superficial
|
Su información
no está contenida en base de datos
|
Es de libre
acceso
|
|
No requiere la
realización de un proceso de registro para acceder a la información
|
|
En su mayor
parte está formada por páginas web estáticas, con URL fija y accesible desde
otro enlace.
|
La web invisible o
profunda contiene toda la información en internet que no se recupera
consultando a buscadores tradicionales. Al tener información generalmente
contenida en bases de datos, la búsqueda requiere que sea con “preguntas”
directas a través de paginas dinámicas: ASP (Active Server Page), PHP
(Hipertext Preprocesor), etc. Estas páginas se generan en el momento de la búsqueda
y luego de la búsqueda desaparecen (temporales) Según Lluis Codina en lugar de Web invisible,
debería llamarse web no indizable que sería el término más ajustado a la
realidad.
Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:
Tipos
|
Características
|
WEB OPACA
|
Los archivos no
están en los índices de los buscadores porque:
a- inexistencia de la indización en buscadores
b- la frecuencia de la indexación
c- número máximo de resultados visibles
d- inexistencia de indización en otro documento
|
WEB PRIVADA
|
Las páginas son
excluida de los buscadores porque:
a- están protegidas por contraseña
b- contiene archivos “robots.txt” para evitar indexación.
c- contienen un campo “noindex” que evita el proceso
|
WEB PROPIETARIA
|
Requieren registrarse
para ver el contenido
|
WEB INVISIBLE
|
Paginas que no
pueden ser indizadas a menos que se realice una petición específica.
|
Algunos recursos de
búsqueda en la Web profunda.
Los nombres contienen los enlaces de acceso a los sitios:
- TheVirtual Library creada por Tim
Berners-Lee, se considera el catálogo más antiguo de la Web.
- Infopleasecon más de 57.000 artículos de la enciclopedia Columbia.
- DeepWebTech. Posee motores de búsqueda que abarca la
ciencia, medicina y negocios.
-TechXtra, tiene información sobre ingeniería, matemáticas e
informática.
En
este enlace encontrarás 15 buscadores para web profunda. http://inteligenciacomunicaciononline.blogspot.com.ar/2014/04/15-buscadores-para-web-profunda-osint.html
Estupenda entrada. Un saludo ;)
ResponderEliminarVISITA MI BLOG