sábado, 20 de junio de 2015

Web Superficial y Web Profunda

Los buscadores tradicionales ofrecen acceso a una parte de lo que existe online. A esta parte se la denomina web superficial o visible. Hay otro contenidos en la Web que no se visualiza directamente con búsquedas tradicionales. A éstos últimos se los denominan web profunda o invisible; contienen información ubicada en catálogos, revistas digitales, blogs y contenidos de sitios que no aparecen en los resultados de búsquedas convencionales


La web es un gran iceberg, muestra solo una parte de su totalidad:


La web superficial o visible incluye sitios cuya información pude ser indexada por los robots de  los buscadores convencionales.                
                                                                                     
Las características principales de la WEB VISIBLE son:



Características de la web visible o superficial
Su información no está contenida en base de datos
Es de libre acceso
No requiere la realización de un proceso de registro para acceder a la información
En su mayor parte está formada por páginas web estáticas, con URL fija y accesible desde otro enlace.

La web invisible o profunda contiene toda la información en internet que no se recupera consultando a buscadores tradicionales. Al tener información generalmente contenida en bases de datos, la búsqueda requiere que sea con “preguntas” directas a través de paginas dinámicas: ASP (Active Server Page), PHP (Hipertext Preprocesor), etc. Estas páginas se generan en el momento de la búsqueda y luego de la búsqueda desaparecen (temporales)  Según Lluis Codina en lugar de Web invisible, debería llamarse web no indizable que sería el término más ajustado a la realidad.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:

Tipos
Características
WEB OPACA
Los archivos no están en los índices de los buscadores porque:
a- inexistencia de la indización en buscadores
b- la frecuencia de la indexación
c- número máximo de resultados visibles
d- inexistencia de indización en otro documento
WEB PRIVADA
Las páginas son excluida de los buscadores porque:
a- están protegidas por contraseña
b- contiene archivos “robots.txt” para evitar indexación.
c- contienen un campo “noindex” que evita el proceso
WEB PROPIETARIA
Requieren registrarse para ver el contenido
WEB INVISIBLE
Paginas que no pueden ser indizadas a menos que se realice una petición específica.

Algunos recursos de búsqueda en la Web profunda.

Los nombres contienen los enlaces de acceso a los sitios:

TheVirtual Library  creada por Tim Berners-Lee, se considera el catálogo más antiguo de la Web.
 
- Infopleasecon más de 57.000 artículos de la enciclopedia Columbia. 

- DeepWebTech. Posee motores de búsqueda que abarca la ciencia, medicina y negocios. 

-TechXtra, tiene información sobre ingeniería, matemáticas e informática. 


1 comentario: