Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
WED PROFUNDA
La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseñas o códigos especiales, pueden hacerlo.
- contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
- contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
- contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
- contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
- sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
- web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión.
- web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).
WED SUPERFICIAL
La WED SUPERFICIAL se compone de páginas estáticas o fijas, mientras que la web profunda está compuesta de páginas dinámicas. La páginas estáticas no dependen de una base de datos para desplegar su contenido sino que residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se realizan directamente en el código y la nueva versión de la página se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas. Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El contenido se coloca en una base de datos y se proporciona solo cuando lo solicite el usuario.
Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).
La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.
- La Web privada consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
Las páginas están protegidas por contraseñas.
- La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.
- La Web realmente invisible :se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
NOTA: a continuación les dejo link de un video sobre la web superficial y profunda.


No hay comentarios:
Publicar un comentario