Telarañas, pajaritas, redes sin escala y la Deep Web

La World Wide Web evoca imágenes de una telaraña gigante donde todo está conectado a todo lo demás en un patrón aleatorio y puede ir de un extremo a otro de la web simplemente siguiendo los enlaces correctos. En teoría, eso es lo que hace que la web sea diferente del típico sistema de índices: puede seguir hipervínculos de una página a otra. En la teoría del «mundo pequeño» de la web, se cree que cada página web está separada de cualquier otra página web por un promedio de unos 19 clics. En 1968, el sociólogo Stanley Milgram inventó la teoría del mundo pequeño para las redes sociales al señalar que cada ser humano estaba separado de cualquier otro humano por solo seis grados de separación. En la Web, la teoría del pequeño mundo fue apoyada por investigaciones preliminares en una pequeña muestra de sitios web. Pero una investigación realizada conjuntamente por científicos de IBM, Compaq y Alta Vista encontró algo completamente diferente. Estos científicos utilizaron un rastreador web para identificar 200 millones de páginas web y seguir 1.500 millones de enlaces en estas páginas.

El investigador descubrió que la telaraña no era en absoluto como una telaraña, sino más bien como una pajarita. La web de pajarita tenía un «componente conectado fuerte» (SCC) compuesto por alrededor de 56 millones de páginas web. En el lado derecho de la pajarita había un conjunto de 44 millones de páginas OUT que se podían obtener del centro, pero que no se podían volver al centro. Las páginas de OUT tienden a ser páginas de intranet corporativas y otros sitios web que están diseñadas para atraparlo en el sitio cuando aterriza. En el lado izquierdo de la pajarita había un conjunto de 44 millones de páginas IN desde las cuales se podía llegar al centro, pero al que no se podía viajar desde el centro. Se trataba de páginas creadas recientemente que aún no se habían vinculado a muchas páginas centrales. Además, 43 millones de páginas se clasificaron como páginas «zarcillos» que no se vinculaban con el centro y no se podían vincular desde el centro. Sin embargo, las páginas de zarcillos a veces estaban vinculadas a páginas IN y / o OUT. Ocasionalmente, los zarcillos se unen entre sí sin pasar por el centro (estos se denominan «tubos»). Finalmente, hubo 16 millones de páginas totalmente desconectadas de todo.

La investigación realizada por Albert-Lazlo Barabasi en la Universidad de Notre Dame proporciona más evidencia de la naturaleza estructurada y no aleatoria de la Web. El equipo de Barabasi descubrió que, lejos de ser una red aleatoria de 50 mil millones de páginas web que explotaba exponencialmente, la actividad en la web estaba en realidad muy concentrada en «supernodos muy conectados» que proporcionaban conectividad a nodos menos conectados. Barabasi denominó a este tipo de red una red «sin escala» y encontró paralelos en el crecimiento de cánceres, transmisión de enfermedades y virus informáticos. Resulta que las redes sin escala son altamente vulnerables a la destrucción: destruyen sus supernodos y la transmisión de mensajes se interrumpe rápidamente. Por el lado positivo, si usted es un especialista en marketing que intenta «difundir el mensaje» sobre sus productos, coloque sus productos en uno de los supernodos y observe cómo se difunden las noticias. O crea supernodos y atrae a una gran audiencia.

Por lo tanto, la imagen de la web que surge de esta investigación es bastante diferente a la de informes anteriores. La noción de que la mayoría de los pares de páginas web están separados por un puñado de enlaces, casi siempre menos de 20, y que el número de conexiones crecerá exponencialmente con el tamaño de la web, no es compatible. De hecho, existe un 75% de probabilidad de que no haya una ruta de una página elegida al azar a otra. Con este conocimiento, ahora queda claro por qué los motores de búsqueda web más avanzados solo indexan un porcentaje muy pequeño de todas las páginas web, y solo alrededor del 2% de la población total de servidores de Internet (alrededor de 400 millones). Los motores de búsqueda no pueden encontrar la mayoría de los sitios web porque sus páginas no están bien conectadas o vinculadas al núcleo central de la web. Otro hallazgo importante es la identificación de una «web profunda» compuesta por más de 900 mil millones de páginas web que no son fácilmente accesibles para los rastreadores web que utilizan la mayoría de las empresas de motores de búsqueda. En cambio, estas páginas son propietarias (no están disponibles para rastreadores y no suscriptores) como las páginas de (The Wall Street Journal) o no están fácilmente disponibles en las páginas web. En los últimos años, los motores de búsqueda más nuevos (como el motor de búsqueda médico Mammaheath) y los más antiguos como Yahoo se han revisado para buscar en la web profunda. Debido a que los ingresos del comercio electrónico dependen en parte de que los clientes puedan encontrar un sitio web mediante motores de búsqueda, los administradores de sitios web deben tomar medidas para asegurarse de que sus páginas web formen parte del núcleo central conectado o «supernodos» de la web. Una forma de hacer esto es asegurarse de que el sitio tenga tantos enlaces como sea posible hacia y desde otros sitios relevantes, especialmente a otros sitios dentro del SCC.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *