ARTÍCULOS
CON NOMBRE
Y APELLIDOS

Topología de la web

La Topología de la Web



Por Ricardo Baeza (http://www.dcc.uchile.cl/~rbaeza/). Conclusiones en el año
2000

Revisado en al año 2002. Nuevas conclusiones.




Para conocer qué páginas Web apuntan a una página dada es
necesario recorrer toda la Web, algo que los grandes buscadores como Altavista,
Google o Fast hacen periódicamente. El estudio mencionado fue realizado
a partir de dos recorridos de Altavista.



En base a ello se confirmaron algunos resultados pero se demostró que la
estructura microscópica de la Web es mucho más intrincada y se asemeja
a un organismo viviente
.



Conectividad


Resultados preliminares ya habían indicado que la distribución
de los enlaces a y desde páginas seguían una curva exponencialmente
decreciente. Los nuevos resultados muestran que la fracción de páginas
de la Web que son apuntadas por i páginas es proporcional a 1/i2.1,
mientras que la fracción de páginas que tienen i enlaces
es proporcional a 1/i2.7.



Esto significa que el número de páginas muy apuntadas (populares)
y el número de páginas con muchos enlaces es muy pequeño.
Estos valores son casi los mismos para los dos recorridos, pese a que entre
ellos pasaron 6 meses.




Estructura



Para analizar la estructura de la Web se buscan las partes del grafo que están
conectadas entre sí. El núcleo o centro de la Web lo constituyen
más de 56 millones de páginas (datos de año 2001, posiblemente
se hallan multiplicado por dos), existiendo un camino para ir de cualquier página
a otra, siendo el largo máximo (diámetro) al menos 28. En otras
palabras, el camino más corto entre dos páginas en el peor caso
implica visitar 28 de ellas. En la práctica se han encontrado caminos
de hasta 900, lo que indica que el diámetro de la Web es mucho mayor.
De todos modos, este número no es tan grande considerando que son cientos
de millones de páginas.



La figura adjunta muestra el resto de la estructura. A la izquierda hay 43 millones
de páginas desde las cuales se puede llegar al centro, pero no viceversa.
Del mismo modo, a la derecha hay otras 43 millones de páginas que pueden
ser accedidas desde el centro, pero que no enlazan páginas del núcleo.




Alrededor de estos dos grupos hay tentáculos que contienen 44 millones
de páginas y que son caminos sin salida, con la excepción de algunos
tubos, que conectan el grupo de la izquierda con el de la derecha. Finalmente,
tenemos 17 millones de páginas que están agrupadas en islas que
no están conectadas al centro de la Web.



Muchos se preguntarán cómo Altavista conoce estas islas si no
están conectadas al resto de la Web. Es muy simple, estos son sitios
Web que fueron directamente enviados al buscador y por lo tanto están
en su índice aunque el resto del mundo no las conozca.


Los autores del estudio no hacen ninguna interpretación sobre esta estructura.
Mi interpretación personal, es que el grupo de la izquierda son páginas
más nuevas que aún no son demasiado conocidas y que si tienen
éxito pasarán al centro de la Web, donde están las páginas
consolidadas.



En cambio, en el grupo de la derecha, deben haber páginas antiguas, que
no enlazan al centro de la Web porque en su época esas páginas
no existían, pero sí fueron enlazadas por nuevas páginas.
También debe incluir muchos sitios Web que no tienen enlaces externos.
Los tentáculos son variaciones sobre el tema, incluyendo sitios Web que
no enlazan a nadie fuera de su sitio, y revelan la complejidad dinámica
de la Web.



Aunque la cuantificación de los datos halla podido variar, se estima
que cualitativamente los resultados son correctos y válidos en la actualidad.





la topologia de la web




__________________________


Sobre el Autor: Ricardo Baeza

Ricardo Baeza Yates es profesor titular del Departamento de Ciencias de la Computación
de la Escuela de Ingeniería (Facultad de Ciencias Físicas y Matemáticas)
de la Universidad de Chile. Sus áreas de investigación incluyen
algoritmos y estructuras de datos, recuperación de información,
bases de datos de texto e imágenes, visualización de software
y bases de datos, e interfaces gráficas.

 

Legal y Créditos