ARTÍCULOS
CON NOMBRE
Y APELLIDOS

La estructura del www (I)


¿Qué estructura tiene el World
Wide Web ? (I)


Por Ricardo Baeza (http://www.dcc.uchile.cl/~rbaeza/). Año 2000

Revisión: Jose Manuel Morales . Año 2002 - Leunam Gestión






La telaraña mundial, word wide web la vamos a llamar, para abreviar,
la Web, aunque no me queda claro si es femenino o masculino. Nadie sabe cual
es su estructura. Crece más rápido que la capacidad de ella misma
para detectar sus cambios. Sus conexiones son dinámicas y muchas de ellas
quedan obsoletas sin ser nunca actualizadas.



El contenido de la Web es hoy de varios terabytes (un terabyte o Tb son un billón
de megabytes) de texto, imágenes, audio y video. Para aprovechar esta
gran base de datos no estructurada, es importante poder buscar información
en ella, adaptándose al crecimiento continuo de la Web
.


Lamentablemente nadie sabe su número exacto, pues no es posible a partir
de un nombre de dominio saber si es o no un servidor Web (la mayoría
comienza con www, pero muchos lugares no siguen esta convención). Además
un mismo computador puede manejar distintos servidores y también existen
servidores virtuales (un mismo servidor Web puede manejar lógicamente
otros servidores).


Desafíos



Buscar información en la Web implica lidiar con una serie de problemas
de distinto tipo. Estos los podemos dividir en intrínsecos a los datos
y a los usuarios. Los primeros son:


Distribuidos: dada la estructura de la Web, los datos están
en muchos computadores y plataformas distintas. La topología de la red
no está predefinida y el ancho de banda y confiabilidad de las conexiones
es muy variable.



Volátiles: los nombres de dominio y páginas aparecen
y desaparecen diariamente de la red. Se estima que el 40% de la Web cambia cada
mes. Además el volumen de los datos crece exponencialmente, doblando
su tamaño en meses.



Dinámicos: actualmente la gran mayoría de las páginas
se generan mediante una consulta a una base de datos y por ende es difícil
recuperarlas sin conocer su estructura.



Sin estructura: muchas personas hablan de la Web como un hipertexto
sin ser exactamente cierto. Un hipertexto tiene un modelo conceptual de la estructura
y los enlaces de las páginas. Esto difícilmente ocurre en la Web,
y si ocurre es sólo en algunos sitios y de manera distinta. Por eso se
habla de datos semi-estructurados.



Redundantes: Una gran cantidad de la Web esta repetida. El número
de mirrors (sitios replicados) es de alrededor del 30%. Una cifra similar de
páginas ha sido parcial o totalmente duplicadas y también hay
redundancia semántica (de contenido).



Tipos heterogéneos: hay múltiples tipos medios digitales,
de cada medio hay distintos formatos (por ejemplo, HTML o Word para texto, o
JPG y GIF para imágenes). Además hay diferentes lenguajes y distintos
alfabetos, algunos de ellos muy grandes (como Kanji).



Calidad heterogénea: la Web es un nuevo medio de publicación,
en muchos casos sin ningún tipo de proceso editorial. Por lo tanto la
información de una página puede ser falsa, inválida (es
muy antigua), mal escrita, o con muchos errores de diversos tipos. Por ejemplo,
en palabras difíciles de escribir la mitad de las ocurrencias pueden
estar mal.



Muchos de estos problemas no tienen solución técnica y algunos
no debieran ser resueltos (por ejemplo, la diversidad cultural). Además
de todo esto, supondremos que una página Web es lógicamente un
documento, lo que no es siempre cierto. Hay documentos que pueden estar en muchas
páginas y hay páginas con varios documentos (por ejemplo, resúmenes
de los artículos de una revista).



Con respecto a los usuarios tenemos dos problemas básicos:



como especificar lo que queremos recuperar (es decir, cual es
el lenguaje de consulta) y aunque hayamos especificado exactamente lo que queremos....

como manejar respuestas que muchas veces contendrán miles
de documentos. Esto implica jerarquizar bien las respuestas. Adicionalmente,
algunos documentos pueden ser muy grandes y habría que facilitar el poder
examinarlos.





Estructura y Visibilidad



· ¿Cuántas referencias tiene una página HTML?



(HTML es un acrónimo para Hyper Text Markup Language, el lenguaje usado
para estructurar páginas Web). Más del 75% de las páginas
tiene al menos una referencia, y en promedio cada una tiene entre 5 y 15 referencias.
La mayoría de estas referencias son a páginas en el mismo servidor.
De hecho, la conectividad entre sitios distintos no es muy buena. En particular,
la mayoría de las páginas no son referenciadas por nadie y las
que sí son referenciadas, lo son por páginas en el mismo servidor.


Considerando sólo referencias externas (entre sitios distintos), más
del 80% de las páginas tienen menos de 10 referencias a ella. Otros sitios
son muy populares, teniendo decenas de miles de referencias a ellos. Por otro
lado, hay algunos sitios que no son referenciados por nadie (están porque
fueron incluidos mediante el envío directo de una dirección Web
a Yahoo! u otros buscadores, pero que realmente son islas dentro de la Web).



En este mismo sentido, las páginas personales también se pueden
considerar como entes aislados en la mayoría de los casos. Así
mismo, la mayoría de los sitios (80%) no tiene ninguna referencia hacia
páginas en otros servidores. Esto significa que una minoría de
los servidores mantiene toda la carga navegacional de la red.



Tamaños y características




· ¿Cómo es una página Web promedio?



Una página de HTML promedio tiene alrededor de 5 a 7 kilobytes (alrededor
de mil palabras). Si agregamos audio o video, este promedio aumenta. En otras
palabras, aunque la mayoría de los archivos son pequeños, existe
un número no despreciable de archivos grandes; y hasta 50 kilobytes predomina
el volumen de las imágenes. Desde allí hasta 300 kilobytes son
importantes los archivos de audio. Más allá de este límite,
llegando a varias decenas de megabytes, tenemos archivos de video. Los formatos
más populares (en base a la extensión del nombre de archivo) son
HTML, GIF, TXT, PDF, PS y JPG, entre otros.


· ¿Cómo es una página HTML?



Alrededor de la mitad de ellas no tiene ninguna imagen. Un 30% no tiene más
de dos imágenes y su tamaño promedio es de 14Kb. Por otra parte
hay un porcentaje no despreciable (mayor al 10%) de páginas con más
de 10 imágenes. La razón es que son imágenes tipográficas,
como por ejemplo puntos rojos, líneas de separación de color,
etc.



La mayoría de las páginas usan HTML simple. Sólo un porcentaje
pequeño siguen todas las normas y otro porcentaje mayor (alrededor del
10%) son sólo texto. Finalmente, la calidad del texto deja mucho que
desear, pues hay errores de tipografía, errores que viene de la conversión
de imágenes de documentos a texto, etc.



Más aún, la información contenida puede estar obsoleta,
puede ser falsa o engañosa. Hay que tener esto en mente cuando usamos
una página Web como fuente de información o la referenciamos.




__________________________

Sobre el Autor: Ricardo Baeza

Ricardo Baeza Yates es profesor titular del Departamento de Ciencias de la Computación
de la Escuela de Ingeniería (Facultad de Ciencias Físicas y Matemáticas)
de la Universidad de Chile. Sus áreas de investigación incluyen
algoritmos y estructuras de datos, recuperación de información,
bases de datos de texto e imágenes, visualización de software
y bases de datos, e interfaces gráficas.



 

Legal y Créditos