Análisis a Fondo
Mitos de Internet: las aguas profundas y las islas perdidas de la web

El carácter descentralizado de la web y el poder que otorga a los individuos son cosas que hay que celebrar sin paliativos. Pero tiene sus contrapartidas. Una de las más notorias es que esta Red se manifiesta como un caos, del que una de sus expresiones es la dificultad para encontrar esa información que estamos buscando. Este artículo puede ser visto como una crítica del mito de: 'Toda la información está en la punta de tus dedos', al que también llamaré: 'Del acceso equidistante a toda la información'.

Efectivamente, todos hemos experimentado la frustración que supone obtener resultados escasos -o poco útiles- cuando buscamos informaciones que no son, digamos, populares. ¿Quiere decir eso que los datos en cuestión no existen en la web? No forzosamente.

Si ya es difícil encontrar cosas en las aguas de superficie del océano web, hacerlo en sus aguas profundas se me antoja una tarea sobrehumana. Y si alguien se había hecho ilusiones y creído el mito de: 'La información está al alcance de tus dedos', lo realista es aceptar que la desmesura de la Red, su caos, desborda los intentos de poner orden. Pero dejaré para más adelante mis conclusiones. Antes hay que detallar un poco más las dimensiones del problema.

En julio del 2000, la compañía BrightPlanet dio a conocer un estudio llamado The 'Deep web': Surfacing Hidden Value, según el cual existe una 'web profunda' que está más allá del alcance de los motores de búsqueda generalistas. Y por lo tanto, lejos también del alcance del internauta medio. Por entonces, Google había calculado que había 1.200 millones de páginas, pero BrightPlanet afirmó que la 'web profunda' se componía de 550.000 millones de documentos. Estas cifras hay que ponerlas en relación con el número de páginas web que tienen indizadas los motores de búsqueda.

Según un artículo publicado por el Ciberp@ís , a finales del año 2000 había 3.000 millones de páginas web, pero Google solo tenía indizadas 1.300.000, siendo de largo el buscador más exitoso en este sentido, por delante de Fast (575.000), Webtop (500.000), AltaVista (350.000) y Excite (250.000). En otras palabras, los mejores motores de búsqueda generalistas indizan una ínfima parte de los documentos de la web. Concretamente, menos del 0,009 por ciento. Parece, pues, que aquella frustración tiene fundamentos sólidos.



La 'web profunda'

BrightPlanet define la 'web profunda' como el conjunto de documentos existentes en la web a los que no tienen acceso los motores de búsqueda generalistas. ¿Por qué no tienen acceso?

Los motores de búsqueda como Google, Fast y demás utilizan unas herramientas de software denominadas spiders y crawlers para detectar y registrar la existencia de nuevas páginas. Pero en esta tarea de rastreo se pierden muchos contenidos. Se ha mencionado en muchas ocasiones las dificultades que entraña la existencia de las denominadas páginas dinámicas. Cuando sometemos una solicitud de búsqueda en Yahoo!, por ejemplo, sobre alguna enfermedad u otro tipo de información médica, el buscador nos ofrece resultados obtenidos de su investigación en bases de datos que muchas veces permanecen escondidas en lugares remotos prácticamente inaccesibles para el usuario normal. Pero esas páginas de resultados desaparecen tan pronto el usuario cierra su navegador, pues han sido creadas ad hoc en respuesta a una demanda.

Sin embargo, eso es sólo la punta del iceberg; el problema es de más hondo calado. Es mucho más común que los motores de búsqueda generalistas ni siquiera tengan en sus índices una enorme cantidad de bases de datos de universidades, centros de investigación, organismos de la Administración, etc. Cuando los buscadores se topan con este tipo de bases de datos, se limitan a registrar la página web de inicio y no penetran en sus ingentes contenidos. Estos son los que componen la 'web profunda'.

Los 550.000 millones de documentos sumergidos en esas aguas profundas suponen, según BrightPlanet, 7.500 terabytes , mientras que la web de superficie contiene 19 terabytes ---correspondientes a los 1.200 millones de páginas estimadas en la fecha de la publicación del estudio. Algunos han señalado que buena parte de los contenidos de la 'web profunda' son de escaso valor (como también lo son buena parte de los de la web de superficie). Aún teniendo en cuenta esa realidad, BrightPlanet considera que el contenido de calidad presente en la 'web profunda' es del orden de 1.000 a 2.000 veces mayor que el contenido de calidad de la web de superficie. Según el estudio, hay más de 100.000 bases de datos ricas en contenidos valiosos.

Como ejemplos de esto, cita un sitio de patentes de IBM, las bases de datos del genoma humano, registros genealógicos, estadísticas históricas deportivas, publicaciones biomédicas, casos y decisiones judiciales, etc. Lo mismo sucede con las bases de datos de la Administración Federal de Aviación de Estados Unidos, que ofrece información actualizada en tiempo real de todos los vuelos del país. Para acceder a esta información, el internauta debe conectarse al servicio Flight Tracker de TheTrip.com. Aunque este sitio está indexado por los principales motores de búsqueda, los datos contenidos en sus bases de datos no lo están. A menos que el internauta conozca previamente la existencia de este recurso, puede perderse este tipo de información.

La información de la 'web profunda' no sólo es de gran valor, sino que, según BrightPlanet, está creciendo más rápidamente que la perteneciente a la web de superficie. Además, el 95% de aquella información es libremente accesible.

Esta realidad hace que estén surgiendo diversos servicios especializados en la ordenación de la 'web profunda', básicamente directorios dedicados a coleccionar enlaces a bases de datos. El estudio de BrightPlanet afirma que el tráfico que se desarrolla en la 'web profunda' es un 50% mayor que el registrado en la superficie: 123.000 páginas vistas al mes frente a 85.000 en un sitio web medio de la superficie de la web. Cabe pensar que algunos verán oportunidades de hacer negocio a través de la oferta de servicios de búsqueda para esta 'web profunda'. Eso es lo que parece que piensa BrightPlanet, por ejemplo, o Inktomi. Pero otras compañías, como Google y AltaVista no quieren ni oír hablar de ello. Pescar en aguas tan profundas y ordenar los resultados, en su opinión, no es rentable.

Javier Villate Chile - [ 03 | 05 | 2001 - 12 : 51 ]

Volver a Análisis a Fondo ...

©AREAMINERA. Todos los derechos reservados. Revista AreaMinera es un medio digital e impreso exclusivo de SOCIEDAD MINERA TOTE S.A. Su representante legal y director es el ingeniero civil en minas Tomás Neira, quien se encuentra domiciliado en calle Av Vicuña Mackenna 58 oficina 210, providencia, Santiago de Chile. Su director de contenidos es Ronald Guzmán, como directorio consultivo están el economista Ignacio Moreno, el ingeniero Alex Caqueo y el ingeniero Ricardo Neira N.
The information contained on AREAMINERA has been collected from a variety of sources and by a variety of organizations and individuals, all considered reliable. All information is offered on a "best intentions" basis.