« Volver al índice del glosario

¿Qué es un Araña Web?

Una Araña Web o indexador web es un bot que se encarga de recopilar datos y crear un registro de éstos. Se utilizan en ámbitos diversos y para tareas muy variadas, pero el uso más común que se le da generalmente es el de entrar en una serie de URLs que se encuentran en una lista a la que se conoce como “semillas” .

El bot accede a traves de una en estas páginas web y va guardando y así consigue crear un registro de cada una de las distintas paginas web para que puedan ser visitadas mas adelante.

Las páginas recopiladas por elaraña web se guardan tal cual uno puede verlas cuando navega por ellas normalmente, pero quedan almacenadas a modo de “instantánea”, como capturas de pantallas para que la navegación pueda ser más veloz. Sin embargo, aunque son increíblemente eficientes, necesitan ayuda humana para poder lanzar resultados precisos, ya que hay muchas cosas que pueden obstaculizar el criterio de estos botes.

En ocasiones, URLs que parecen duplicadas son en realidad diferentes formatos de un mismo sitio que se presentan en forma de enlaces individuales. Por eso, si una araña web detecta un duplicado, no siempre significa que sea éste el caso. Por eso, debe haber una persona que supervise los resultados de estos pequeños ayudantes cibernéticos.

Para qué sirve una Araña Web

Esta herramienta puede ser usada por un webmaster para detectar posibles enlaces rotos y otros problemas dentro de un sitio web. También son muy eficientes para, por ejemplo, registrar el catálogo de una página de ventas online y recopilar datos de precios y productos para crear comparativas y otros registros útiles.

Sin embargo, el uso más común es el de ayudar a los buscadores a encontrar nuevas páginas y registrarlas en un índice que permite una búsqueda más veloz. ElAraña Web es lo que permite que Google pueda registrar cada nuevo sitio que es subido a la red y asignarle un sitio en sus resultados según su algoritmo de pagerank.

Ejemplos de Araña Web

El ejemplo por excelencia de esta tecnología es el que utiliza Google para posicionar las webs en sus resultados. Gracias a este sencillo, pero eficiente bot, el gran buscador puede registrar cada nuevo sitio, evaluar su valor y asignarle un sitio apropiado en los resultados de las búsquedas.

Trabaja de forma secuencial. Como se ha dicho con anterioridad, la araña va visitando todos los sitios web provistos por una lista y son guardados en un registro para después ser sometidos al algoritmo de Google llamado pagerank y así poder ser posicionadas de forma correcta.

« Volver al índice del glosario