Cómo encuentra Google lo que tú buscas
¿Cuántas veces has recurrido a Google para resolver tus dudas? El buscador más usado por internautas de todo el mundo tiene respuestas para casi todo, o al menos lo intenta. Su alto nivel de aciertos le ha consagrado como la empresa más fructífera de Internet.
Recuerda por un momento qué es lo que sueles hacer cuando te sitúas frente a la pantalla de tu ordenador y te conectas a Internet. Seguramente lo primero sea consultar el correo electrónico y tu perfil en alguna de las redes sociales a las que perteneces. Pero el privilegio de ser el servicio más utilizado se lo llevan los buscadores. De hecho, en España La página Web más mencionada por los internautas es Google, que también se sitúa a la cabeza en el uso de sitios de búsquedas. Estos especialistas en encontrar en la Red lo que los usuarios buscan, guardan el secreto de su éxito con tanto recelo como los que poseen la fórmula de la Coca Cola, patentada a finales del siglo XIX. En el caso del gigante de Internet, su receta es un algoritmo que tiene nombre propio: PageRank.
La fórmula secreta
Pero antes de aplicar esta fórmula, Google rastrea la Red para crear un índice sobre el que trabajar -hay que aclarar que en este índice no están todas las direcciones que existen, sino sólo aquellas que se ajustan a unos parámetros relacionados con la calidad de sus contenidos-.
Googlebots son los programas informáticos que ejercen de exploradores y elaboran una especie de mapa cartográfico de todo lo que ven en la Red. Es decir recopilan la información para después ordenarla y dividirla en bloques distribuidos en equipos por todo el mundo, de forma que cuando alguien introduce un término en la caja de búsqueda estos equipos escudriñan en sus índices hasta encontrar lo que el usuario está buscando. La eficacia es bastante alta. Tanto que "entre los cinco primeros resultados siempre hay alguna referencia que se ajusta a la búsqueda", describe el director de productos de búsqueda de Google Europa, Juergen Gatter.
Estos aciertos tienen que ver con la relevancia que tiene la página en el mencionado índice creado por Google. La manera de establecerla depende de muchos factores, como el título de la Web, el texto que contiene, o si se actualiza regularmente o no, pero sobre todo de la "fórmula secreta": PageRank, una ecuación con más de 500 millones de variables dos mil millones de términos que en Google resumen. de forma bastante abreviada, de la siguiente manera:
PageRank (p)=d/n + (1-d)
∑ PageRank (q)/outdegree (q)
El resultado que ofrece este compendio de símbolos se basa, en parte en la actividad de los usuarios. Así a mayor número de visitas, más relevancia. También entran en juego, los enlaces que hay de una Web a otra, de forma que cuando una página A vincula con una B, se interpreta como un voto de la primera a la segunda. PageRank, además, evalúa la reputación de las Webs que "otorgan" dicho voto: a mayor reputación más valor tiene ese voto.
Actualmente hay miles de miles de millones de páginas, y siguen creciendo. Por lo que es esencial afinar cada día más en los resultados. Además, los usuarios nos hemos vuelto más exigentes, e impacientes Y no nos gusta esperar cuándo pedimos respuestas. Sin olvidar que la competencia viene achuchando: Microsoft acaba de lanzar su buscador Bing, que ha suscitado muchos parabienes.
Webs que aparecen y desaparecen
Cuando Sergey Brin y Larry Page comenzaron su Proyecto en 1998 el índice de Google tenía 25 millones de Webs, una cantidad que ya entonces solo suponía sólo una pequeña parte de la Red. En el año 2000 alcanzaron la cifra de 1.000 millones, y a estas alturas parecen haber perdido la cuenta. En el aumento del índice tiene mucho que ver el trabajo de Googlebot, que realiza rastreos constantemente –en 1998 los hacía cada tres o cuatro meses-, una tarea inevitable teniendo en cuenta que cada vez que lo hace detecta que entre un 10% Y un 20% del contenido es nuevo.
Además de añadir nueva información, el rastreador actualiza la que ya tiene guardada, pero con prioridades: es evidente que cualquier periódico online modifica sus contenidos sin cesar, mientras que un candelario sufre pocos cambios. Sería algo extraordinario que el 1 de febrero de 2033, cuando llegue, no caiga en martes. Por esto se establecen visitas programadas a determinados sitios.
Dé igual, manera que aparece información nueva, también desaparece, o bien de Internet o bien del índice de Google. En e primer caso se detecta en los rastreos; en el segundo los motivos son los mismos que los de la admisión: la calidad de los contenidos. La falta de ella suele tener que ver con el uso de métodos inapropiados por parte del webmaster para subir posiciones en la clasificación de las búsquedas o con la aparición de malware, "Cuando esto último ocurre, un aviso indica que la Web puede ser dañina -explica una de las encargadas de comunicación con los webmasters en Europa, Rebeca Steelman-. Esto no siempre lo saben los webmasters, ya que suelen ser terceros los que insertan el código malware. Su presencia se detecta automáticamente, e intentamos que estos enlaces no salgan en los resultados". Una vez resueltos los problemas, la página vuelve a "estar" en Google.
La legislación de cada país también marca lo que el gigante de Internet ofrece o no a sus usuarios –China es el caso más evidente-. Pero… ¿cómo conoce Google el lugar desde dónde se realiza una búsqueda? Los servidores no pueden saber quién hace una consulta, Pero sí desde qué equipo gracias a La dirección IP que le identifica, así como la fecha y hora, el tipo de navegador y el idioma. Estos datos se guardan 18 meses por dos razones: para evitar ataques de seguridad y para mejorar la calidad de los resultados. Analizando, siempre a través de algoritmos, las búsquedas que hacen los internautas el sistema es capaz de interpretar lo que necesitan. Así, cuando en la Redacción de PC&I escribimos 'cine' en el cuadro de búsqueda, el primer resultado muestra películas que se proyectan en Madrid. Es lo que se conoce como búsqueda semántica. "Hay equipos de calidad que trabajan con sinónimos, estudian las abreviaturas que se emplean en un idioma, siglas, tildes… Las sugerencias que realiza el sistema cuando se escribe mal un término para la búsqueda se basan en los fallos de los usuarios", apunta Gatler.
Quizá sea esta la razón por la que en el, futuro la búsqueda será en sus propias palabras. Universal. El usuario ya no se conforma con una lista de referencias donde puede estar la respuesta que busca, sino que la exige. Y en eso están trabajando. La búsqueda universal ofrecerá todo lo que guarda Google sobre un tema, v no sólo enlaces, también vídeos, imágenes, noticias, libros... "Se trata de una única lista de resultados, que provienen de diferentes índices", resume Steelman. Y han de ser capaces de dárselo al internauta en al menos, los 0,3 segundos de media que tardan ahora.
Tomado de: Personal Computer & Internet, Nº 79, Agosto 2009