martes, septiembre 05, 2006

Estudio sobre webspam por Carlos Gonzalo

Carlos Gonzalo ha publicado en BID  en el número de junio 2006 un artículo cuyo título es Tipología y análisis de enlaces web: aplicación al estudio de los enlaces fraudulentos y de las granjas de enlaces".

Quiero comentar que este tema es de especial interés por partes de las grandes firmas como Yahoo, Google, Technorati, Microsoft. Ya hay algunas investigaciones con buenos resultados de perfomance en la detección de páginas spam, ya sea por análisis de enlaces o análisis de contenidos. Es más, Carlos Castillo o Chato en su Laboratorio italiano dispone de una colección de prueba de páginas spam que gratuitamente la comparte con grupos que deseen investigar en el tema.

El resumen del mencionado artículo es el siguiente:

Dentro de la estructura de enlaces de un sitio web se pueden distinguir dos tipos principales de enlaces, los de navegación y los semánticos. Los buscadores sólo tienen en cuenta el segundo tipo, ya que aporta valor semántico a través del texto de anclaje (anchor text). En sitios no académicos, los principales motivos de creación de estos enlaces semánticos son puramente comerciales y de marketing. Una subclase de enlace de marketing es la que podríamos llamar de enlaces fraudulentos, conocidos popularmente como (enlaces) spam. La creación masiva de este tipo de enlaces (granja de enlaces, o link farm) tiene como objetivo modificar el comportamiento del algoritmo PageRank. Google ha creado el algoritmo TrustRank con la finalidad de detectar granjas de enlaces.

 

No hay comentarios.: