martes, septiembre 02, 2008

Algoritmo para detección de documentos semejantes

.
"Webeando" hallé una implementación del algoritmo de Charikar el cual utiliza firmas hash de documentos a los efectos de calcular su semejanza. Este método es útil para detección de contenidos duplicados en motores de búsqueda o para detección de plagio. El paper que decibe el algoritmo es el siguiente:

Charikar: Similarity Estimation Techniques from Rounding Algorithms, in Proceedings of the thiry-fourth annual ACM symposium on Theory of computing, ACM Press, 2002

No hay comentarios.: