Donde P(C) es la probabilidad a priori de la clase y P(W|C) es la probabilidad condicional la palabra W dada la clase C. En base a los datos observados en cada experimento, se conoce la probabilidad de una palabra dada una clase y la probabilidad de la clase. Pero se necesita encontrar el máximo valor de la expresión para encontrar la clase en la que mejor se clasifica el documento:
La probabilidad de cada una de las palabras P(W) es condicionalmente independiente dado el valor de la clase, por lo que es común eliminarla para evitar mayores cálculos. El nuevo documento D a clasificar se encuentra definido en términos de la lista W = {w1, w2, ..., wd} de palabras relevantes del mismo. Además, existe un conjunto finito de clases C = {c1, c2, ..., cn} en las que puede ser clasificado dicho documento. Finalmente, el método Naive Bayes clasifica al documento D en una de todas las clases existentes utilizando la fórmula:Más información en
- LANGLEY, P. IBA, W. y THOMPSON, K. An analysis of Bayesian classifiers. En: AAAI-92, (1992).
- LUO, H. Experiments on Automatic Categorization of Broadcasting News. [En línea]: AT&T Tech. Report. http://www.ctr.columbia.edu/~luoht/research.html. [Consulta: 16 de julio de 2002]
- MC CALLUM, A. y NIGAN, K. A Comparison of Event Models for Naive Bayes Text Classification. En: AAAI / ICML Workshop on Learning for Text Classification. AAAI Press. 1998.
3 comentarios:
muy bueno tu post, sobre todo muy ilustrativo. como te comenté hace un tiempo estoy haciendo mi tesis de pregrado precisamente sobre categorización de textos. estoy comparando algoritmos genéticos con bisecting k-means, tu crees que podrías hacer un post al respecto? sería genial, gracias :D
Hola que cheere tu post, please estoy esperando el ejemplo hazlo porfavor
Buen blog!, estaba buscando informacion sobre los clasificadores bayes naive y encontre esto.
saludos!
Publicar un comentario