Apuntes, son solo apuntes: Clasificacíón de textos por el método Naive Bayes

miércoles, junio 06, 2007

Clasificacíón de textos por el método Naive Bayes

Naive Bayes es un método de clasificación probabilístico. Se utiliza para clasificar una nueva instancia de un documento D dentro de un conjunto finito C de clases predeterminadas. Esto significa que, dada una clase C y un conjunto de palabras W del nuevo documento a clasificar, se calcula la probabilidad de que dicho documento se clasifique dentro de la categoría C, así se tiene:

Donde P(C) es la probabilidad a priori de la clase y P(W|C) es la probabilidad condicional la palabra W dada la clase C. En base a los datos observados en cada experimento, se conoce la probabilidad de una palabra dada una clase y la probabilidad de la clase. Pero se necesita encontrar el máximo valor de la expresión para encontrar la clase en la que mejor se clasifica el documento:

La probabilidad de cada una de las palabras P(W) es condicionalmente independiente dado el valor de la clase, por lo que es común eliminarla para evitar mayores cálculos. El nuevo documento D a clasificar se encuentra definido en términos de la lista W = {w1, w2, ..., wd} de palabras relevantes del mismo. Además, existe un conjunto finito de clases C = {c1, c2, ..., cn} en las que puede ser clasificado dicho documento. Finalmente, el método Naive Bayes clasifica al documento D en una de todas las clases existentes utilizando la fórmula:

Más información en

LANGLEY, P. IBA, W. y THOMPSON, K. An analysis of Bayesian classifiers. En: AAAI-92, (1992).
LUO, H. Experiments on Automatic Categorization of Broadcasting News. [En línea]: AT&T Tech. Report. http://www.ctr.columbia.edu/~luoht/research.html. [Consulta: 16 de julio de 2002]
MC CALLUM, A. y NIGAN, K. A Comparison of Event Models for Naive Bayes Text Classification. En: AAAI / ICML Workshop on Learning for Text Classification. AAAI Press. 1998.

Pd. voy a ver si estos días tengo un poco de tiempo y hago un pequeño ejemplo que ayude a ilustrar el funcionamiento del método.

3 comentarios:

Anónimo dijo...: muy bueno tu post, sobre todo muy ilustrativo. como te comenté hace un tiempo estoy haciendo mi tesis de pregrado precisamente sobre categorización de textos. estoy comparando algoritmos genéticos con bisecting k-means, tu crees que podrías hacer un post al respecto? sería genial, gracias :D; 12:35 a. m.
Unknown dijo...: Hola que cheere tu post, please estoy esperando el ejemplo hazlo porfavor; 10:19 p. m.
Anónimo dijo...: Buen blog!, estaba buscando informacion sobre los clasificadores bayes naive y encontre esto.

saludos!; 10:46 p. m.