Aplicación de Algoritmos de Votación en la Clasificación de Textos
DOI:
https://doi.org/10.32870/recibe.v8i2.138Palabras clave:
clasificación de textos, algoritmos de votación, rasgos textuales, contextoResumen
Los algoritmos de clasificación basada en la similitud entre textos, es un tópico de gran interés lo que es motivado por la relevancia y complejidad que presenta esta problemática y la gran cantidad de ámbitos que requieren de sistemas automatizados para resolverla. Por mencionar algunos ejemplos, se requiere de aplicaciones capaces de determinar de manera automática la sensibilidad de la información textual almacenada en archivos para decidir el grado de protección o diferenciar datos sensibles de aquellos que no lo son para prevenir o detectar su fuga o accesos no autorizados. Esto puede ser establecido con base en la importancia de su contenido. Así, una forma de abordar el problema es desde la perspectiva de la clasificación de textos con base en contexto. Para ello, es necesario desarrollar algoritmos que consideren la semántica de los documentos desde el momento que se generan y obtener su clasificación mediante un conjunto de características que incluyan rasgos textuales. En este trabajo, se definen los rasgos textuales y la relación semántica entre rasgos textuales. Considerando que un texto es la concatenación de rasgos textuales, la relación semántica de los rasgos textuales permite determinar su grado de pertenencia a un tema. Para la clasificación de textos, se aplican las etapas del modelo de algoritmos de votación desarrollados bajo el Reconocimiento Lógico Combinatorio de Patrones.Citas
Aggarwal, C. C., & Zhai, C. (2012). A survey of text clustering algorithms. En C. C. Aggarwal, & C. Zhai, Mining text data (págs. 77-128). Boston, MA, USA: Springer.
Coello, L., Frias, M., Fernandez, Y., Filiberto, Y., Bello, R., & Caballero, Y. (2018). Construcción de relaciones de similaridad borrosa basada en la medida calidad de la similaridad. Investigación Operacional, 38(2), 132-140.
Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text Classification Algorithms: A Survey. Information, 10(4), 1-68. Obtenido de Information: https://arxiv.org/pdf/1904.08067.pdf
Kumar, B. V., & Basha, M. S. (2015). Optimal Similarity Measure to Ensure Robustness in Text Classification and Clustering. International Journal of Electronics Communication and Computer Engineering, 6(5), 161-167.
Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing. London, England: MIT Press.
Martı́nez-Trinidad, J. F., & Guzmán-Arenas, A. (2001). The logical combinatorial approach to pattern recognition, an overview through selected works. Pattern Recognition, 34(4), 741-751.
Ruiz-Shulcloper, J., Arenas, A. G., & Trinidad, J. F. (1999). Enfoque Lógico Combinatorio al Reconocimiento de Patrones. Ciudad de México, México: Instituto Politécnico Nacional.
Vallez, M., & Pedraza, R. (20 de september de 2007). El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines. Hipertext.net(5). Obtenido de Hipertext.net: http://www.hipertext.net