Using Personality Recognition Techniques to Improve Bayesian Spam Filtering

  1. Zurutuza, Urko
  2. Gómez Hidalgo, José María
  3. Ezpeleta, Enaitz
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2016

Número: 57

Páginas: 125-132

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Millones de usuarios se ven afectados por las campanas de envío de correos electrónicos no deseados al día. Durante los últimos años diferentes técnicas de detección de spam han sido desarrollados por investigadores, obteniendo especialmente buenos resultados con algoritmos de aprendizaje automático. En este trabajo presentamos una base para un nuevo método de filtrado de spam. Durante el estudio hemos validado la hipótesis de que las técnicas de reconocimiento de personalidad pueden ayudar a mejorar el filtrado Bayesiano de spam. Usando estas técnicas de filtrado, añadimos la característica de personalidad a cada correo, y después comparamos los resultados del filtrado Bayesiano de spam con y sin personalidad, analizando los resultados en términos de exactitud. En un segundo experimento, combinamos las características de personalidad y polaridad de cada mensaje, y comparamos los resultados. Al final, conseguimos mejorar los resultados del filtrado Bayesiano de spam, alcanzando el 99,24% de exactitud, y reduciendo el número de falsos positivos.

Referencias bibliográficas

  • Bai, S., T. Zhu, and L. Cheng. 2012. Bigfive personality prediction based on user behaviors at social network sites. CoRR, abs/1204.4809.
  • Briggs Myers, I. and P. B. Myers. 1980. Gifts differing: Understanding personality type.
  • Celli, F. and M. Poesio. 2014. Pr2: A language independent unsupervised tool for personality recognition from text. arXiv preprint arXiv:1402.2796.
  • Cormack, G. V. 2007. Email spam filtering: A systematic review. Foundations and Trends in Information Retrieval, 1(4):335–455.
  • Costa, P. T. and R. R. McCrae. 1992. Normal personality assessment in clinical practice: The neo personality inventory. Psychological assessment, 4(1):5.
  • Eberhardt, J. J. 2015. Bayesian spam detection. Scholarly Horizons: University of Minnesota, Morris Undergraduate Journal.
  • Echeverria Briones, P. F., Z. V. Altamirano Valarezo, A. B. Pinto Astudillo, and J. D. C. Sanchez Guerrero. 2009. Text mining aplicado a la clasificación y distribución automática de correo electrónico y detección de correo spam.
  • Ezpeleta, E., U. Zurutuza, and J. M. Gómez Hidalgo. 2016a. Does sentiment analysis help in bayesian spam filtering? In Hybrid Artificial Intelligent Systems: 11th International Conference, HAIS 2016, Sevilla, Spain, April 18-20, 2016. Springer.
  • Ezpeleta, E., U. Zurutuza, and J. M. Gómez Hidalgo. 2016b. Short messages spam filtering using personality recognition. In Proceedings of the 4th Spanish Conference in Information Retrieval.
  • Giyanani, R. and M. Desai. 2013. Spam detection using natural language processing. International Journal of Computer Science Research & Technilogy, 1:55–58, August.
  • Jensen, G. H. and J. K. DiTiberio. 1989. Personality and the Teaching of Composition, volume 20. Ablex Pub.
  • Lau, R. Y. K., S. Y. Liao, R. C.-W. Kwok, K. Xu, Y. Xia, and Y. Li. 2012. Text mining and probabilistic language modeling for online review spam detection. ACM Trans. Manage. Inf. Syst., 2(4):25:1–25:30, January.
  • Liddy, E. 2001. Natural language processing. Encyclopedia of Library and Information Science, 2nd Ed., NY. Marcel Decker, Inc.
  • Liu, B. and L. Zhang. 2012. A survey of opinion mining and sentiment analysis. Mining Text Data, pages 415–463.
  • Mairesse, F., M. A. Walker, M. R. Mehl, and R. K. Moore. 2007. Using linguistic cues for the automatic recognition of personality in conversation and text. J. Artif. Int. Res., 30(1):457–500, November.
  • Malarvizhi, R. and K. Saraswathi. 2013. Content-based spam filtering and detection algorithms-an efficient analysis & comparison 1. International Journal of Engineering Trends and Technology, Vol. 4, Issue 9, September.
  • Nazirova, S. 2011. Survey on spam filtering techniques. Communications and Network, 3(3):153–160.
  • Oberlander, J. and S. Nowson. 2006. Whose thumb is it anyway?: Classifying author personality from weblog text. In Proceedings of the COLING/ACL on Main Conference Poster Sessions, COLING-ACL ’06, pages 627–634, Stroudsburg, PA, USA. Association for Computational Linguistics.
  • Rangel, F., F. Celli, P. Rosso, M. Potthast, B. Stein, and W. Daelemans. 2015. Overview of the 3rd Author Profiling Task at PAN 2015. In Working Notes Papers of the CLEF 2015 Evaluation Labs, CEUR Workshop Proceedings. CLEF and CEUR-WS.org, September.
  • Sanz, E. P., J. M. G. Hidalgo, and J. C. Cortizo. 2008. Email spam filtering. Advances in Computers, pages 45–114.
  • Savita Teli, S. B. 2014. Effective spam detection method for email. IOSR Journal of Computer Science, pages 68–72.
  • Shen, J., O. Brdiczka, and J. Liu. 2013. Understanding email writers: Personality prediction from email messages. In User Modeling, Adaptation, and Personalization. Springer, pages 318–330.
  • Tretyakov, K. 2004. Machine learning techniques in spam filtering. In Data Mining Problem-oriented Seminar, MTAT, volume 3, pages 60–79.
  • Vinciarelli, A. and G. Mohammadi. 2014. A survey of personality computing. Affective Computing, IEEE Transactions on, 5(3):273–291.