Técnicas de post-procesado de resultados en un sistema de diarización de locutores

  1. Tavarez Arriba, David
  2. Navas Cordón, Eva
  3. Erro Eslava, Daniel
  4. Saratxaga Couceiro, Ibon
  5. Hernáez Rioja, Inmaculada
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2012

Número: 49

Páxinas: 109-116

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural

Resumo

Este artculo presenta las tecnicas de postprocesado dise~nadas para mejorar los resultados de un sistema de diarizacion de locutores. Se han propuesto tres tecnicas de mejora: el re nado de la segmentacion voz/no voz, la asimilacion de los segmentos cortos y la fusion de los clusters del mismo locutor. Las tecnicas se han implementado en un modulo que se aplica como etapa de postprocesado y que ha mejorado un 22.3% el resultado del sistema base. El modulo se ha aplicado sin realizar ningun ajuste sobre otro sistema de diarizacion de arquitectura similar al sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido mejorar el DER un 17 %. Esto demuestra la validez de las tecnicas desarrolladas para la mejora de los resultados de la diarizacion.

Referencias bibliográficas

  • Anguera, Xavier. 2006. Robust Speaker Diarization for meetings. Ph.D. tesis, Universitat Politecnica de Catalunya.
  • Anguera, Xavier, Simon Bozonnet, Nicholas Evans, Corinne Fredouille, Gerald Friedland, y Oriol Vinyals. 2012. Speaker Diarization: A Review of Recent Research. IEEE Transactions on Audio, Speech and Language Processing, 20(2):356-370.
  • Cettolo, Mauro, Michele Vescovi, y Romeo Rizzi. 2005. Evaluation of BIC-based algorithms for audio segmentation. Com- puter Speech & Language, 19(2):147-170, Abril.
  • Chen, S. S. y P. S. Gopalakrishnan. 1998. Speaker, environment and channel change detection and clustering via the bayesian information criterion. En DARPA speech recognition workshop, volumen 6, páginas 127-132.
  • Docio, L., P. Lopez, y C. Garcia. 2010. The uvigo-gtm speaker diarization system for the albayzin'10 evaluation. En VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, (FALA 2010), páginas 401-404, November.
  • Luengo, I., E. Navas, I. Saratxaga, I. Hernáez, y D. Erro. 2010. AhoLab Speaker Diarisation System for Albayzin 2010. En FALA 2010, páginas 393-396, Vigo.
  • Reynolds, Douglas A y P. Torres-Carrasquillo. 2005. Approaches and applications of audio diarization. En IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), páginas 953-956.
  • Tavarez, David, Eva Navas, Daniel Erro, y Ibon Saratxaga. 2012. Strategies to Improve a Speaker Diarisation Tool. En LREC, páginas 4117-4121, Estambul.
  • Tranter, S. E. y D. A. Reynolds. 2006. An overview of automatic speaker diarization systems. IEEE Trans. on Audio, Speech and Laguage processing, 14(5):1557-1565.
  • Zelenák, M., H. Schulz, y J. Hernando. 2010. Albayzin 2010 evaluation campaign: Speaker diarization. En VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, páginas 301{304, Vigo, Spain, November.