Técnicas de post-procesado de resultados en un sistema de diarización de locutores
- Tavarez Arriba, David
- Navas Cordón, Eva
- Erro Eslava, Daniel
- Saratxaga Couceiro, Ibon
- Hernáez Rioja, Inmaculada
ISSN: 1135-5948
Año de publicación: 2012
Número: 49
Páginas: 109-116
Tipo: Artículo
Otras publicaciones en: Procesamiento del lenguaje natural
Resumen
Este artculo presenta las tecnicas de postprocesado dise~nadas para mejorar los resultados de un sistema de diarizacion de locutores. Se han propuesto tres tecnicas de mejora: el renado de la segmentacion voz/no voz, la asimilacion de los segmentos cortos y la fusion de los clusters del mismo locutor. Las tecnicas se han implementado en un modulo que se aplica como etapa de postprocesado y que ha mejorado un 22.3% el resultado del sistema base. El modulo se ha aplicado sin realizar ningun ajuste sobre otro sistema de diarizacion de arquitectura similar al sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido mejorar el DER un 17 %. Esto demuestra la validez de las tecnicas desarrolladas para la mejora de los resultados de la diarizacion.
Referencias bibliográficas
- Anguera, Xavier. 2006. Robust Speaker Diarization for meetings. Ph.D. tesis, Universitat Politecnica de Catalunya.
- Anguera, Xavier, Simon Bozonnet, Nicholas Evans, Corinne Fredouille, Gerald Friedland, y Oriol Vinyals. 2012. Speaker Diarization: A Review of Recent Research. IEEE Transactions on Audio, Speech and Language Processing, 20(2):356-370.
- Cettolo, Mauro, Michele Vescovi, y Romeo Rizzi. 2005. Evaluation of BIC-based algorithms for audio segmentation. Com- puter Speech & Language, 19(2):147-170, Abril.
- Chen, S. S. y P. S. Gopalakrishnan. 1998. Speaker, environment and channel change detection and clustering via the bayesian information criterion. En DARPA speech recognition workshop, volumen 6, páginas 127-132.
- Docio, L., P. Lopez, y C. Garcia. 2010. The uvigo-gtm speaker diarization system for the albayzin'10 evaluation. En VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, (FALA 2010), páginas 401-404, November.
- Luengo, I., E. Navas, I. Saratxaga, I. Hernáez, y D. Erro. 2010. AhoLab Speaker Diarisation System for Albayzin 2010. En FALA 2010, páginas 393-396, Vigo.
- Reynolds, Douglas A y P. Torres-Carrasquillo. 2005. Approaches and applications of audio diarization. En IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), páginas 953-956.
- Tavarez, David, Eva Navas, Daniel Erro, y Ibon Saratxaga. 2012. Strategies to Improve a Speaker Diarisation Tool. En LREC, páginas 4117-4121, Estambul.
- Tranter, S. E. y D. A. Reynolds. 2006. An overview of automatic speaker diarization systems. IEEE Trans. on Audio, Speech and Laguage processing, 14(5):1557-1565.
- Zelenák, M., H. Schulz, y J. Hernando. 2010. Albayzin 2010 evaluation campaign: Speaker diarization. En VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, páginas 301{304, Vigo, Spain, November.