Acoustic Models for the Automatic Identification of Prosodic Boundaries in Spontaneous Speech / Modelos acústicos para a identificação automática de fronteiras prosódicas na fala espontânea

2018 
Abstract : This work presents the results of the analysis of multiple acoustic parameters for the construction of a model for the automatic segmentation of speech in tone units. Based on literature review, we defined sets of acoustic parameters related to the signalization of terminal and non-terminal boundaries. For each parameter, we extracted a series of measurements: 6 for speech rate and rhythm; 34 for duration; 65 for fundamental frequency; 4 for intensity and 2 measurements related to pause. These parameters were extracted from spontaneous speech fragments that were previously segmented into tone units, manually performed by 14 human annotators. We used two methods of statistical classification, Random Forest (RF) and Linear Discriminant Analysis (LDA), to generate models for the identification of prosodic boundaries. After several phases of training and testing, both methods were relatively successful in identifying terminal and non-terminal boundaries. The LDA method presented a higher accuracy in the prediction of terminal and non-terminal boundaries than the RF method, therefore the model obtained with LDA was further refined. As a result, the terminal boundary model is based on 20 acoustic measurements and shows a convergence of 80% in relation to boundaries identified by annotators in the speech sample. For non-terminal boundaries, we arrived at three models that, combined, presented a convergence of 98% in relation to the boundaries identified by annotators in the sample. Keywords : speech segmentation; prosodic boundaries; spontaneous speech. Resumo : Este trabalho apresenta os resultados da analise de multiplos parâmetros acusticos para a construcao de um modelo para a segmentacao automatica da fala em unidades tonais. A partir da investigacao da literatura, definimos conjuntos de parâmetros acusticos relacionados a identificacao de fronteiras terminais e nao terminais. Para cada parâmetro, uma serie de medidas foram extraidas: 6 medidas de taxa de elocucao e ritmo; 34 de duracao; 65 de frequencia fundamental; 4 de intensidade e 2 medidas relativas as pausas. Tais parâmetros foram extraidos de fragmentos de fala espontânea previamente segmentada em unidades tonais de forma manual por 14 anotadores humanos. Utilizamos dois metodos de classificacao estatistica, Random Forest (RF) e Linear Discriminant Analysis (LDA), para gerar modelos de identificacao de fronteiras prosodicas. Apos diversas fases de treinamentos e testes, ambos os metodos apresentaram sucesso relativo na identificacao de fronteiras terminais e nao-terminais. O metodo LDA apresentou maior indice de acerto na previsao de fronteiras terminais e nao-terminais do que o RF, portanto, o modelo obtido com este metodo foi refinado. Como resultado, O modelo para as fronteiras terminais baseia-se em 20 medidas acusticas e apresenta uma convergencia de 80% em relacao as fronteiras identificadas pelos anotadores na amostra de fala. Para as fronteiras nao terminais, chegamos a tres modelos que, combinados, apresentaram uma convergencia de 98% em relacao as fronteiras identificadas pelos anotadores na amostra. Palavras-chave : segmentacao da fala; fronteiras prosodicas; fala espontânea.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    1
    References
    1
    Citations
    NaN
    KQI
    []