Criticalidad, fenómenos de umbral y leyes lingüísticas en el habla

2019 
Las leyes linguisticas constituyen una de las piezas clave, cuantitativamente medibles, de las ciencias cognitivas y la linguistica, y han sido intensamente investigadas durante el ultimo siglo, principalmente en corpus escritos. Las conclusiones extraidas del estudio de estos patrones estadisticos del lenguaje, estan por tanto influenciadas por la segmentacion aplicada, y caracteristicas como la variabilidad en duracion o energia de las unidades linguisticas orales, se pierden debido a la uniformidad de las transcripciones escritas. En esta tesis, examinamos la vigencia de las leyes linguisticas en las unidades propias del habla segmentada respecto del tradicional analisis en unidades transcritas y posteriormente, mediante un metodo de segmentacion independiente del lexico, encontramos estos mismo patrones en niveles infrafonemicos, donde los efectos cognitivos no operan. Utilizando conocidos corpus orales, primero mostramos que la duracion de todas las unidades linguisticas en diferentes escalas es acorde a una distribucion lognormal y proponemos un modelo estocastico explicativo unicamente asumiendo lognormalidad en la escala inferior. Posteriormente mostramos que las leyes linguisticas aparecen en todos los casos de forma mas robusta en magnitudes fisicas frente a las simbolicas, apoyando la hipotesis de que estos patrones tengan un origen fisico. Mostramos que la ley de Herdan-Heaps debe tener el mismo exponente independientemente de las unidades de estudio, proponemos por primera vez una formulacion matematica para la ley de Brevedad, basandonos en principios de compresion optima de la teoria de la informacion y proponemos un modelo mecanicista de ley Menzerath-Altmann que tambien es valido para el regimen invertido. Finalmente, aplicamos el metodo de los umbrales para estudiar la senal de voz, sin necesidad de segmentarla, recuperando las leyes linguisticas en niveles infrafonemicos y mostrando evidencias de que el habla esta producida por un sistema critico. Este metodo plantea si las leyes linguisticas encontradas en corpus escritos no seran un producto de dinamicas que emergen desde niveles no cognitivos, y en cualquier caso, abre la posibilidad a estudios comparativos en comunicacion animal y en senales sin transcripcion conocida. ----------ABSTRACT---------- Linguistic laws constitute one of the cornerstones, quantitatively measurable, of modern cognitive sciences and linguistics, and have been intensively researched during last century, mainly in written corpora. The conclusions reached from the study of statistical patterns of language are therefore, biased by the segmentation used, and characteristics such as the variability on the energy and duration of linguistic units are lost in the uniformity of the written transcription. In this thesis we examine whether linguistic laws hold with respect to the physical manifestations of linguistic units in segmented speech, and later, using a lexical independent segmentation method, we recover those equivalent statistical patterns at timescales even below the phonemic level, where cognitive process does not operate. Using well-known corporas, we first verify that acoustically transcribed durations of linguistic units at several scales comply with a Log-Normal distribution, and we quantitatively justify this observation using a stochastic generative model that only assumes lognormalty in the lower scale. Then, we find that classical linguistic laws appear stronger when using physical units than in their symbolic counterpart, supporting the hypothesis that statistical laws in language have a physical origin. We show that Herdan- Heapslaw has to hold the same exponent regarding of the units of study, we propose for the first time a precise mathematical formulation of Zipf’s law of abbreviation, which we show to be connected to optimal compression principles in information theory and a mathematical derivation of Menzerath-Altmann’s law which also highlights an additional regime where the law is inverted. Finally, we apply the threshold method to the speech signal, without the need of a segmentation, recovering linguistic laws at infraphonemic levels and showing more evidences that the speech may be produced by a system operating close to a critical point. These methods support the idea that linguistic laws found in written corpora may be, at least in part, a byproduct of dynamics that emerge from noncognitive levels and, in any case, it pave the way for new comparative studies in animal communication or the analysis of signals of unknown code.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []