Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/18236
Título: Aging effects in speech statistical learning : a behavioral and computational study
Autor: Penha, Bruno Rafael Gil, 1990-
Orientador: Fernandes, Tânia Patrícia Gregório, 1978-
Correia, Luís
Palavras-chave: Segmentação (Linguística)
Envelhecimento - Portugal
Aprendizagem da língua
Mecanismo de memória
Teses de mestrado - 2014
Data de Defesa: 2014
Resumo: A segmentação da fala é um empreendimento dificil devido à falta ou inconsistencia de marcadores directos de fronteiras entre palavras, tal como pausas. No entanto, o discurso falado é altamente estruturado, originando co-ocorrencias entre estímulos, em relação aos quais os sujeitos são sensiveis e capazes de adquirir através de um processo conhecido por aprendizagem estatística. A aprendizagem estatística pode ocorrer através de diversos tipos de computações entre estímulos, sendo um destes a probabilidade transicional (TP, do inglês transitional probability) de sílabas sequenciais. Estudos sobre a segmentação da fala recorrendo a TPs entre sílabas em crianças e jovens adultos demonstram que estas sozinhas são suficientes para segmentar o discurso em línguas artificiais. No entanto, estudos do género ainda não foram realizados numa população mais velha. Neste trabalho comparamos o desempenho de jovens adultos e adultos mais velhos num paradigma de aprendizagem de língua artificial. Foi usada uma lingua artificial cuja única pista para a segmentação consistia em TPs: sílabas entre palavras apresentam uma TP pequena enquanto sílabas pertencentes a uma palavra têm uma TP elevada, simulando as línguas naturais. Após a exposição à lingua os participantes fizeram um teste de escolha forçada entre palavras e parte-palavras (segmento da língua abarcando pedaços de duas palavras), onde foi pedido aos participantes que identificassem as palavras pertencentes à lingua. Tanto as palavras como as parte-palavras foram divididas nas categorias alta-PT e baixa-PT, permitindo uma análise mais detalhada. A aprendizagem estatística está dependente do foco da atenção para um desempenho eficaz. Devido ao facto dos jovens adultos terem um mau desempenho na escolha de palavras de baixa-PT quando fazem tarefas de divisão de atenção, esperamos resultados semelhantes para os participantes mais velhos nesta tarefa devido as declínios neuronais característicos do envelhecimento em zonas dos cérebro importantes para a aprendizagem estatística e a atenção. Dois modelos de segmentação da fala, PARSER e Redes Recurrentes Simples, foram testados de mode a avaliar quão próximos estão do desempenho humano. O PARSER baseia-se numa segmentaçao por chunks enquanto que as Redes Recurrentes Simples se baseiam nas TPs. Os nossos resultados comportamentais demonstram que ambos os grupos têm um desempenho semelhante na identificação de palavras de alta-TP mas os participantes mais velhos têm um desempenho significativamente pior na identificação de palavras de baixa-TP enquanto os participantes jovens surpreendentemente têm um melhor desempenho em comparação com as palavras alta-PT. Testes auxiliares permitiram teorizar a razão por detrás destes resultados, mas estudos futuros de neuroimagem podem dar respostas mais concretas a este problema. Os resultados computacionais demonstram que o PARSER supera em muito os participantes humanos, enquando o desempenho da SRN é muito superior nas palavras de alta-TP mas é semelhante nas palavras de baixa-TP. Apesar da simplicidade dos modelos usados, os resultados parecem indicar que a computação das TPs tem uma maior credibilidade na segmentação de fala do que os processos aletórios de escolha de chunks e mecanismos de memória associados.
Speech segmentation is a difficult enterprise due to the lack or inconsistency of direct marking of word boundaries in speech, such as pauses. However, speech stream is highly structured, leading to co-ocurrences between stimuli, which learners are sensitive to and can acquire through a process known as statistical learning (SL). Cues to speech segmentation can be prosodic, acoustic-phonetic or distributional, this last class consisting of several computations, such as transitional probabilities (TP) between syllables. Studies on syllables TP have shown that they alone are sufficient to segment speech. Although there have been some studies about the importance of syllables TPs in speech segmentation in infants and young adults, this kind of research is lacking in the elderly. In this work we compare young and older adult performance in an artificial language learning paradigm. An artificial language that excludes other than distributional cues was used, enabling the exploration of this kind of cues importance for speech segmentation. After the participants were exposed to the language a forced-choice test was enforced between words and part-words where participants were asked to identify the word belonging to the language. Both words and part-words were divided in high-TP and low-TP categories, allowing for a fine-grained analysis. SL is dependent on attentional focus for an effective performance. Because young adults perform poorly at choosing low-TP words while doing a divided attention task, we expect similar results for older participants in this task due to brain areas’ important for SL and attentional declines characteristic of aging. Two computational models of word segmentation, PARSER and Simple Recurrent Network (SRN), were tested to see how close they are from human performance. Each represents a different approache to speech segmentation: PARSER is chunk-based while SRN is TP-based Our behavioral results show that both groups perform similarly in identifying high-TP words but older participants performed significantly worse (at chance level) in identifying low-TP words whether young participants surprisingly performed better compared to high-TP. Because this study did not include a neuroimaging component, we can only theorize the reason behind these results. Further neuroimaging studies could give a more concrete answer to this problem. Our computational results show that PARSER outperforms humans by far, while SRN performance is more alike humans’. Despite the simplicity of the models here used, results seem to indicate that TP computations have a greater credibility in speech segmentation than random choosing of chunks and further memory mechanisms.
Descrição: Tese de mestrado, Ciência Cognitiva, Universidade de Lisboa, Faculdade de Ciências, Faculdade de Letras, Faculdade de Medicina, Faculdade de Psicologia, 2014
URI: http://hdl.handle.net/10451/18236
Designação: Mestrado em Ciência Cognitiva
Aparece nas colecções:FP - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfpie047252_tm.pdf872,7 kBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.