Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/9614
Título: Processing disfluencies in european portuguese
Autor: Moniz, Helena Gorete Silva, 1976-
Orientador: Silva, Ana Isabel Mata da, 1962-
Trancoso, Isabel
Palavras-chave: Língua portuguesa
Distúrbios da fala
Prosódia (Linguística)
Processamento automático da fala
Teses de doutoramento - 2013
Data de Defesa: 2013
Resumo: This thesis focuses on the analysis of disfluencies, aiming at a characterization of the regular patterns in their production in European Portuguese, and at contributing towards the fully automatic processing of structural metadata events. This analysis was strongly supported on prosodic feature processing, and involved corpora of very different characteristics. In terms of structural metadata, one of the main contributions concerns the automatic processing of interrogatives, an unexplored topic in Portuguese. When using only lexical cues in the automatic detection of interrogatives, mostly wh- questions are detected. By adding prosodic features, yes/no and tag questions are then increasingly identified, showing the advantages of combining both lexical and prosodic features. The inter-corpora analysis of interrogatives evidenced that there are domain specific distributional patterns. Prosodic features also played a dominant role in the discrimination between commas, fullstops, question marks and disfluencies. Our data-driven approach revealed a very distinctive set of prosodic features for each event, going beyond the established evidences for our language. In terms of disfluencies, we analyzed university lectures and map-task dialogues, showing that the selection of specific disfluency types is corpus dependent. Pitch, energy and tempo parameters display inter-corpora similarities, showing a cross-speaking style prosodic strategy of contrast marking in the disfluency-fluency repair, and also relative tempo symmetries regarding the length of the structured elements of a disfluency and its context. However, in the lectures, pitch and energy cues are given both for the units inside disfluent regions and between these and the adjacent contexts, showing a stronger prosodic contrast marking when compared to dialogues. As for tempo patterns, the length of the structured elements in the dialogues is smaller, reinforcing their dynamic and interactive character. This analysis will hopefully contribute to the open debate on the relative impact of distinct linguistic features across tasks, domains and languages.
A presente tese centra-se na análise de disfluências com o duplo objectivo de caracterizar os padrões regulares associados à sua produção e contribuir para o processamento automático de um conjunto mais alargado de eventos designados no inglês “structural metadata events” (Liu et al. (2006b); Ostendorf et al. (2008); Jurafsky and Martin (2009)), nomeadamente, a recuperação automática de pontuação e maiúsculas em fronteiras de frase, bem como a anotação e filtragem de disfluências. A análise apresentada tem como base o processamento automático de propriedades prosódicas em corpora de natureza distinta. Para validar a metodologia de extracção automática de propriedades prosódicas, desenhada no âmbito deste trabalho, a primeira experiência incide sobre o processamento automático de interrogativas, um tópico ainda por explorar no português. A literatura crítica da área não é consensual relativamente ao contributo de diversas pistas linguísticas, nomeadamente lexicais e prosódicas, para a identificação de marcas de pontuação. Com o objectivo de verificar se o contributo destas pistas linguísticas varia em função da natureza específica de um corpus ou dos tipos de interrogativas, procedeu-se à análise da distribuição das interrogativas em quatro corpora distintos: noticiários televisivos, aulas universitárias, diálogos espontâneos e, para efeitos de comparação, notícias do jornal Público. Os resultados evidenciam uma correlação entre a natureza dos corpora e a frequência e distribuição de tipos de interrogativas, permitindo um claro contraste entre diálogos espontâneos e aulas universitárias, por um lado, e noticiários televisivos e notícias do jornal, por outro. Na distribuição dos diferentes tipos, verifica-se que o corpus de aulas universitárias contém sobretudo interrogativas Qu- e tags, enquanto que o de diálogos espontâneos tem uma significativa percentagem de interrogativas de sim/não, e o de notícias televisivas apresenta uma distribuição semelhante entre Qu- e interrogativas de sim/não. Os resultados da detecção automática de interrogativas demonstram que: i) quando são apenas utilizadas pistas lexicais (categoria morfológica, n-gramas de palavras mais frequentes, número e posição das palavras na frase, inter alia), apenas as interrogativas Qu- são detectadas vs. ii) quando são adicionadas pistas prosódicas (energia, duração e frequência fundamental das unidades sílaba e palavra), as interrogativas globais e as tags passam, então, a ser detectadas. Os resultados apontam, assim, para um efeito determinante da combinação de pistas linguísticas na identificação das diferentes estruturas interrogativas do Português Europeu (PE). Os resultados desta experiência constituem um dos principais contributos desta tese. Um segundo conjunto de experiências é dedicado à predição dos sinais de pontuação mais frequentes nos corpora (vírgulas, pontos finais e pontos de interrogação) e à discriminação entre frases, ou constituintes similares a frase (do inglês “sentence-like unit”), e disfluências, num corpus de aulas universitárias. Com recurso à aplicação de acesso público Weka, utilizaramse vários métodos de aprendizagem, sendo que as Árvores de Decisão e Regressão (CART) evidenciam os melhores resultados. Para a discriminação destas classes de eventos é determinante o seguinte conjunto de pistas linguísticas: contornos de frequência fundamental ( f0), níveis de energia, duração relativa das unidades de análise e grau de confiança dessas mesmas unidades. Em primeiro lugar, as pistas que mais contribuem para a predição da reposição de fluência a seguir a uma sequência disfluente integram: i) duas palavras contíguas idênticas; ii) subida dos níveis de f0 e de energia na palavra que inicia uma reposição de fluência e um contorno estacionário de f0 na palavra anterior; iii) grau de confiança da palavra que inicia a reposição, superior ao da disfluência propriamente dita. Relativamente às pistas associadas à predição de pontos finais, estas incluem: i) contorno descendente na palavra antes de um ponto final; ii) nível estacionário de energia na mesma palavra; iii) duração relativa entre essa palavra e a seguinte; e iv) grau superior de confiança em relação à palavra seguinte. Este conjunto de pistas é ilustrativo do comportamento de uma declarativa neutra no PE. Quanto aos pontos de interrogação, estes são caracterizados por dois padrões diferenciados: i) contorno de f0 ascendente na palavra antes de um ponto de interrogação e declive (do inglês “slope”) de energia ascendente nessa e na palavra seguinte; ii) contorno de f0 estacionário na palavra antes de um ponto de interrogação e declive de energia descendente nessa mesma palavra. As vírgulas são o evento que menos depende de uma caracterização prosódica. Nas experiências até agora realizadas para o PE, elas são sobretudo classificadas com base em pistas morfo-sintácticas, não sendo claramente desambiguadas por meio de pistas prosódicas. Este segundo conjunto de experiências constitui-se como um primeiro contributo para a sistematização das propriedades linguísticas associadas a sinais de pontuação e a reposição de fluência em PE. O terceiro conjunto de experiências integrado nesta tese concentrou-se na investigação do comportamento prosódico das disfluências em aulas universitárias e em diálogos espontâneos. Relativamente às aulas universitárias, foram encontrados dois padrões essenciais: i) declives de f0 e de energia estatisticamente significativos entre os contextos adjacentes e a disfluência propriamente dita; ii) aumentos de f0 e de energia (marcação prosódica por contraste) entre a disfluência e a reposição da fluência para a maioria das categorias disfluentes, embora com diferentes graus de contraste. Deve notar-se que os aumentos de f0 e de energia entre a disfluência e a reposição da fluência são produzidos por todos os falantes. O primeiro padrão ilustra a forma como o falante sinaliza de forma económica as diferentes regiões, utilizando apenas uma palavra antes e depois da sequência disfluente, e pode ser interpretado como uma estratégia do falante para auxiliar os ouvintes a processar as pistas produzidas num curto intervalo de tempo. No segundo padrão, os aumentos mais elevados de f0 estão associados às categorias pausas preenchidas e apagamentos e os de energia à categoria repetições, o que aponta para combinatórias de parâmetros prosódicos ao serviço de propósitos funcionais distintos. A estratégia de marcação prosódica por contraste de disfluência para reposição de fluência é realizada por todos os falantes. Quanto aos diálogos e seguindo a mesma ordem de padrões: i) o contexto adjacente anterior a uma disfluência não apresenta diferenças significativas; ii) metade das categorias disfluentes é produzida com aumentos de f0 da disfluência para a reposição da fluência; há aumentos de energia constantes por falante, mas não por categoria (apagamentos e fragmentos não são produzidos com aumentos de energia). Note-se que a estratégia de marcação prosódica por contraste é realizada por 71% dos falantes. Os padrões temporais das unidades de análise são em média mais breves do que nas aulas. A comparação inter-corpora aponta efeitos de estilo de fala na distribuição das disfluências, nos padrões temporais e mesmo na marcação prosódica por contraste da disfluência para a reposição da fluência entre aulas universitárias e diálogos. Embora as pausas preenchidas sejam a categoria mais representativa em ambos os corpora, as restantes categorias apresentam uma distribuição distinta. Nas aulas, as sequências complexas (e.g., repetições e substituições utilizadas para procura/precisão lexical) são mais frequentes do que as repetições, enquanto nos diálogos ambas têm distribuições similares. Nos diálogos, os fragmentos correspondem a mais do dobro dos fragmentos produzidos nas aulas e os apagamentos são residuais. Estas diferenças na distribuição das categorias disfluentes podem ser interpretadas em função da natureza dos diálogos em análise, nomeadamente das restrições temporais a que estão sujeitos, com recurso mais frequente a categorias como repetições e fragmentos e menos a sequências complexas e apagamentos. Os padrões temporais também apontam para a natureza mais dinâmica dos diálogos por comparação com as aulas, com produção de menos palavras, tanto em frases fluentes como em frases que contêm disfluências. O encadeamento das interacções comunicativas num diálogo está sujeito a restrições temporais, evidentes também na duração dos silêncios, na disfluência e nos próprios contextos adjacentes. Uma vez mais, todas as unidades referidas são mais breves nos diálogos do que nas aulas. Mesmo a estratégia de marcação prosódica por contraste da disfluência para a reposição da fluência está sujeita a variação inter-corpora, sendo esta marcação mais forte nas aulas que nos diálogos. Nas aulas, pistas de f0 e de energia são produzidas por todos os falantes, para a maioria das categorias, tanto para as disfluências como para os contextos adjacentes. O conjunto de padrões apresentado é um contributo para a diferenciação entre estilos de fala, nomeadamente entre fala espontânea e fala preparada não-lida. Espera-se que esta análise para o português europeu possa contribuir para questões de investigação ainda em aberto relativas ao impacto de pistas linguísticas distintas por tarefas, domínios e línguas.
Descrição: Tese de doutoramento, Linguística (Linguística Educacional), Universidade de Lisboa, Faculdade de Letras em associação com a Universidade Técnica de Lisboa, Instituto Superior Técnico, 2013
URI: http://hdl.handle.net/10451/9614
Aparece nas colecções:FL - Teses de Doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulsd066714_td_Helena_Moniz.pdf4,2 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.