Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/13851
Título: Verbal lemmatization and featurization of Portuguese with ambiguity resolution in context
Autor: Nunes, Filipe Varela
Orientador: Branco, António
Palavras-chave: Conjugação
Morfologia
Lematização
Desambiguação
Processamento de linguagem natural
Data de Defesa: 2007
Resumo: Nas interacções linguísticas do dia-a-dia, os seres humanos estão constantemente a fazer lematização verbal por forma a processar correctamente a informação que lhes é transmitida por intermédio da linguagem natural, em particular a quer é veiculada por expressões de natureza verbal. Este procedimento consiste em descobrir a forma infinitiva dos verbos. A lematização verbal é um processo de complexidade variável, dependendo da língua natural que esteja a ser usada. Em algumas línguas (como o inglês), esse processo é bastante simples, enquanto que noutras esse processo de maior complexidade. O português é uma das línguas em que esse processo é bastante complexo. Essa complexidade está em relação directa com a riqueza do sistema de flexão verbal, uma característica partilhada com outras línguas cuja sua origem é o Latim, por exemplo. Em termos do processamento computacional do português, a complexidade do sistema de flexão verbal da língua portuguesa reflecte-se na importância da criação de ferramentas automáticas para desempenharem a tarefa de lematização. O presente documento apresenta o trabalho desenvolvido na criação de uma ferramenta automática que permite a lematização verbal do português. Esta ferramenta lida com os dois aspectos chave da linguagem natural que são críticos para o processamento computacional - a ambiguidade e a novidade – na forma elas assumem nesta tarefa específica de lematização verbal: determinação da asserção flexional que uma expressão verbal ambígua acontece formar bum determinado contexto de ocorrência (resolução da ambiguidade); determinação das acepções flexionais veiculadas por uma expressão verbal desconhecida do sistema (acomodação da novidade). Este documento começa com uma introdução (Cap. 1) na qual é descrito de forma genérica o problema a resolver e as motivações para a sua resolução. Neste primeiro capítulo é também apresentado o enquadramento institucional em que o trabalho foi desenvolvido e a estrutura do resto do documento. Segue-se um capítulo (Cap. 2) onde são apresentados com todo o pormenor o problema a resolver assim como os objectivos que se visou cumprir com o trabalho. Aqui é apresentada uma descrição dos mecanismos de conjugação, lematização e traçamento verbais e a forma como os clíticos interagem com as formas verbais. Inicialmente são descritos os elementos que constituem um traço de flexão, indicado-se como esses elementos se podem combinar entre si para formar um traço de flexão, sendo apresentado um quadro com todos os traços existentes no português. É indicado como diferentes formas verbais formam tempos compostos. São também abordados os verbos defectivos, indicam-se os diferentes tipos de verbos defectivos existentes e quais os traços de flexão que cada um possui. É ainda indicado a constituição dos lemas, assim como a sua classificação consoante as sua vogal temática. Ainda neste capítulo é apresentada a forma como o problema da conjugação verbal está apresentado nos dicionários de verbos. É indicado o que são e como funcionam as tabelas de conjugação. É identificado o que é um paradigma de conjugação, o que são verbos modelo, e como estes podem ser usados para construir as tabelas de conjugação de outros verbos. É mostrado como a substituição de terminações no lema permite a formação de formas flexionadas desse lema (regras de conjugação), e quais as diferentes características que elas têm relativamente aos verbos regulares, irregulares e pseudo-irregulares. Este capítulo continua com a descrição de como funciona o processo de lematização verbal, e como é possível a angariação das regras de lematização a partir das regras de conjugação sendo também introduzida a problemática da ambiguidade verbal, mostrando-se como podem surgir ambiguidades durante o processo de lematização. É igualmente apresentado o processo de traçamento verbal e as suas semelhanças de funcionamento com o processo de lematização. Após a descrição destes processos, são apresentados os pronomes clíticos, sendo descritas as três possíveis forma de colocação em relação ao verbo e em que situações elas podem ocorrer. É indicada uma classificação em três grupos, que será seguida durante o trabalho e a forma como os clíticos correspondente a cada grupo interagem entre si para formar uma sequência de clíticos. São também abordados os possíveis casos de ambiguidade provocados pela presença de clíticos. O capítulo 2 termina com a descrição dos desafios que tiveram de ser superados durante a realização das tarefas propostas. Segue-se (Cap. 3) uma descrição de trabalhos realizados com alguma relação com a lematização verbal automática, realizados tanto para o português como para outras línguas. No capítulo seguinte (Cap. 4) é apresentado o algoritmo de lematização e traçamento e a implementação de uma ferramenta que efectua lematização e traçamento verbal de base. A ferramenta devolve vários tuplos compostos por um lema e um traço verbal. São descritas as diversas listas necessárias à sua implementação, bem como as estruturas que foram utilizadas para as guardar. Após a descrição dessa ferramenta é mostrado como ela fui utilizada para a criação de um serviço online de lematização e traçamento verbal do português. É apresentada uma descrição da interface desse serviço e a forma como os resultados são apresentados. São descritos os desafios adicionais inerentes a uma versão online. É feita uma descrição detalhada da implementação de um algoritmo que faz validação prévia do input introduzido pelo utilizador, identificação de formas verbais e clíticos, separação de sequência de clíticos, identificação da colocação da sequência de clíticos, validação das regras relativas aos clíticos e reconstituição da forma verbal. É também indicado como é feito o tratamento dos tempos compostos. Depois de descrita a implementação do serviço online é indicado o teste que foi feito para verificar a fiabilidade da ferramenta desenvolvida, e como esse teste foi usado para obter versões corrigidas. Segue-se a apresentação de um estudo sobre a ambiguidade verbal (Cap. 5). No estudo são indicados os diferentes tipos de ambiguidade verbal e são apresentados os valores que quantificam a sua cobertura no léxico e num corpus. Para que a questão da ambiguidade possa ser resolvida, é necessário que o lematizador seja aplicado expressões verbais que ocorrem em texto corrido e não apenas a uma expressão verbal isolada. No entanto, há que saber quais são as formas verbais presentes no texto que se pretende analisar. É então que são indicadas as ferramentas que são aplicadas ao texto antes que este chegue ao lematizador verbal. São explicadas as etiquetas morfo-sintácticas que identificam formas verbais, sendo indicado as restrições que devem ser impostas a nível de lematização e traçamento dessa forma, e o formato com que elas são apresentadas para o lematizador assim como o esperado formato de saída. Por fim, é explicada a forma como os clíticos se encontram assinalados, e a maneira como essa informação é tratada por forma a que possam ser aplicadas restrições aos resultados a obter. De seguida são descritos os algoritmos alternativos, implementados para a tarefa de desambiguação do traço de flexão verbal. É descrito o funcionamento de cada algoritmo e a forma como foram implementados. É apresentado uma análise dos resultados obtidos com os diferentes algoritmos. Após ter sido feito uma análise comparativa para a tarefa de desambiguação de traços de flexão, é feita análise similar para os lemas verbais, onde são indicadas as alterações que os algoritmos sofreram por forma a suportar a tarefa de lematização. Finalmente, são comparados os resultados das duas tarefas (lematização e traçamento) entre os diferentes algoritmos. Os resultados da avaliação do algoritmo com melhor desempenho são então comparados com trabalhos similares com resultados publicados, donde se conclui que, com o presente trabalho se conseguiu notoriamente fazer avançar o estado da arte neste domínio. Por fim, é feita uma análise dos erros mais frequentes cometidos pela ferramenta. Finalmente, é apresentado um resumo das ferramentas resultantes do trabalho realizado (Cap. 6). É também resumido a problemática da ambiguidade verbal, bem como os resultados de cada uma das diferentes abordagens para resolver o problema. É feito uma comparação resumida com os trabalhos anteriores que são comparáveis, e finalmente são depois apresentadas várias linha de orientação para trabalho futuro.
URI: http://hdl.handle.net/10451/13851
http://repositorio.ul.pt/handle/10455/3307
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
DissertacaoMestradoFNunes.pdf932,84 kBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.