Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/4982

Título: Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
Autor: Nunes, Filipe Varela
Orientador: Branco, António H., 1963-
Palavras-chave: Processamento de linguagem natural
Lematização
Conjugação
Morfologia
Desambiguação
Trabalhos de projecto de mestrado - 2007
Issue Date: 2007
Resumo: Nas interacções linguísticas do dia-a-dia, os seres humanos estão constantemente a fazer lematização verbal por forma a processar correctamente a informação que lhes e transmitida por intermédio da linguagem natural, em particular a quer e veiculada por expressões de natureza verbal. Este procedimento consiste em descobrir a forma infinitiva dos verbos. A lematização verbal e um processo de complexidade variável, dependendo da língua natural que esteja a ser usada. Em algumas línguas (como o ingles), esse processo e bastante simples, enquanto que noutras esse processo de maior complexidade. O português é uma das línguas em que esse processo é bastante complexo. Essa complexidade está em relação directa com a riqueza do sistema de flexão verbal, uma característica partilhada com outras línguas cuja sua origem e o Latim, por exemplo. Em termos do processamento computacional do português, a complexidade do sistema de flexão verbal da língua portuguesa reflecte-se na importância da criação de ferramentas automáticas para desempenharem a tarefa de lematização. O presente documento apresenta o trabalho desenvolvido na criação de uma ferramenta automática que permite a lematização verbal do português. Esta ferramenta lida com os dois aspectos chave da linguagem natural que são críticos para o processamento computacional - a ambiguidade e a novidade – na forma elas assumem nesta tarefa especifica de lematização verbal: determinação da asserção flexional que uma expressão verbal ambígua acontece formar um determinado contexto de ocorrência (resolução da ambiguidade); determinação das acepções flexionais veiculadas por uma expressão verbal desconhecida do sistema (acomodação da novidade). Este documento começa com uma introdução (Cap. 1) na qual e descrito de forma genérica o problema a resolver e as motivações para a sua resolução. Neste primeiro capitulo e também apresentado o enquadramento institucional em que o trabalho foi desenvolvido e a estrutura do resto do documento. Segue-se um capitulo (Cap. 2) onde são apresentados com todo o pormenor o problema a resolver assim como os objectivos que se visou cumprir com o trabalho. Aqui e apresentada uma descrição dos mecanismos de conjugação, lematização e traçamento verbais e a forma como os clíticos interagem com as formas verbais. Inicialmente são descritos os elementos que constituem um traço de flexão, indicando-se como esses elementos se podem combinar entre si para formar um traço de flexão, sendo apresentado um quadro com todos os traços existentes no português. E indicado como diferentes formas verbais formam tempos compostos. São também abordados os verbos defectivos, indicam-se os diferentes tipos de verbos defectivos existentes e quais os traços de flexão que cada um possui. E ainda indicado a constituição dos lemas, assim como a sua classificação consoante a sua vogal temática. Ainda neste capitulo e apresentada a forma como o problema da conjugação verbal está apresentado nos dicionários de verbos. É indicado o que são e como funcionam as tabelas de conjugação. É identificado o que é um paradigma de conjugação, o que são verbos modelo, e como estes podem ser usados para construir as tabelas de conjugação de outros verbos. É mostrado como a substituição de terminações no lema permite a formação de formas flexionadas desse lema (regras de conjugação), e quais as diferentes características que elas tem relativamente aos verbos regulares, irregulares e pseudo-irregulares. Este capitulo continua com a descrição de como funciona o processo de lematização verbal, e como é possível a angariação das regras de lematização a partir das regras de conjugação sendo também introduzida a problemática da ambiguidade verbal, mostrando-se como podem surgir ambiguidades durante o processo de lematização. É igualmente apresentado o processo de traçamento verbal e as suas semelhanças de funcionamento com o processo de lematização. Após a descrição destes processos, são apresentados os pronomes clíticos, sendo descritas as três possíveis forma de colocação em relação ao verbo e em que situações elas podem ocorrer. É indicada uma classificação em três grupos, que será seguida durante o trabalho e a forma como os clíticos correspondente a cada grupo interagem entre si para formar uma sequência de cliticos. São também abordados os possíveis casos de ambiguidade provocados pela presença de clíticos. O capítulo 2 termina com a descrição dos desafios que tiveram de ser superados durante a realização das tarefas propostas. Segue-se (Cap. 3) uma descrição de trabalhos realizados com alguma relação com a lematização verbal automática, realizados tanto para o português como para outras línguas. No capitulo seguinte (Cap. 4) é apresentado o algoritmo de lematização e traçamento e a implementação de uma ferramenta que efectua lematização e traçamento verbal de base. A ferramenta devolve vários tuplos compostos por um lema e um traço verbal. São descritas as diversas listas necessárias a sua implementação, bem como as estruturas que foram utilizadas para as guardar. Após a descrição dessa ferramenta é mostrado como ela fui utilizada para a criação de um serviço online de lematização e traçamento verbal do português. É apresentada uma descrição da interface desse servico e a forma como os resultados são apresentados. São descritos os desafios adicionais inerentes a uma versão online. É feita uma descrição detalhada da implementação de um algoritmo que faz validação prévia do input introduzido pelo utilizador, identificação de formas verbais e clíticos, separação de sequência de clíticos, identificação da colocação da sequência de clíticos, validação das regras relativas aos clíticos e reconstituição da forma verbal. É também indicado como é feito o tratamento dos tempos compostos. Depois de descrita a implementação do serviço online é indicado o teste que foi feito para verificar a fiabilidade da ferramenta desenvolvida, e como esse teste foi usado para obter versões corrigidas. Segue-se a apresentação de um estudo sobre a ambiguidade verbal (Cap. 5). No estudo são indicados os diferentes tipos de ambiguidade verbal e são apresentados os valores que quantificam a sua cobertura no léxico e num corpus. Para que a questão da ambiguidade possa ser resolvida, e necessário que o lematizador seja aplicado expressões verbais que ocorrem em texto corrido e não apenas a uma expressão verbal isolada. No entanto, há que saber quais são as formas verbais presentes no texto que se pretende analisar. É então que são indicadas as ferramentas que são aplicadas ao texto antes que este chegue ao lematizador verbal. São explicadas as etiquetas morfo-sintácticas que identificam formas verbais, sendo indicado as restrições que devem ser impostas a nível de lematização e traçamento dessa forma, e o formato com que elas são apresentadas para o lematizador assim como o esperado formato de saáda. Por fim, é explicada a forma como os clíticos se encontram assinalados, e a maneira como essa informação é tratada por forma a que possam ser aplicadas restrições aos resultados a obter. De seguida são descritos os algoritmos alternativos, implementados para a tarefa de desambiguação do traço de flexão verbal. É descrito o funcionamento de cada algoritmo e a forma como foram implementados. É apresentado uma análise dos resultados obtidos com os diferentes algoritmos. Após ter sido feito uma análise comparativa para a tarefa de desambiguação de traços de flexão, é feita análise similar para os lemas verbais, onde são indicadas as alterações que os algoritmos sofreram por forma a suportar a tarefa de lematização. Finalmente, são comparados os resultados das duas tarefas (lematização e traçamento) entre os diferentes algoritmos. Os resultados da avaliação do algoritmo com melhor desempenho são então comparados com trabalhos similares com resultados publicados, donde se conclui que, com o presente trabalho se conseguiu notoriamente fazer avançar o estado da arte neste domínio. Por fim, é feita uma análise dos erros mais frequentes cometidos pela ferramenta. Finalmente, é apresentado um resumo das ferramentas resultantes do trabalho realizado (Cap. 6). É também resumido a problemática da ambiguidade verbal, bem como os resultados de cada uma das diferentes abordagens para resolver o problema. É feito uma comparação resumida com os trabalhos anteriores que são comparáveis, e finalmente são depois apresentadas várias linhas de orientação para trabalho futuro.
In its daily interaction among each other, humans are constantly performing verbal lemmatization in order to correctly process information transmitted by means of natural language, in particular the ones conveyed by the verbal expression. The complexity of the process varies from language to language, depending on the complexity of their verbal inflection system. This document presents the work undertaken to develop an automatic verbal lemmatizer and featurizer capable of working with new verb forms and being able to perform disambiguation in context. Initially, the problem is presented and major goals are identified (chap. 1). After that, it is provided a linguistic description of how the conjugation and lemmatization process works (chap. 2), including a detailed description of how clitics can interact with a verb form. After reviewing other related works done in this domain, for Portuguese and other languages (chap. 3), there is a description of the implementation of a tool capable of lemmatizing and featurizing a single verb form, and the online service supported by it (chap. 4). After describing how to lemmatize a single verb form, this document approaches the verbal disambiguation problem, where three algorithms are described, and their evaluation results presented (chap. 5). Finally, this dissertation closes with a conclusion where the work is summarized and hints for future work are suggested (chap. 6).
Descrição: Trabalho de projecto de mestrado, Engenharia Informática, Universidade de Lisboa, Faculdade de Ciências, 2007
URI: http://hdl.handle.net/10451/4982
Appears in Collections:FC - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
ulfc055972_tm_Filipe_Nunes.pdf930,81 kBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
Promotores do RCAAP   Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência PO Sociedade do Conhecimento (POSC) Portal oficial da União Europeia