Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/14106
Título: Directivas e categorias para identificação e classificação semântica na coleccção dourada do HAREM
Autor: Cardoso, Nuno
Santos, Diana
Palavras-chave: avaliação
processamento computacional do português
processamento de linguagem natural, extracção de informação
português
avaliação conjunta
reco
Data: Nov-2006
Editora: Department of Informatics, University of Lisbon
Relatório da Série N.º: di-fcul-tr-06-18
Resumo: Neste relatório técnico apresentam-se as directivas usadas na compilação da colecção dourada do HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas (REM) em português, organizada pela Linguateca. A colecção dourada (dois conjuntos, de 129 e 128 textos de vários géneros literários) foi manualmente anotada com a identificação de nomes próprios e a sua classificação semântica, com base num leque de categorias derivado quer do consenso inicial entre os participantes no HAREM quer do estudo aturado subsequente das realidades nos textos que analisávamos. Cedo se tornou claro que a documentação das categorias empregues, a sua delimitação o mais precisa possível e a criação de critérios claros para anotação de mais texto em português seriam uma das contribuições mais importantes deste esforço de anotação. O presente documento inclui pois uma relação extensa dos vários casos encontrados em texto em português e de quais os critérios usados na sua anotação, critérios esses que foram usados na criação da colecção dourada, com base na qual os sistemas participantes foram avaliados no HAREM. O resultado desse processo de reflexão e explicitação das opções tomadas tem no entanto interesse para além da própria avaliação de sistemas de reconhecimento de entidades mencionadas, por ser um início de descrição semântica do português baseada em corpora. Visto que o próprio recurso, a colecção dourada, se encontra disponível, o conhecimento das directivas precisas usadas para o criar permite a futuros investigadores levarem a cabo estudos quantitativos e exploratórios do texto usado, assim como alterações sistemáticas das suas opções se com elas discordarem. O relatório começa por relatar como foi feita a delimitação das entidades a classificar, seguindo-se uma descrição detalhada de quais os critérios para distinguir entre os vários tipos das dez categorias utilizadas no HAREM (PESSOA, ORGANIZA?ÌO, TEMPO, ACONTECIMENTO, COISA, LOCAL, OBRA, ABSTRAC?ÌO, VALOR e VARIADO), com copiosos exemplos e descrição de casos problemáticos ou simplesmente potencialmente complexos
URI: http://hdl.handle.net/10451/14106
http://repositorio.ul.pt/handle/10455/3003
Aparece nas colecções:FC-DI - Technical Reports

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
06-18.pdf151,41 kBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.