Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/4510

Title: Prospecção de conceitos geográficos na web
Authors: Batista, David Soares
Advisor: Silva, Mário J. Gaspar da, 1961-
Keywords: Extracção de informação geográfica
Conditional random fields
Ontologias geográficas
Web semântica
Teses de mestrado - 2009
Issue Date: 2009
Abstract: Esta dissertacção apresenta um estudo feito sobre extracção de informacão de documentos, para geração de resumos geográficos. É estudado um método de aprendizagem supervisionada, com base em Conditional Random Fields para extracção de entidades em sequências de texto. O método estudado é integrado num sistema desenvolvido no âmbito desta dissertação, o HENDRIX, de forma a poder efectuar a extracção de entidades geográficas para textos em português e o seu tratamento. O tratamento das entidades geográficas extraídas é feito recorrendo a ontologias geográficas. O sistema desenvolvido foi depois usado para fazer a extracção de entidades geográficas de uma colecção de documentos, que representa uma recolha da web portuguesa, sob um cluster de computadores. São apresentados os resultados do desempenho do modelo gerado para extracção de informação geográfica e a análise das entidades geográficas extraídas da recolha da web portuguesa. A partir dos resultados observou-se que o corpus usado para treinar o modelo não é suficientemente expressivo para treinar um modelo de extracção de informação geográfica.
This dissertation presents a research done on information extraction for the generation of geographic summaries. The method studied is based on Conditional Random Fields, a supervised learning method for labeling or parsing of sequential data, such as natural language text. This method is then integrated in a system developed during the course of this dissertation. The developed system, HENDRIX, performs geographic entities extraction for documents written in Portuguese. HENDRIX also generates a geographic summary based on the extracted entities and their relations on geographic ontologies. The developed system was then applied to a crawl of the Portuguese Web, using a cluster of computers. This dissertation presents the results of the performance of the generated model for geographic information extraction as well as an analysis of the extracted entities from the crawl. The results show that the corpus on which the generated model was based is not rich enough to generate a good model for geographic information extraction.
Description: Tese de mestrado, Engenharia Informática (Arquitectura, Sistemas e Redes de Computadores), Universidade de Lisboa, Faculdade de Ciências, 2009
URI: http://hdl.handle.net/10451/4510
Appears in Collections:FC - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
ulfc055802_tm_David_Batista.pdf958.61 kBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE