Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/12169
Título: Identifying interactions between chemical entities in text
Autor: Lamúrias, André Francisco Martins
Orientador: Couto, Francisco José Moreira
Palavras-chave: Prospeção de texto
Aprendizagem automática
Reconhecimento de entidades
Extração de relações
Semelhança semântica
Teses de mestrado - 2014
Data de Defesa: 2014
Resumo: Novas interações entre compostos químicos são geralmente descritas em artigos científicos, os quais estão a ser publicados a uma velocidade cada vez maior. No entanto, estes artigos são dirigidos a humanos, escritos em linguagem natural, e não são processados facilmente por um computador. Métodos de prospeção de texto são uma solução para este problema, extraindo automaticamente a informação relevante da literatura. Estes métodos devem ser adaptados ao domínio e tarefa a que vão ser aplicados. Esta dissertação propõe um sistema para identificação automática e eficaz de interações entre entidades químicas em documentos biomédicos. O sistema foi desenvolvido em dois módulos. O primeiro módulo reconhece as entidades químicas que são mencionadas num dado texto. Este módulo foi baseado num sistema já existente, o qual foi melhorado com um novo tipo de medidas de semelhança semântica. O segundo módulo identifica os pares de entidades que representam uma interação química no mesmo texto, com recurso a técnicas de Aprendizagem Automática e conhecimento específico ao domínio. Cada módulo foi avaliado separadamente, obtendo valores de precisão elevados em dois padrões de teste diferentes. Os dois módulos constituem o sistema IICE, que pode ser usado para analisar qualquer documento biomédico, de forma a encontrar entidades e interações químicas. Este sistema está acessível através de uma ferramenta web.
Novel interactions between chemical compounds are often described in scientific articles, which are being published at an unprecedented rate. However, these articles are directed to humans, written in natural language, and cannot be easily processed by a machine. Text mining methods present a solution to this problem, by automatically extracting the relevant information from the literature. These methods should be adapted to the specific domain and task they are going to be applied to. This dissertation proposes a system for automatic and efficient identification of interactions between chemical entities from biomedical documents. This system was developed in two modules. The first module recognizes the chemical entities that are mentioned in a given text. This module was based on an existing framework, which was improved with a novel type of semantic similarity measure. The second module identifies the pairs of entities that represent a chemical interaction in the same text, using Machine Learning techniques and domain knowledge. Each module was evaluated separately, achieving high precision values against two different gold standards. The two modules were constitute the IICE system, which can be used to analyze any biomedical document for chemical entities and interactions, accessible via a web tool.
Descrição: Tese de mestrado em Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2014
URI: http://hdl.handle.net/10451/12169
Designação: Mestrado em Bioinformática e Biologia Computacional (Bioinformática)
Aparece nas colecções:FC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc109223_tm_André_Lamúrias.pdf1,52 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.