Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/13998
Título: Gene function prediction by mining biomedical literature
Autor: Jain, Pooja
Orientador: Silva, Mário J. Gaspar da, 1961-
Palavras-chave: Text mining
Functional annotation
Biological databases
Arabidopsis thaliana
Pollen
Teses de mestrado - 2004
Data de Defesa: 2004
Relatório da Série N.º: di-fcul-tr-04-12
Resumo: This dissertation presents an application of text mining to automate the identification of the function of large sets of genes from the biomedical literature. It proposes an approach to obtain this knowledge as annotations that associate biologic entities to Gene Ontology terms. The discovered annotations can then be efficiently curated through an interactive interface. This approach was validated by building the APEG (Arabidopsis Pollen Expressed Genes) database system, which integrates information about 147 pollen selectively expressed genes of Arabidopsis thaliana, from various public databases available on the Web. APEG operates with ProFAL, a text mining and automatic database annotation tool. The effectiveness of the automatic annotation of the genes was evaluated by comparing the set of annotations discovered by ProFAL with those obtained by domain experts scanning the same literature. Functional annotations were extracted with an average precision and recall of 61% and 78%, respectively. ProFAL has also identified 21 probable functions for 8 genes, which, to the best of my knowledge, have not been documented. The results show that mining the biomedical literature can effectively increase our knowledge about a set of genes or proteins of interest, leading to more conclusive answers to the underlying biological problems.
Nesta dissertação investiga-se a aplicação da prospecção de textos da área da biomedicina para automatizar a identificação da função de colecções de genes de grande dimensão, sob a forma de anotações que associam entidades biológicas a termos de GO (Gene Ontology, Ontologia Génica). As anotações descobertas podem ser curadas através de uma interface de utilizador interactiva. Esta abordagem foi validada através da construção do sistema APEG (Arabidopsis Pollen Expressed Genes, Genes Expressos em Pólen de Arabidopsis), que integra informação obtida a partir de várias bases de dados públicas disponíveis na Web sobre 147 genes da planta Arabidopsis expressos selectivamente. O APEG integra a ferramenta de prospecção e anotação automática da bases de dados ProFAL. Na avaliação da eficácia da anotação automática dos genes observou-se que as anotações foram extraídas com uma precisão e abrangência médias de 61% e 78%, respectivamente. A ProFAL identicou 21 funções prováveis para 8 genes, que, segundo os dados disponíveis, ainda não foram documentadas. Os resultados mostram que a abordagem proposta permite melhorar o conhecimento relativo a um conjunto de genes ou proteínas em estudo, conduzindo a respostas mais significativas face as questões biológicas subjacentes.
Descrição: Tese de mestrado em Bioinformática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2004
URI: http://hdl.handle.net/10451/13998
http://repositorio.ul.pt/handle/10455/3085
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
04-12.pdf910,12 kBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.