Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/30495
Título: The IsomiR Window: the interface that bridges the complexity of miRNAs and their functional impact
Autor: Ferreira, Beatriz Viamonte de Sousa
Orientador: Ferreira, António Manuel Silva, 1974-
Fonseca, Andreia de Jesus Amaral Gomes Barbosa
Palavras-chave: IsomiRs
Análise de anotação
Análise funcional
Bioinformática
Aplicação Web
Teses de mestrado - 2017
Data de Defesa: 2017
Resumo: Os métodos de sequenciação de elevado débito, conhecidos como Next-Generation Sequencing (NGS), têm sido bastante usados nos últimos anos, permitindo obter, em paralelo, milhões de sequências de DNA ou de RNA. Estes métodos são muito aplicados no estudo de moléculas de RNA de pequenas dimensões, nas quais se incluem os microRNAs (miRNAs), sendo estes conhecidos como reguladores da expressão génica. Adicionalmente, estes métodos permitiram a descoberta de variantes dos miRNAs que exibem alterações na sua sequência. Estas variantes denominam-se isomiRs, podendo pertencer a três grupos: isomiRs 5’, isomiRs 3’, e isomiRs com mudanças internas. Atualmente existem várias ferramentas de bioinformática que permitem a identificação sistemática de isomiRs. No entanto, apesar dos esforços destas ferramentas em fornecer plataformas computacionais especializadas para a análise de dados de sequenciação de RNAs de pequenas dimensões, estas têm em falta bastantes funcionalidades, não permitindo que o investigador receba todo o contexto dos dados, e, por consequência, a complexidade dos isomiRs na amostra não é devidamente explorada. Uma funcionalidade que está em falta nestas ferramentas é a possibilidade de o utilizador realizar de forma integrada a análise de anotação de sequências, incluindo a expressão diferencial, e a análise de impacto funcional dos isomiRs encontrados nas amostras. Outro aspeto importante é a maioria destas ferramentas não permitir analisar dados de NGS. As que permitem analisar estes dados, não permitem a análise em paralelo de vários ficheiros e apresentam limites de tamanho demasiado reduzidos para os ficheiros de dados NGS. Adicionalmente, muitas das ferramentas não disponibilizam uma interface gráfica, tornando a tarefa de analisar dados de sequenciação mais difícil para investigadores que não têm conhecimentos em bioinformática. Desta forma, é importante a existência de uma ferramenta que integre todas as análises necessárias, nomeadamente a identificação de isomiRs num conjunto de dados, assim como a inferência do impacto funcional destas moléculas, e que possua uma interface gráfica fácil de usar. Assim, este projeto teve como objetivo contribuir para o desenvolvimento de uma ferramenta que permita a identificação rápida e eficiente de isomiRs e que integre diferentes funcionalidades de um modo automático, que vão desde a anotação de pequenos RNAs em dados de NGS à análise funcional para investigar o impacto biológico dos isomiRs identificados. Como contribuição principal deste projeto foi criada uma aplicação web, que integra uma pipeline de bioinformática (fora do âmbito desta tese), e que suporta dois módulos de análise, de anotação e funcional, tendo sido considerada de raiz a transferência de informação entre os dois módulos de análise. Esta aplicação tem um conjunto mais completo de funcionalidades do que outras ferramentas existentes, apenas precisando de um browser web para poder ser usada. O funcionamento da aplicação foi testado utilizando dados de NGS disponíveis publicamente, tendo demonstrado a capacidade desta para processar vários ficheiros de uma forma integrada, produzindo gráficos e tabelas que demonstram os resultados deste processamento. Estes revelam uma complexidade das moléculas de pequenos RNAs não codificantes que não tinha sido previamente observada. Finalmente, foi criada uma máquina virtual com a aplicação desenvolvida, assim como todo o software da qual esta depende, de um modo pronto a usar, a qual está disponível no endereço http://isomir.fc.ul.pt.
Next-Generation Sequencing (NGS) methods have been widely used over the past years, allowing researchers to obtain, in parallel, millions of DNA and RNA sequences. These methods are extensively applied in the study of small RNA molecules, in which microRNAs (miRNAs) are included, which are known to act as regulators of gene expression. Additionally, NGS methods have permitted the discovery of variants of miRNAs, which exhibit changes in their sequence when compared to the canonical miRNA, and are called isomiRs. These molecules belong to one of three groups: 5’ isomiRs, 3’ isomiRs, and isomiRs with internal editings. Nowadays, there are several bioinformatics tools that allow the systematic identification of isomiRs. However, they lack several key functionalities that prevent the user from understanding the entire complexity within the data, and consequently, the complexity of the isomiRs is not fully explored. One functionality that is absent in these tools, is an integrated workflow to sequentially, annotate sequences, infer differential expression, and assess the functional impact of isomiRs. Importantly, many of these tools do not accept NGS data as input. Regarding the ones that accept NGS data, they do not allow the analysis of several files in parallel and limit the size of the input in a way that excludes many NGS files. Furthermore, the lack of a graphical interface in these tools is also common, making the task of analyzing NGS data harder for researchers that are not familiar with bioinformatics concepts. Thus, it is important to have a tool that integrates all the required analysis for isomiR identification and for inferring the functional impacts of those molecules, and that provides an easy to use graphical interface. Therefore, the main goal of this project was the development of a tool that allows a quick and efficient identification of isomiRs and that integrates different functionalities automatically, including the annotation of small non-coding RNAs in NGS data and the functional analysis so that the researcher can investigate the biological impact of the identified isomiRs. The main contribution of this project was the development of a web application, which integrates a bioinformatics pipeline (outside the scope of this thesis), that allows the execution of two types of analyses, annotation and functional, having been built from scratch to support the sharing of data between the two analyses. This application presents a more complete set of functionalities, compared to other existing tools, and is available to the user through a web browser. The tool benchmarking was performed using publicly available NGS data, showing the ability to process multiple datasets in an integrated manner and producing reports of results in charts and table displays. These results show the complexity of small non-coding RNAs that had not been explored in the study. A virtual machine was created, in which the web application and pipeline are installed and configured as well as third-party software dependencies. The virtual machine is ready to use and it is available at http://isomir.fc.ul.pt.
Descrição: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017
URI: http://hdl.handle.net/10451/30495
Designação: Mestrado em Bioinformática e Biologia Computacional (Bioinformática)
Aparece nas colecções:FC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc121581_tm_Beatriz_Ferreira.pdf2,23 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.