Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/15996
Título: ProGenViZ: a novel interactive tool for prokaryotic genome visualization and comparison
Autor: Gonçalves, Bruno Filipe Ribeiro
Orientador: Carriço, João André Nogueira Custódio
Paulo, Octávio, 1963-
Palavras-chave: Análise visual
Genómica comparativa
Procariotas
Sequenciação de alto débito
Anotação de sequências
Teses de mestrado - 2014
Data de Defesa: 2014
Resumo: Everyday new sequencing data and draft microbial genomes are obtained by high-throughput sequencing (HTS) and made publicly available at NCBI Sequence Read Archive (www.ncbi.nlm.nih.gov/sra) and EBI European Nucleotide Archive (http://www.ebi.ac.uk/ena). It is now perceived that the limiting factor is not obtaining the sequence data but the current capacity of the existing analysis methods to extract relevant information from data. This procedure is still often dependent on the use of expensive software or open-source freely available software that commonly has a high level of complexity to operate. The combination of this factors are currently leading to large amounts of data in public databases, but its analysis are usually limited in nature. The visual representation of data has a very important role in the perception of complex information. When used in combination with methods for comparison and querying of genomic data, different visualization methods can be used to facilitate and guide the identification of interesting features. In Microbiology, the ability to visualize and compare genomes can be applied in the development of genomic epidemiology studies, as well as to identify and characterize microorganisms by determining lineages associated to antibiotic resistance, pathogenicity and virulence. These methods can assist in the detection and prevention of infectious diseases. However, this is a recent area of research that is still missing visualization tools to compare prokaryotic genomes in terms of gene content variation that offer interactive ways to explore data. Here, we present ProGenViZ, a user-friendly web-application that gives options to visualize and explore several prokaryotic genomes and their annotations, also providing features to compare specific genomic regions. Moreover, it provides additional features such as the re-annotation of genes, ordering of draft genome sequences against a reference genome and subsequent annotation by annotation transfer from one or more references. ProGenViZ is available at http://darwin.phyloviz.net/ProGenViZ.
Todos os dias, novos dados de genomas de vários organismos são obtidos através de sequenciação de alto débito (high-throughput sequencing ou HTS) e são tornados públicos no NCBI Sequence Read Archive (www.ncbi.nlm.nih.gov/sra) e no EBI European Nucleotide Archive (http://www.ebi.ac.uk/ena). Actualmente, o factor limitante não é a obtenção dos dados genómicos mas sim a capacidade actual dos métodos de análise para extrair informação relevante deles. Este processo é ainda muitas vezes dependente do uso de software de custo considerável ou, no caso de ser gratuito, apresenta um nível elevado de complexidade. A combinação destes factores estão a contribuir para a acumulação de dados nas bases de dados públicas mas que têm a sua capacidade de análise limitada. A representação visual de dados complexos é bastante importante na percepção e apreenção de informação contida nos dados. Quando usada em combinação com métodos de comparação e exploração de dados genómicos, diferentes métodos de visualização podem ser usados para facilitar a identificação de caracteristicas relevantes em diversos estudos. Em Microbiologia, a capacidade de visualizar e comparar genomas pode ser aplicada em estudos epidemiológicos, bem como na identificação e caracterização de organismos através da determinação de linhagens associadas a resistência a antibióticos, patogenecidade e virulência, que podem assistir na detecção e prevenção de doenças infecciosas. No entanto, esta é ainda uma área de pesquisa recente onde faltam ferramentas de visualização que permitam comparar genomas de procariotas em termos de variação genómica em várias escalas e que ofereçam formas interactivas para explorar os dados. Nesta tese foi desenvolvido o ProGenViZ, uma aplicação web que oferece opções para visualizar e explorar simultaneamente múltiplos genomas de procariotas e suas anotações, fornecendo também funcionalidades para comparar regiões genómicas específicas. Além disso, a aplicação fornece capacidades adicionais como a re-anotação de genes, ordenação de sequências de genomas parciais contra contra um genoma de referência e subsequente anotação por transferência de uma ou mais sequências de referência. ProGenViZ está disponível em http://darwin.phyloviz.net/ProGenViZ. Para o desenvolvimento da estrutura básica da aplicação web foi utilizado o Bootstrap framework. A área de trabalho foi dividida em duas partes, uma com vários menus interactivos que permitem ao utilizador realizar várias análises aos dados carregados e outra com a representação visual das sequências genéticas e suas anotações. A aplicação aceita como input ficheiros no formato GenBank/EMBL, General Feature Format (GFF) e FASTA, bem como ficheiros com sequências múltiplas (multi-FASTA), tipicamente provenientes de genomas parciais. O ProGenViZ apresenta uma nova abordagem para conseguir visualizar vários genomas de procariotas numa única imagem. Utiliza uma representação abstracta onde as sequências genómicas são divididas de acordo com as suas anotações em regiões para reduzir a complexidade da visualização. As regiões são depois divididas em várias porções de 500 pares de bases de acordo com o seu tamanho e apresentadas numa de duas representações visuais baseada em grafos - hive plot ou numa representação linear – que foram desenvolvidas utilizando o a biblioteca de JavaScript D3. Foram também produzidas várias formas de interação entre as duas representação visuais e o utilizador através de zoom em regiões específicas, mas também através da disposição de informações sobre cada região e de menus que fornecem funcionalidades adicionais que permitem explorar e comparar os ficheiros carregados. Foi também desenvolvido um sistema de pesquisas que o utilizador pode realizar aos dados. É possível aceder a informação global sobre os ficheiros ou fazer pesquisas sobre regiões específicas. No caso do acesso a informação global sobre os ficheiros, o utilizador pode aceder a dados como o tamanho total das sequências e a percentagem que está anotada, ou a estatísticas associadas com a distribuição do tamanho das diferentes regiões e dos seus produtos. As distribuições do tamanho e dos produtos das regiões são representados graficamente na forma de um gráfico de barras e de um gráfico circular interactivos, que dão a capacidade ao utilizador de filtrar os dados que são mostrados. Procuras por regiões específicas e comparações podem também ser feitas através das anotações – por nome ou por produto - ou através do uso de sequências internas ou externas para determinar regiões com homologia de sequência utilizando BLAST. Os resultados de todas as procuras e relações entre regiões são apresentados numa tabela de resultados e através de modificações específicas na representação visual. Quando são estabelecidas relações entre regiões, essas relações são mostradas nas representações visuais através de ligações entre as regiões envolvidas, o que permite visualizar a sintenia entre as regiões de diferentes sequências genómicas. Além dos resultados do BLAST serem mostrados em forma de texto na tabela de resultados e através de modificações na imagem, foi também criada uma forma de visualizar os alinhamentos ao nível da sequência nucleotídica. Adicionalmente são ainda detectados single nucleotide polymorphisms (SNPs) através da utilização de uma funcionalidade do software MUMmer que detecta os SNPs existentes entre duas sequências Como actualmente as tecnologias de HTS permitem obter rapidamente informação sobre genomas parciais, no ProGenViZ foi também incorporada a possibilidade de visualizar e analisar ficheiros com múltiplas sequências provenientes de sequenciação destes genomas (contigs). Além de ser possivel aceder tanto às informações globais como realizar qualquer uma das procuras referidas anteriormente, foi também desenvolvida uma funcionalidade para ordenar os contigs contra um genoma de referência, o que fornece uma perspetiva global de quais e de que forma os contigs estão distribuídos ao longo da sequência de referência. Além disso, como normalmente as sequências parciais após serem geradas não têm qualquer anotação, foi também criada uma abordagem para anotá-las através de transferência de anotações de um genoma anotado de referência através da combinação dos resultados dos software Prodigal e BLAST. O Prodigal, um software de previsão de genes em procariotas, é utilizado para prever coding sites (CDS) nos contigs enquanto que o BLAST é utilizado para determinar se alguma região do genoma de referência tem similaridade com o gene previsto pelo Prodigal. Ao terem sido criadas maneiras de estabelecer relações entre regiões de diferentes ficheiros foi fornecida ao mesmo tempo uma forma de monitorizar a qualidade das anotações através de similaridade de sequência. Como algumas anotações pré-existentes podem estar erradas, foi desenvolvida uma funcionalidade para re-anotar o nome e o produto das diferentes regiões. Criámos também uma série de funcionalidades para exportar dados da aplicação. Podem ser exportados os resultados apresentados nas tabelas, imagens, sequências genómicas específicas, bem como toda a informação existente de regiões e sequências genómicas associadas a cada um dos ficheiros carregados na aplicação. Para demonstrar as diferentes capacidades da aplicação são também mostrados três casos de uso. No primeiro caso de uso são procurados os genes pertencentes ao esquema MLST de Streptococcus pneumoniae em dois genomas anotados para focar as capacidades do programa de realizar procuras por genes através do seu nome, produto e sequência. Esta análise demonstra os actuais problemas das anotações automáticas onde nem sequer os genes essenciais para manter funções básicas da célula estão bem anotados. Foi também possível determinar a existência de inversões na localização de dois dos genes após análise da representação visual. No segundo caso de uso são procurados os genes regulatórios inseridos no locus da biosíntese da cápsula do serotipo 1 de Streptococcus pneumoniae num ficheiro de contigs para ilustrar as capacidades da aplicação para encontrar regiões de interesse em contigs. Nesta. análise é possível encontrar todos os genes regulatórios bem como outros pertencentes ao mesmo locus num único contig. Finalmente, no último caso de uso, dois ficheiros com sequências parciais obtidas depois de sequenciar dois organismos da estirpe Streptococcus pneumoniae OXC141 e um genoma anotado da mesma estirpe são utilizados para mostrar as capacidades do programa para ordenar e anotar todos os contigs de um ficheiro contra uma referência. Com esta abordagem de transferência de anotação por homologia foi possível transferir de uma media de 87% de anotações da referência para os ficheiros de contigs.
Descrição: Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2014
URI: http://hdl.handle.net/10451/15996
Designação: Tese de mestrado em Bioinformática e Biologia Computacional
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc112520_tm_Bruno_Gonçalves.pdf2,28 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.