Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/26221
Título: Optmizing 16S sequencing analysis pipelines
Autor: Viana, Samuel Dias Rosa
Orientador: Pesquita, Idália Maria Pereira, 1972-
Faria, Daniel Pedro de Jesus, 1981-
Palavras-chave: Bioinformática
Gene 16S
Filogenia
Pipelines
Paired-end mergers
Teses de mestrado - 2016
Data de Defesa: 2016
Resumo: The 16S rRNA gene is a widely used target for phylogenetic analysis of prokaryote communities. This analysis starts with the sequencing of the 16S rRNA gene of a microbial sample, and includes several steps such as paired-end merging (when the sequencing technique produces paired-end reads), chimera removal, clustering, and sequence database search. The end-product is the phylogeny of the prokaryote taxa in the sample and an estimation of their abundance. The problem is that there are multiple tools available to carry out this analysis, and it is unclear which is the most effective. Namely, there are three analysis pipelines in wide use by the community: mothur, QIIME and USEARCH. These use different paired-end merging algorithms, different clustering algorithms, and different sequence reference databases (Silva, Greengenes, and RDP respectively). Additionally, there are a number of other paired-end mergers available and again, it is unclear which performs better in the context of this analysis. In this study, we start by evaluating each of the seven publicly available paired-end merging algorithms: BBmerge, FastqJoin (QIIME's merger), FLASH, mothur's merger, PANDAseq, PEAR and USEARCH's merger. Then, we assess the effectiveness of each the three analysis pipelines in conjunction with each of the three reference databases, and each of the most promising paired-end mergers. To do this evaluation, we use two sequencing datasets from mock communities, one publicly available and the other produced in-house. We evaluated the paired-end mergers by using BLAST against the known references to compare the number of mismatches before and after merging, and thereby calculate their precision and recall. We evaluated the analysis pipelines by implementing the UniFrac metric (a community standard) in order to measure the similarity between the predicted phylogeny and the real one. We implemented both a qualitative and a quantitative variant of UniFrac. We found that the best mergers were PEAR, FastqJoin and FLASH in terms of balance between precision and recall, whereas mothur was the best in terms of recall, and USEARCH the most correct in terms of the quality scores of the merged sequences. Regarding the analysis pipelines, in terms of qualitative UniFrac, QIIME with Silva as the reference and mothur's merger was the best on the first dataset, and mothur with either Greengenes or RDP and its own merger was the best in the second dataset. In terms of quantative unifrac, mother with Greengenes and its own merger was the best for the first dataset, and USEARCH with SILVA and mothur's merger was the best on the second dataset. We concluded that having a high recall in the merging step is more important than having a high precision for the downstream phylogenetic analysis, as mothur's merger was either the best or tied for thebest in all settings.
O gene de rRNA 16S é amplamente usado para a análise filogenética de comunidades de procariotas. Esta análise inicia-se com a sequenciação deste de uma comunidade microbiana, e inclui diversos passos tais como a junção ("merging") de sequências emparelhadas ("paired-end reads") - quando a sequenciação produz este formato - , remoção de quimeras, agrupamento ( "clustering") e comparação com sequências conhecidas guardadas em base de dados. O produto final é a obtenção dos taxa de procariotas presentes na amostra e uma estimativa da sua respectiva abundância. O problema que se coloca é que existem várias ferramentas informáticas ("pipelines") disponíveis para realizar esta análise, e não é claro qual delas a que produz melhor desempenho. Nomeadamente, existem três "pipelines" a serem bastante usadas pela comunidade: mothur, QIIME e USEARCH. Cada uma usa diferentes algoritmos de "merging", "clustering" e bases de dados de 16S (Silva,Greengenes e RDP, respectivamente). Para além disso, existem também vários mergers independentes disponíveis e, uma vez mais, não é claro qual deles apresenta um melhor desempenho no contexto desta análise. Neste trabalho, começámos por avaliar cada um de sete "mergers" disponíveis gratuitamente: BBmerge, FastqJoin (usado pelo QIIME), FLASH, "merger" do mothur, PANDAseq, PEAR e "merger" do USEARCH. Após este passo, é feita uma avaliação a cada uma das três pipelines de análise conjuntamente com cada uma das três bases de dados, e com cada um dos mergers que conseguiram melhor desempenho no passo anterior. Para proceder a esta avaliação, usámos dois conjuntos de dados ("datasets") provenientes de comunidades simuladas ("mock"), um disponível ao público e outro criado internamente. Os mergers foram avaliados efectuando alinhamento contra as referências conhecidas e comparando o número de discordâncias ("mismatches") antes e depois do "merge", usando-os para calcular a sua precisão e sensibilidade ("recall"). Por sua vez, as pipelines de análise foram avaliadas implementando a métrica Unifrac (um "standard" estabelecido) de forma a medir a semelhança entre a filogenia prevista e a real. O Unifrac foi implementado nas suas versões quantitativa e qualitativa. Estabelecemos como melhores mergers o PEAR, FastqJoin e o FLASH devido ao equilíbrio entre a precisão e o "recall", enquanto que o mothur como merger foi o melhor em termos de "recall", sendo o USEARCH o merger que age de forma mais correcta no cálculo dos valores de qualidade das sequências resultantes do merge. Relativamente à pipelines de análise, e em termos de Unifrac qualitativo, o QIIME usando o Silva como referência foi o melhor usando o merger do mothur para o primeiro dataset, sendo o mothur usando Greengenes ou RDP com o seu próprio merger o melhor no segundo dataset. Para o Unifrac quantitativo, o mothur com o Greengenes e o seu próprio merger foi o melhor no primeiro dataset e o USEARCH usando SILVA com o merger do mothur novamente a ser o melhor no segundo dataset. Concluímos que possuir um recall elevado no passo de merge é mais importante do que possuir uma precisão elevada para a análise filogenética subsequente, uma vez que o merger do mothur foi o melhore esteve sempre associado com os melhores desempenhos em todas ascombinações testadas de merger, pipeline e base de dados.
Descrição: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016
URI: http://hdl.handle.net/10451/26221
Designação: Mestrado em Bioinformática e Biologia Computacional (Bioinformática)
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc120749_tm_Samuel_Viana.pdf4,97 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.