Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Teses de Doutoramento >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/1681

Title: Generation and reconstruction of experimental phylogenies
Authors: Sousa, Ana Margarida Domingos Tavares de, 1974-
Advisor: Tenreiro, Rogério Paulo de Andrade, 1955-
Silva, Pedro João Neves e, 1958-
Keywords: Biologia molecular
Teses de doutoramento
Issue Date: 2007
Abstract: A inferência filogenética envolve uma tentativa de estimar a história evolutiva de um conjunto de organismos (taxa) ou de uma família de genes. Isto é equivalente a inferir a sequência de ramificações ou transformações evolutivas que tiveram lugar. Uma forma natural de ilustrar esta questão é através de uma árvore. O padrão de ramificação da árvore (a sua topologia) indica de que forma os taxa estão relacionados, i. e. quais os taxa que partilham o ancestral comum mais recente. Os comprimentos dos ramos, se estiverem incluídos, representam o tempo ou a quantidade de evolução que ocorreu entre cada dois nós na árvore. O papel tradicional da inferência filogenética tem sido na sistemática biológica, contudo, hoje em dia, constitui uma ferramenta essencial em áreas que vão desde as ciências forenses à previsão da evolução de vírus, das funções de genes não caracterizados e de proteínas ancestrais.Até hoje não se conhece nenhum algoritmo para inferir árvores evolutivas suficientemente versátil ao ponto de ser adequado a todos os tipos de dados. Em contrapartida, existe uma vasta gama de métodos filogenéticos complementares comummente utilizados, cada um deles com as suas vantagens (e desvantagens) particulares. O trabalho aqui apresentado pretende contribuir para a compreensão destas diferenças fornecendo um case study simples e conhecido à partida. Uma das formas de avaliar estas diferenças é através da medição da exactidão da inferência filogenética de cada algoritmo. A avaliação implica um conhecimento antecipado da filogenia verdadeira subjacente a um determinado grupo de taxa. No entanto, na maioria das situações, essa informação não está disponível de forma que este resultado é obtido por estudos de congruência (com base na ideia de que se conjuntos de dados diferentes produzem a mesma árvore então o método é exacto), simulação ou filogenias conhecidas. Os estudos de simulação são insubstituíveis na exploração exaustiva dos efeitos dos modelos de evolução, das topologias das árvores, das taxas de evolução relativas ou absolutas ou de qualquer outro parâmetro que possa afectar a performance dos métodos filogenéticos. Embora estes estudos sejam simplificações grosseiras do processo evolutivo, eles são úteis para detectar generalizações acerca do desempenho dos métodos que possam ser aplicadas a situações reais. As filogenias experimentais permitem testar eficientemente estas previsões. Idealmente o sistema experimental deverá incluir um organismo de crescimento rápido, com genoma de pequena dimensão e capacidade de originar mutantes ao longo de múltiplas gerações de crescimento controlado. Os bacteriófagos parecem corresponder de forma excepcional a estes requisitos, uma vez que podem ser facilmente manipulados em laboratório durante milhares de gerações por ano, possuem genomas de pequenas dimensões e a sua taxa de mutação pode ser facilmente aumentada pela utilização de agentes mutagénicos. Esta dissertação teve por objectivo principal testar a eficiência de diferentes métodos de inferência filogenética na recuperação da árvore verdadeira numa situação desfavorável para a generalidade dos algoritmos como é o caso de uma topologia assimétrica. Esta árvore compreende a maioria das situações problemáticas previstas pelos estudos de simulação tais como ramos internos curtos, ramos longos e curtos alternados (diferentes taxas de evolução entre os taxa) e ainda a complexidade inerente a um organismo real. Estudos anteriores testaram um sistema equivalente com base numa filogenia completamente simétrica. Esse sistema, considerado pelos autores como um modelo nulo, ou seja a situação mais favorável do ponto de vista da inferência, permitiu validar a potencialidade do sistema (como modelo experimental para estudos filogenéticos) mas não a diferenciação dos algoritmos testados, uma vez que todos inferiram a árvore verdadeira. Foi testada a possibilidade da utilização de um sistema experimental alternativo para a obtenção de filogenias experimentais. Esse sistema envolveu o fago bIL170, cujo hospedeiro é a bactéria Lactocococcus lactis.Inicialmente tido como um sistema promissor e inovador devido ao seu impacto na indústria de lacticínios, este fago revelou uma fidelidade do complexo de replicação inesperadamente alta, o que impossibilitou a sua utilização como modelo experimental. O protocolo experimental utilizado para a obtenção da filogenia experimental consistiu na propagação seriada do bacteriófago T7 (cujo hospedeiro é a bactéria Escherichia coli) na presença do mutagénio N-metil-N'-nitro-N'- nitrosoguanidina. Para tal procedeu-se à propagação seriada do fago em meio líquido, em que cada nova cultura de E. coli era infectada com uma alíquota do lisado anterior. De cinco em cinco lisados este processo era interrompido por um plaqueamento em meio sólido, uma vez que a ocorrência de bottlenecks frequentes ajuda à fixação de mutações. Este procedimento foi repetido o número de vezes indicado pelo comprimento dos ramos da árvore representada na Figura 1 do capítulo 3, sendo as bifurcações criadas pela utilização de um stock clonal recuperado de uma única placa fágica para a infecção de duas linhas independentes. Os dados utilizados na inferência filogenética foram de dois tipos: locais de restrição e sequências nucleotídicas. Para tal construíram-se mapas físicos com 36 enzimas para todos os nós (internos e externos) e sequenciou-se 12% do genoma (contidos em 9 regiões diferentes distribuídas ao longo do genoma) de cada um dos fagos correspondentes aos nós terminais. Quando estão em consideração conjuntos diferentes de dados, que dizem respeito a grande parte do genoma ou a múltiplos genes, é necessária uma análise de congruência. A existência de incongruência ligeira entre os vários conjuntos de dados pode ser devida a amostras de tamanho inadequado, mas a ocorrência de uma forte incongruência pode ter origem em diferentes taxas de evolução entre as partições consideradas (posição no codão, constrangimentos funcionais) ou em partições que tiveram diferentes histórias (transferência horizontal ou duplicação de genes). Por este motivo a análise filogenética foi precedida de uma análise de congruência. Testou-se a congruência entre os dados de restrição e os de sequência, entre os locais de reconhecimento da enzima Sau3AI (enzima cujos locais de reconhecimento no genoma sofreram uma taxa de evolução particularmente alta face às restantes) e os de todas as outras enzimas e ainda entre cada par de genes. Tal como esperado, uma vez que a filogenia verdadeira é conhecida e todas as partições tiveram a mesma história, o número detectado de casos de incongruência grave foi muito reduzido. De facto, o único caso relevante foi a incongruência detectada entre os locais de restrição da enzima Sau3AI e os de todas as outras enzimas. Este resultado, apoiado pela diminuição da precisão da filogenia obtida quando se combinou estas duas partições numa só análise, está em concordância com a hipótese da necessidade de utilização de um modelo de evolução específico para esta enzima. Os métodos tradicionais de inferência filogenética avaliados foram: unweighted pair-group method of arithmetic averages (UPGMA), neighbour joining (NJ), evolução mínima (ME), método de Cavalli-Sforza (uLS), método de Fitch-Margoliash (wLS), máxima parcimónia (MP) e máxima verosimilhança (ML). Além destes foram ainda testados métodos Bayesianos, métodos baseados na compatibilidade e no caso dos métodos de distância, foi ainda calculada a distância Euclidiana com base na frequência de sequências assinatura. No geral, os dados de restrição produziram estimativas mais precisas, em relação à topologia, do que os dados de sequência. Este resultado pode ser explicado pelo facto dos dados de restrição representarem mais amplamente o genoma e por isso estarem menos sujeitos à violação do pressuposto de independência de evolução entre posições e sofrerem menos os efeitos do enviesamento provocado pelos erros de amostragem. Desta forma não é de estranhar que a combinação dos dados de restrição e dos dados de sequência numa análise única tenha aumentado a precisão da inferência filogenética na maioria dos casos. A análise do potencial de cada gene para conduzir à inferência da árvore correcta revelou uma forte dependência entre a exactidão da inferência e o tamanho do gene. Por outro lado, a tentativa do estabelecimento de uma relação entre este potencial e a função individual de cada gene não foi conclusiva. Uma propriedade que torna uma topologia difícil de inferir é a existência de ramos internos curtos, daí que ramos com estas características estejam presentes na árvore planeada. Os resultados obtidos (mesmo no melhor cenário da análise global) revelaram ser estes ramos a principal fonte de erro para os métodos testados. Particularmente dois dos ramos foram incorrectamente inferidos, consistentemente, por todos os métodos excepto aqueles que assumem um relógio molecular (UPGMA, ME e ML com relógio molecular) ou que utilizam a distância baseada em sequências assinatura. A observação de que o número de diferenças de locais de restrição em um destes ramos era bastante inferior ao esperado, tendo em conta o seu comprimento, conduziu a uma experiência de bootstrap paramétrico. Nesta experiência os parâmetros do modelo evolutivo foram estimados a partir dos dados reais e a topologia seguida foi equivalente à planeada, excepto no ramo que aparentemente sofreu menos evolução que o esperado (foi-lhe atribuída uma dimensão proporcional ao número de mudanças de locais de restrição).
Experimental phylogenies built through controlled laboratory evolution of actual organisms seem to be an excellent way of testing predictions from simulations. Nevertheless, choosing a model for these studies is not always a straightforward matter. This work presents the steps necessary to select such a model using bacteriophage bIL170 as an example. This phage which seemed a promising and innovating system revealed an unexpected high fidelity replication complex thus impairing its potential as a valuable experimental model. The construction of an experimental phylogeny with phage T7 is reported. This phage was propagated in the presence of a mutagen following an asymmetric tree topology. The performance of several phylogenetic methods was tested using restriction sites and nucleotide data. Only methods that encompassed a molecular clock or those based on sequence signatures recovered the true phylogeny. The probable explanation for the exceptional performance of the sequence signature based methods lies in the mutation bias of this system which can shift motif frequencies and be reflected in the Euclidean distance matrices. If this hypothesis is confirmed, this methodology may be extended to infer phylogenies within systems with similar mutation spectrums, such aseukaryotic pseudogenes and HIV virus.All the other methods failed consistently in the inference of two internalbranches. To test if these results could have been predicted by simulationstudies, a parametric bootstrap experience was conducted using the true treeand the evolution parameters estimated from the real data. The simulationpredicted most but not all of the problems encountered by phylogeneticinference methods. Short interior branches may be more prone to error thanpredicted by theoretical studies.With the level of homoplasy registered in this study, the performance ofcompatibility based methods (which allegedly eliminate homoplastic characters from the analysis) could not be distinguished from parsimony.
Description: Tese de doutoramento em Biologia (Biologia Molecular), apresentada à Universidade de Lisboa através da Faculdade de Ciências, 2008
URI: http://hdl.handle.net/10451/1681
Appears in Collections:FC - Teses de Doutoramento

Files in This Item:

File Description SizeFormat
ulsd054477_td_Ana_Sousa.pdf16.01 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE