Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/4944

Title: Comparative analysis of 454 pyrosequencing data from coffee transcriptomes
Authors: Santos, Diogo André Passagem dos, 1987
Advisor: Paulo, Octávio Fernando de Sousa Salgueiro Godinho, 1963
Talhinhas, Pedro Manuel Vieira
Keywords: Coffee plants
Leaf rust
Teses de Mestrado, 2011
Issue Date: 2011
Abstract: Understanding the mechanisms beyond the resistance of coffee plants (Coffea spp.) to leaf rust (caused by Hemileia vastatrix) is of vital importance for breeding coffee varieties with durable resistance. However, loss of resistance due to the appearance of new rust races is occurring, but some genotypes are still resistant to all known H. vastatrix races, such as HDT832/2. Previous studies show that the resistance to H. vastatrix in this genotype shares common immunity components with the nonhost resistance. 454 pyrosequencing transcriptomic data representing HDT832/2 host and nonhost resistance, along a healthy plant control, were analyzed with the purpose of better understanding this resistance. Expressed sequence tags (ESTs) are a very common and interesting solution for transcriptomic studies because they lack the non-expressed part of the genome. The small amount of reads generated for this project present a limitation that has not an established solution. To analyze this dataset, two different assembly strategies (individual assembly versus global assembly) and two different assemblers (Newbler versus MIRA) were used, and the results of all four assemblies are reported and analyzed. Assemblies were compared by assessing the number of transcripts shared by the three libraries, by a blast searches against NCBI nr protein and Coffea spp. EST databases and searching for previously studied genes. Overall the global assembly strategy performed better than the individual strategy, and Newbler performed better than MIRA in most but not all parameters. Here we provide a good strategy for small budget transcriptome projects to optimize their data and we present an annotated transcriptome of coffee line HDT832/2 resistance response to rust in host and nonhost interactions.
O café é um dos produtos mais importantes do mercado internacional, sendo a sua produção e exportação a base da economia de mais de 60 países, na sua maioria países em desenvolvimento. A cafeicultura é uma indústria em crescimento que se debate com a necessidade de aumentar a produção sem fazer subir em demasia os respectivos custos. A cultura do cafeeiro (nomeadamente do cafeeiro Arábica, Coffea arabica) é afectada em larga escala por factores de índole fitopatológica que destroem ou enfraquecem as plantas. De entre estas doenças, a ferrugem alaranjada, causada pelo fungo Hemileia vastatrix Berkley & Broome, é uma das mais importantes, e afecta países cafeicultores por todo o mundo, gerando perdas de 30% se nenhuma medida de controlo for aplicada. H. vastatrix é um fungo biotrófico que depende das células vivas do hospedeiro para se alimentar e completar o seu ciclo de vida. Apesar de o controlo desta doença ser possível por via da aplicação de produtos fitofarmaceuticos, os custos associados são elevados económica e ambientalmente, pelo que o cultivo de variedades resistentes é uma opção com maior sustentabilidade. A identificação e caracterização de populações de Híbrido de Timor (HDT, um híbrido natural entre C. arabica e C. canephora) permitiu a selecção de plantas com elevado espectro de resistência, que foram subsequentemente utilizadas como dadoras de resistência em programas de melhoramento genético de cafeeiro em diversos países. No entanto, estas resistências têm sido colocadas em causa com o aparecimento de novas raças do fungo, sendo a linha HDT832/2, seleccionada no Centro de Investigação das Ferrugens do Cafeeiro (CIFC), alvo de interesse por manter a resistência a todas as raças conhecidas de H. vastatrix. Como uma das formas de resistência mais duradoura em plantas é a resistência da toda uma espécie de plantas a todas as variantes genéticas de um patogénio (resistência não-hospedeira) revelou-se importante comparar a resistência do cafeeiro a H. vastatrix (resistência hospedeira) com a resistência não-hospedeira, neste caso entre HDT832/2 e Uromyces vignae, o fungo responsável pela ferrugem do feijão-frade. Um estudo anterior de 8 genes rnvolvidos em mecanismos de imunidade em plantas sugere que a resistência de HDT832/2 a este dois patogénios tem componentes partilhados. Esse estudo permitiu também perceber a cronologia da infecção de forma a se identificar os pontos temporais com maior expressão de genes de resposta por parte da planta. Desta forma, folhas de HDT832/2 foram inoculadas com cada fungo separadamente e, tal como uma amostra controlo, amostras de RNA foram recolhidas e enviadas para pirosequenciação de cDNA com a tecnologia 454. A analise de Expressed Sequence Tags (EST) é uma alternativa interessante no caso do estudo de organismos não modelo, como o cafeeiro. Além disso, o facto de apenas ser sequenciada a porção expressa do genoma, permite que não só a quantidade de dados a analisar seja muito menor como torna possível perceber e estudar as diferenças de expressão em condições biológicas distintas. Visto ser um projecto de pequena envergadura, o número de corridas realizadas para a sequenciação do cDNA das 3 condições em estudo foi apenas uma, o que levou a que o número de sequências para cada condição fosse baixo. Assim, foi necessário estudar a melhor forma de assemblar estas sequências, tendo sido estudadas duas estratégias de assemblagem e dois assembladores diferentes. A diferença entra as duas estratégias de assemblagem incidiu na separação ou não das sequências por condição. Assim, numa estrategia de assemblagem individual, cada conjunto de sequências relativas a uma condição foi assemblado apenas com sequências da mesma condição. Por oposição, e de forma a obter um conjunto de sequências com uma maior cobertura do transcritoma, todas as sequências originais foram juntas numa só assemblagem, denomida assemblagem global. A escolha do programa para realizar a assemblagem tem também uma grande influencia no resultado final e por isso foram comparados os resultados do Newbler v2.5 e do MIRA v.2.3.0. Desta forma foram obtidas quatro assemblagens diferentes, que foram depois comparadas. Para realizar a comparação, e na falta do genoma completo do cafeeiro, foram escolhidas diferentes formas de análise. Uma importante característica que se espera encontrar neste tipo de dados é uma grande quantidade de sequências partilhadas pelas 3 condições em deterimento de sequências que apenas apareçam numa das condições. Nas assemblagens globais foi possível mapear a proveniência das sequências utilizadas para construir as sequências finais e tanto o Newbler como o MIRA resultaram em assemblagens onde grande parte das sequências provêm das três condições. No caso das assemblagens individuais, para definir que uma sequência era a mesma que outra de outra condição, utilizamos o resultado do mapeamento das mesmas, através de Blastx, na base de dados de proteínas do NCBI (nr-protein database). Aqui foi possivel observar que a falta de cobertura de cada um dos conjuntos de sequências de cada condição levou a um distribuição dos dados muito diferente da esperada. De forma a podermos comparar mais facilmente os dois métodos, as sequências das assemblagens individuais com o mesmo melhor resultado no blast contra nr foram assemblados juntos de forma a que, para cada assemblador, existisse apenas um conjunto de sequências para cada um dos métodos. Cada um desses conjuntos de sequências foi depois mapeado, atraves de Blastn, contra as sequências de ESTs de cafeeiro existentes na bases de dados do NCBI. As assemblagens globais obtiveram uma melhor performance que as assemblagens individuais, sendo que o Newbler conseguiu obter uma maior percentagem de sequências anotadas que o MIRA, especialmente se observados apenas os resultados com homologia total. O estudo da presença e do número de homólogos de 10 genes de cafeeiro previamente caracterizados por RT-qPCR nestas mesmas amostras foi também efectuado. Enquanto que as assemblagens realizadas com o Newbler apenas foram capazes de reconstruir 7 dos 10 genes, a assemblagem Global com o MIRA conseguiu reconstruir os 10 genes. No entanto o Newbler consegue reconstruir o gene de forma completa, sendo que apenas em 3 situações o gene se encontra divido em diferentes sequências, sendo que no entanto estas se encontram agrupadas no mesmo isogroup. O MIRA por outro lado tem 6 dos 10 genes repartidos por diferentes sequências, sendo que muitas das vezes o mesmo gene está representado por inúmeras sequências. Desta forma foi possível perceber que a estratégia de assemblagem global é melhor que a assemblagem individual das sequências, sendo o Newbler melhor que o Mira na maior parte dos parâmetros avaliados. Desta forma foi realizado o mapeamento das sequências dos dois programas na base de dados nr do NCBI, utilizando o Blastx e a sua posterior anotação com termos GO através do Blast2go. A assemblagem realizada com o Newbler consegue uma melhor percentagem de sequências com resultado na base de dados nr e um maior número de sequências anotadas. Este trabalho permitiu desenvolver uma estratégia de assemblagem para projectos de baixo orçamento conseguirem estudar o transcritoma de uma especie não-modelo e disponibilizou, para futura análise mais detalhada, o transcritoma expresso por folhas de cafeeiro numa sitação de resistência hospedeira (resistência a H. vastatrix) e de resistência não-hospedeira (resistência a U. vignae). Uma melhor forma de mapear as sequências assembladas pelo Newbler é necessária. Além disso a utilização combinada dos resultados dos dois assembladores pode levar a um melhor resultado final. Uma extensa análise aos resultados aqui reportados pode levar a uma melhor compreensão da resistência da linha HDT832/2 a H. vastatrix e levar a sua manutenção e manipulação futura.
Description: Tese de mestrado. Biologia (Bioinformática e Biologia Computacional). Universidade de Lisboa, Faculdade de Ciências, 2011
URI: http://hdl.handle.net/10451/4944
Appears in Collections:FC - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
ulfc_tm_digo_santos.pdf469.16 kBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE