Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/23023
Título: Análise do pangenoma de streptococcus pneumoniae e comporação de genomas dos serótipos 1 e 3
Autor: Policarpo, Adriana Domingos
Orientador: Carriço, João André Nogueira Custódio
Pinto, Francisco
Palavras-chave: Streptococcus pneumoniae
Pangenoma
Serótipos
Genoma core
Genoma acessório
BLAST
Teses de mestrado - 2015
Data de Defesa: 2015
Resumo: Streptococcus pneumoniae é uma espécie bacteriana que coloniza a nasofaringe humana, sendo a principal causa de diversas doenças, como infeção respiratória aguda e otite média. Várias estirpes desta espécie apresentam uma cápsula polissacarídica, apresentando diversas variantes composicionais que correspondem a diferentes serótipos, os quais apresentam diferente potencial patogénico. Neste estudo pretende-se analisar o pangenoma { o reportório total de genes de uma espécie microbiana, que poderá ser significativamente maior que o número de genes encontrados em cada uma das estirpes individualmente { de S. pneumoniae, que compreende o genoma core { conjunto de genes presentes em todas as estirpes { e o genoma acessório { conjunto de genes presentes em duas ou mais estirpes e genes únicos. Com o desenvolvimento das tecnologias de sequenciação tornou-se fundamental o desenvolvimento de novas ferramentas bioinformáticas para lidar com as grandes quantidades de informação geradas, surgindo a necessidade de efetuar estudos genómicos comparativos a larga escala para tentar extrair informação útil desses dados. Assim, desenvolveu-se neste estudo uma ferramenta bioinformática, denominada SCRAG (Strict CoRe and Accessory Genome) que permite a comparação de vários genomas em simultâneo, obtendo o genoma core e acessório. Esta ferramenta foi então utilizada para a analise do genoma de S. pneumoniae. O SCRAG tem por base do processo de comparação de sequencias o algoritmo BLAST, cujos resultados são depois filtrados por vários parâmetros, dos quais o utilizador pode definir a percentagem de identidade e a percentagem de diferença de tamanho máxima permitida entre sequências de um conjunto de alelos que codificam para um mesmo locus. Os resultados obtidos com esta ferramenta são conservadores pois removem possíveis genes parálogos presentes nos genomas e os parâmetros de identidade e diferença de tamanho são determinados de modo a obter elevada confiança nos resultados obtidos. Utilizaram-se 27 genomas de vários serótipos completamente sequenciados e anotados disponíveis no GenBank e 49 genomas sequenciados pela Unidade de Microbiologia Molecular e Infeção. Estes 49 genomas continham 24 estirpes do serótipo 1 e 25 estirpes do serótipo 3. A escolha da análise destes serótipos prende-se com o facto de serem causadores de doença invasiva em diferentes grupos etários e a sua caracterização genómica ser muito diferente. Obtiveram-se os resultados para um conjunto de 25 dos 27 genomas disponíveis no GenBank, para os quais estavam disponíveis os ficheiros contendo as regiões codificantes. Obtiveram-se também os resultados para o total dos 76 genomas de S. pneumoniae. Foram utilizados diferentes parâmetros de percentagem de identidade e de diferença de tamanho, sendo que para 80% de identidade e 20% de diferença de tamanho se obtém 619 genes core e 873 genes acessórios para o conjunto de 25 genomas e 226 genes core e 977 genes acessórios, para o conjunto de 76 genomas. No entanto, o número total de genes descobertos não aumenta com o número de genomas analisados, o que será devido ao método utilizado, que se revela bastante estrito na filtragem dos resultados do BLAST. Para a comparação dos serótipos 1 e 3 utilizou-se também o SCRAG, tendo-se posteriormente comparado os conjuntos de resultados obtidos. Utilizando genes core, verificou-se que existem mais genes partilhados entre o serótipo 3 e o grupo de outros serótipos, ao passo que o serótipo 1 parece divergir bastante dos restantes, sendo também o que apresenta menos genes no total, o que era expectável uma vez que apresenta limitada diversidade genética. Já considerando genes acessórios, o maior número de genes partilhado ocorre entre os serótipos 1 e 3, continuando o serótipo 1 a divergir bastante do grupo \outros serótipos". Futuramente, será importante analisar os dados obtidos com o SCRAG em termos funcionais, para melhor compreender a espécie bacteriana estudada.
Streptococcus pneumoniae is a bacterial species that colonizes the human nasopharynx and it's the main cause of several diseases, like acute respiratory infection and otitis media. Several strains of this species have a polysaccharide capsule, presenting several compositional variants corresponding to different serotypes, which have different pathogenic potential. The aim of this study is to analyze the pangenome { the total repertoire of genes of a microbial species, which could be significantly larger than the number of genes found in each strain individually { of Streptococcus pneumoniae. The pangenome comprises the core genome { the set of genes present in all strains { and the accessory genome { the set of genes present in two or more strains and the unique genes. With the development of sequencing technologies has become essential the development of new bioinformatics tools to handle the large amounts of information generated, resulting in the need to perform comparative genomic studies on a large scale to try to extract useful information from these data. Thus we developed in this study a bioinformatic tool, called SCRAG (Strict CoRe and Accessory Genome), allowing the comparison of several genomes simultaneously, obtaining the core and accessory genome. This tool was used to analyze the genome of S. pneumoniae. SCRAG is based on the sequence comparison process using the BLAST algorithm, whose results are then filtered by various parameters of which the user can define the percentage of identity and the percentage of maximum size deference allowed between sequences of a set of alleles encoding the same locus. The results obtained with this tool are conservative because they remove possible paralogous genes present in the genomes and identity and size difference parameters are determined in order to achieve high confidence in the results obtained. 27 genomes of several serotypes, completely sequenced and annotated and available in GenBank and 49 genomes sequenced by the Molecular Microbiology and Infection Unit were used. These 49 genomes contained 24 serotype 1 strains and 25 serotype 3 strains. The choice of the analysis of these serotypes is related with the fact that they cause invasive disease in different age groups and their genomic characterization is very different. There were obtained results from a set of 25 of 27 genomes available at GenBank, which have the files containing the coding regions available. The results for the set of all 76 genomes of S. pneumoniae were also obtained. Different parameters of percentage of identity and size difference were used. With 80% identity and 20% size difference were obtained 619 core genes and 873 accessory genes for the set of 25 genomes and 226 core genes and 977 accessory genes for the set of all 76 genomes. However, the total number of discovered genes does not increase with the number of analyzed genomes, which could be due the method used, which proved quite strict when filtering the BLAST results. For serotype 1 and 3 comparison SCRAG was also used and the sets of results obtained were compared. Using core genes, it was found that there are more genes shared between serotype 3 and the group of other serotypes, whereas serotype 1 appears to deviate widely from the other, being also the one with fewer genes in total, which was expected since it has limited genetic diversity. Using accessory genes, the highest number of genes shared occurs between serotypes 1 and 3, continuing the serotype 1 to diverge rather from the group "other serotypes". In the future it will be important to analyze the data obtained with the SCRAG in functional terms to better understand the bacterial species studied.
Descrição: Tese de mestrado, Bionformática e Biologia Computacaional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2015
URI: http://hdl.handle.net/10451/23023
Designação: Tese de mestrado em Bionformática e Biologia Computacaional (Bioinformática)
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc117346_tm_Adriana_Policarpo.pdf1,19 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.