Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Teses de Doutoramento >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/4308

Título: Statistical methodologies for the analysis and normalization of RIP-Chip data
Autor: Barreto Hernandéz, Emiliano
Orientador: Sousa, Lisete Maria Ribeiro de, 1972-
Palavras-chave: Microarray
RIP-Chip
Proteínas
Bioinformática
Teses de doutoramento - 2011
Issue Date: 2011
Resumo: Pre-mRNA splicing is an essential step in the post-transcriptional gene expression control involving protein-splicing factors like PTB and U2AF65; the last one is exported to the cytoplasm and involved in some other cellular functions. The identification of PTB- and U2AF65-associated mRNAs under native conditions was performed by immunoprecipitation and hybridization on Chip (RIP-Chip) technology using the Affymetrix GeneChip R Human Genome U133 Plus 2.0. The aim of this thesis is to develop statistical methodologies for low level analysis and enriched gene selection in RIP-Chip experiments. When the most common methodologies for quality assessment, low level analysis (background adjustment, normalization and summarization) and detection of diferentially expressed genes (DEG), are applied to RIP-Chip data the obtained results difer. This probably happens because usually more than 20% of the mRNAs are enriched, while methods for normalization and identification of DEG are developed supposing that only a small proportion of genes (1% or 5%, say) express diferently. Also, methods for detecting diferentially expressed genes may not be the most adequate for gene enrichment selection. In this thesis is implemented a background correction method inspired in a non-specific hybridization method used for pre-processing ChIP-Chip data. Linear regression models are used in each array to model the non-specific hybridization. Probe intensities on the array are standardized using their predicted intensity and the variance of similar predicted intensities. The standardized probe intensities showed no need for further normalization, so the scores could be directly compared. It is proposed a probe set score, a probe set enrichment value and its p-value for enriched gene selection. The genes selected using this new method are practically the same as the ones found experimentally. Additionally, a new methodology based on ranks is presented for enriched gene selection, being applied to the probe set scores proposed. Both methodologies had high accuracy when applied to Spike-In U133 dataset, which is used to benchmark methodologies for analysing Affymetrix microarrays.
Nos ultimos anos foram desenvolvidas técnicas de alto rendimento na investiga cão em biologia. Essas técnicas evoluíram fornecendo à comunidade científica instrumentos como: sequenciadores de alta capacidade, que permitem obter milhões de fragmentos de DNA ao mesmo tempo; espectómetros de massa em tandem que permitem a identificação de proteínas ou proteomas completos; ou hibridaçãode microarrays, usados para determinar a expressão dos genes através da identificação mRNAs presentes na célula num momento específico. Os microarrays constituem uma técnica usada para quantificar a expressão de genes e analisar fragmentos de genes, proteínas ou metabolitos. Também têm sido utilizados para clarificar elementos específicos do Dogma Central da Biologia Molecular, envolvidos no controle da transcrição; na busca de dados que expliquem como a expressão do gene começa a partir do DNA; ou como o mRNA em associação o com os ribossomas e traduzido em proteínas nas no citoplasma da célula. Dado o enquadramento biológico descrito acima, o Capítulo 1 introduz os aspectos da biologia relacionados com os dados RIP-Chip utilizados nesta tese, dados esses obtidos por Gama-Carvalho et al. [2006], em que se pretende identifi car os mRNAs associados a PTB e U2AF65 em condições nativas. Estas duas proteínas de ligação a RNA fazem parte do controle pós-transcripcional da expresscão genética em células eucariótas. Este capítulo começa por introduzir conceitos de biologia molecular da célula tal como o dogma central da biologia molecular, onde os processos de transcri cão e tradução são essenciais para manter a vida da célula e onde o controle de expressão genética é um aparelho fundamental na regulação da célula. Como parte do controle da expressão dos genes, o Capítulo 1 apresenta uma visão geral do controle pré- e pós-transcripcional da expressão dos genes. O splicing de pr e-mRNAs e um passo essencial no controle da expressão pós-transcripcional dos genes e envolve factores de splicing tais como as proteínas PTB e U2AF65, sendo U2AF65 exportada para o citoplasma e envolvida em outras funções celulares. O Capítulo 1 mostra como foram obtidos os dados RIP-Chip das proteínas PTB e U2AF65 e apresenta uma breve descri cão da metodologia utilizada por Gama-Carvalho et al. [2006] na sua experiência RIP-Chip. Mostra como a investigação de mRNAs associados a PTB e U2AF65, em condições nativas, foi realizada por imunoprecipitação (IP) após a adição de um anticorpo monoclonal específico (Bb7 anti-PTB mAb ou anti-U2AF65 MC3), seguido de extração de RNA, poliadenilacão, transcricão reversa, etiquetagem final e amplificação por PCR. Os cDNAs gerados foram hibridados com o GeneChip A ymetrix Human Genome U133 Plus 2.0 [Gama-Carvalho et al., 2006]. Este capítulo apresenta uma descricão da tecnologia de microarrays, em particular as características dos microarrays da Affymetrix utilizados na experiência RIP-Chip executada por Gama-Carvalho et al. [2006]. De seguida, o Capítulo 2 apresenta alguns dos métodos mais comuns de análise de dados de microarrays e os resultados de seu desempenho nos dados de Gama-Carvalho et al. [2006]. Para a correcão de background foi utilizado o modelo linear robusto (RMA) de Irizarry et al. [2003a] e uma modificação do mesmo (GCRMA) proposta por Wu et al. [2004], apenas sobre PM (Perfect Match). A normalização foi realizada através da normalização quartílica e a sumariacão das sondas foi feita usando a mediana polish [Irizarry et al., 2003a]. Alternativamente, os dados foram pré-processados usando o programa dChip: apenas para PM; usando o método de normalização invariant set [Li and Wong, 2001]; e o método baseado em modelos de Li and Wong [2001] para calcular os níveis de expressão. Para efeitos de comparacão foram utilizados os dados obtidos após a correcão de background com RMA, a normalização quartílica e sumariacão com a mediana polish. Com base nestes dados, foi feita a seleção de genes enriquecidos usando as seguintes bibliotecas do BioConductor: limma (ajusta um modelo linear para cada gene); eBayes (calcula a estatísticas T moderada, F e B - logaritmo das chances a posteriori); decideTests com um valor-p < 0:05 (baseia-se em testes múltiplos para determinar se cada estatística numa matriz de estatísticas T deve ser considerada significativamente diferente de zero [Smyth, 2004]); RankProd com FDR <0:05 (teste não-paramétrico que deteta itens que são consistentemente classificados como estando no topo da lista [Breitling et al., 2004]). Estes resultados foram comparados com os resultados obtidos com o programa dChip considerando uma taxa de falsas descobertas (FDR) <0:05 e um valor-p <0:05 [Li and Wong, 2003]. Os resultados apresentados no Capítulo 2 mostram como diferentes metodologias aplicadas aos dados de Gama-Carvalho et al. [2006] produziram resultados Diferentes. Parte das diferenças devem-se sobretudo ao facto de mais de 20% dos mRNAs serem enriquecidos e os métodos de normalização comuns terem por base pequenas diferenças entre eles. Como esta tese teve como principal objetivo o desenvolvimento de metodologias estatísticas para análise de baixo nível e selecão de genes enriquecidos em experiências RIP-Chip, o Capítulo 3 é dedicado a apresentar a implementa çao de um novo método de correção de background inspirado num método de hibridação não específica utilizado para pré-processamento de dados ChIp-Chip [Johnson et al., 2006]. Modelos de regressão linear foram usados para modelar em cada microarray a hibridação não específica, representando intera ções entre cada três nucleótidos consecutivos na sequência da sonda. As intensidades das sondas foram padronizadas usando sua intensidade prevista e a variância das sondas de intensidades previstas semelhantes. A nova abordagem aqui proposta utiliza a informação de cada microarray de forma independente, e os valores de intensidade padronizados não revelaram necessidade de normalização adicional. Assim, os microarrays podem ser directamente comparados [Barreto-Hernandez et al., 2011]. O Capítulo 3 apresenta também um score para a sonda; a definicão de um valor de enriquecimento da sonda (ENRval) e respectivos valores-p para a selecão de genes enriquecidos [Barreto-Hernandez et al., 2011]. Os genes enriquecidos obtidos usando esta metodologia, tanto para os dados RIP-Chip de PTB como de U2AF65, estão de acordo com os genes identi ficados experimentalmente por Gama-Carvalho et al. [2006]. Finalmente, o Capítulo 3 apresenta ao desenvolvimento da uma nova metodologia Não-paramétrica baseada em postos (ranks), implementada para selecão de genes enriquecidos e aplicada aos scores propostos en este Capítulo. Esta metodologia tem em conta a variabilidade da intensidade padronizada em cada sonda, em vez de usar o valor de sumariacão de cada sonda (ENRval). Ainda neste capítulo, as metodologias desenvolvidas nesta tese para a selecão de genes enriquecidos são aplicadas aos dados da experiência Spike-In. Esta base de dados foi construída há alguns anos e é usada no desenvolvimento e comparação de métodos de análise de expressão diferencial de genes [Irizarry et al., 2003b]. A experiência Spike-In U133 engloba 42 transcritos adicionados a um complexo transcriptoma humano em concentrações que variam de 0.125pM a 512pM, correspondendo a 14 hibridações separadas com três repetições técnicas. Os transcritos foram incluídos na experiência sob a forma de um quadrado latino clássico [Irizarry et al., 2003b]. Para a análise comparativa, três diferentes hibridações Spike-In foram selecionadas (hibridações 1, 8 e 14) e usadas para simular diferenças de enriquecimento em experiências RIP-Chip através do seguinte procedimento: 1 como Controle e 8 como IP; 1 como IP e 14 como Controle. As duas metodologias desenvolvidas nesta tese para sele cão de genes enriquecidos, apresentam elevada exatidão quando aplicadas aos dados Spike-In U133.
Descrição: Tese de doutoramento, Estatística e Investigação Operacional (Bioestatística e Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2011
URI: http://hdl.handle.net/10451/4308
Appears in Collections:FC - Teses de Doutoramento

Files in This Item:

File Description SizeFormat
ulsd061199_td_Barreto_H_Emiliano.pdf6,63 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
Promotores do RCAAP   Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência PO Sociedade do Conhecimento (POSC) Portal oficial da União Europeia