Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/15929
Título: Intragenic initiation in SETD2 deficient cells
Autor: Pereira, Miguel Maria das Neves Sousa
Orientador: Sousa, Lisete Maria Ribeiro, 1972-
Grosso, Ana Rita
Palavras-chave: Next generation sequencing (NGS)
Iniciação intragénica
Comparação de proporções
Testes múltiplos
Método de Marascuilo
Teses de mestrado - 2014
Data de Defesa: 2014
Resumo: Nos últimos anos observou-se um enorme desenvolvimento no campo da sequenciação genética com o desenvolvimento das plataformas de elevada produção de Next Generation Sequencing (NGS). Com a tecnologia de NGS é possível sequenciar um genoma ou um transcriptoma por completo em apenas horas ou dias, o que constitui um avanço importante quando comparado com os métodos de sequenciação de Sanger. A plataforma de NGS é baseada na fragmentação e amplificação através de PCR de DNA ou RNA em pequenos segmentos, denominados reads, e na selecção das reads que alinham com um genoma de referência. Estas, denominadas reads mapeadas , são selecionadas para análise e estudo de fenómenos a nível molecular celular. O desenvolvimento destas tecnologias foi acompanhado da necessidade de desenvolver ferramentas de bioinformática para analisar dados de NGS. Estas ferramentas são indispensáveis para traduzir e estudar fenómenos genéticos a partir dos dados não processados obtidos a partir dos aparelhos de sequenciação. Um aspecto importante da NGS é a possibilidade de estudo de fenómenos a nível do genoma e do transcriptoma versus ao nível de genes e proteínas individualmente. Neste trabalho em particular, é de salientar a possibilidade de estudar o fenómeno de iniciação interagência da transcrição, que corresponde à iniciação da transcrição de DNA em RNA mensageiro num exão que não o primeiro (que corresponde ao local usual de início da transcrição). Recentemente, o gene SETD2 foi identificado como sendo um possível gene supressor de tumor em linhas celulares de carcinoma renal de células claras. Este gene codifica uma histona metiltransferase responsável pela trimetilação da lisina 36 da histona H3 (H3K36me3). É já sabido que a ausência de expressão de SETD2 resulta em instabilidade de microssatélites e num aumento da taxa de mutação, motivo pelo qual se associa a reduzida expressão de SETD2 ao cancro. Adicionalmente, a H3K36me3 mediada pelo SETD2 parece estar associada a alteração dos padrões de splicing e a um aumento da iniciação intragénica. O objectivo deste trabalho é aplicar métodos estatísticos para identificar iniciação intragénica da transcrição e usar os mesmos para estudar o efeito das mutações de SETD2 neste fenómeno usando linhas celulares de carcinoma renal de células claras. Neste trabalho foram aplicados dois métodos de deteção de iniciação intragénica que foram aplicados em dados provenientes de seis linhas celulares de carcinoma renal de células claras: quatro linhas celulares com mutações loss of function do gene SETD2 (AB, ER, MF e FG2) e duas linhas-controlo (Caki1 e Caki2). Primeiro, foi efetuado o processamento dos dados originados pelo aparelho de sequenciação para obter dados de contagens relativos ao números de reads que alinharam com cada exão. Estes dados foram transformados em proporções tendo como base as contagens de reads e numa estimativa do número de reads que existiriam se todos os exões tivessem o mesmo nível de expressão e se comportassem como um gene activo. O objectivo foi comparar a expressão entre todos os pares de exões contíguos em cada gene e seleccionar os genes com um nível de expressão superior por parte de um exão que não o primeiro, o que sugere a existência de iniciação intragénica da transcrição. Para cada linha celular, obteve-se um vector com as proporções de expressão de cada exão organizadas por gene e foram aplicados dois métodos estatísticos que podem ser usados para comparação múltiplas proporções: (1) o teste de comparação de duas proporções e (2) o método de Marascuilo. No método (1) foram efetuadas todas as comparações dois-a-dois entre os pares de exões contíguos de cada gene e, um vez que se tem comparações múltiplas, os valor-p obtidos foram ajustados usando o procedimento de Benjamini-Hochberg que controlo a proporção de verdadeiras hipóteses nulas em cada gene. No método (2) foi aplicado um método que efetua todas as comparações dois-a-dois entre os exões de cada gene e selecionados os pares de interesse (ou seja, os pares de exões contíguos). Este método testa mais pares do que o necessário levando a um maior número de comparações. Isto cria um viés na direção da hipótese nula o que faz deste procedimento um método conservador. No entanto, o método de Marascuilo tem a vantagem de incorporar a correção para testes múltiplos não sendo necessário aplicar um outro método para efetuar esse ajuste. Na nossa abordagem, um gene tem iniciação intragénica da transcrição se satisfizer os seguintes critérios: (1) apresentar um exão downstream com maior nível de expressão que o primeiro exão (ou primeiros exões), (2) o primeiro exão diferencialmente expresso positivamente encontrar-se nos primeiros 40% dos exões do gene e (3) mantiver os nível de expressão em 50% dos exões downstream do primeiro exão diferencialmente expresso. Utilizando o nosso algoritmo de processamento de dados foram identificados 42233 genes, excluindo isoformas, dos quais 13667 (⇡31.7%) foram excluídos por serem compostos por apenas quatro exões ou menos. Optou-se por excluir estes genes a priori visto ser impossível os mesmos obedecerem aos critérios de iniciação intragénica estabelecidos. Os nossos resultados mostraram que o teste de comparação de duas proporções juntamente com o procedimento de Benjamini-Hocherg não conseguiu identificar um número satisfatório de genes. Adicionalmente, os genes identificados não apresentavam qualquer concordância com os detectados com o método de Marascuilo e com dados previamente publicados. Foi colocada a hipótese deste aspecto se dever à sensibilidade para este método detectar pequenas flutuações de expressão por ser um método menos conservador do que o método de Marascuilo, bem como ao facto dos critérios para considerar iniciação intragénica serem estritos. Por outro lado, o método de Marascuilo, detectou 1304 genes com iniciação intragénica tendo identificado cerca de 500 genes em cada amostra. Destes, ⇡300 genes eram específicos das linhas celulares mutadas quando eliminados os genes concordantes entre cada uma destas linhas e o controlo Caki1. Pelo contrário, quando eliminados os genes concordantes entre as amostras Caki1 e Caki2, foram detectados apenas 208 genes nesta última amostra, o que vem ao encontro da previsão de que a mutação no gene SETD2 aumenta a iniciação intragénica. Com este trabalho pode-se concluir que o método de Marascuilo pode ser usado como uma ferramenta para detetar iniciação intragénica. Este método deteta um menor número de genes que um método menos conservador baseado no teste exato de Fisher previamente descrito, mas apresenta a vantagem de identificar numa amostra sem necessitar de comparar com o controlo, ou seja, é capaz de detectar a iniciação intragénica basal numa linha celular controlo, por exemplo. Adicionalmente, este método parece ser preciso na quantificação de iniciação intragénica tendo-se detectado uma concordância de 50% entre pelo menos duas linhas mutadas, o que contrasta com uma concordância de 22% no método previamente descrito.
The advent of high-throughput Next Generation Sequencing technologies that generate information about the genome, transcriptome and epigenome has created a demand for the development of statistical approaches to detect biological phenomena that occur on a molecular level. One of those phenomena is intragenic initiation, which corresponds to transcription initiation in an exon downstream of the first. The aim of this thesis is to apply statistical methods to identify intragenic initiation and to use these to study the effect of down-regulation due to mutation in the SETD2 gene, a putative tumor suppressor gene in clear cell renal cell carcinoma. We analyzed count data from a RNA-seq experiment, a Next Generation Sequencing method to obtain the transcriptome of a cell, to detect intragenic initiation in six cell lines: two controls and four cell lines with loss of function mutations in the SETD2 gene. Our approach was based on transforming the data into proportions and comparing pairs of proportions either using the two proportions comparison test along with the Benjamini-Hochberg procedure to correct for multiple testing or the Marascuilo procedure, a method that performs every pair-wise comparison in an experimental unit and incorporates correction for multiplicity. Our results showed that the two proportions comparison method was not able to effectively detect intragenic initiation since very few genes were detected that had no relation with genes detected by the Marascuilo procedure and other published data. The Marascuilo procedure, on the other hand, detected 1304 genes with approximately 300 genes per mutant sample. There as 50% overlap between at least two mutant cell lines, which suggests that the method is consistent. We conclude that the Marascuilo procedure seems to be a method that can be applied to the detection of intragenic initiation and allows detection of this phenomenon in each of the cell lines individually.
Descrição: Tese de mestrado em Bioestatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014
URI: http://hdl.handle.net/10451/15929
Designação: Mestrado em Bioestatística
Aparece nas colecções:FC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc112492_tm_Miguel_Pereira.pdf1,57 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.