Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/16005
Título: LincRNA profile in clear cell renal cell carcinoma using RNA-seq data
Autor: Posa, Ioana
Orientador: Sousa, Lisete Maria Ribeiro de, 1972-
Grosso, Ana Rita Fialho, 1979-
Palavras-chave: lincRNA
ccRCC
RNA-seq
Diferencialmente expresso
FPKM
Rede de correlação génica
Teses de mestrado - 2015
Data de Defesa: 2015
Resumo: O cancro renal ou carcinoma de células renais (renal cell carcinoma - RCC) é um grupo comum de doenças resistentes a quimioterapia. É um dos tipos de cancro mais letal no sistema urinário, sendo a taxa de sobrevivência para os pacientes com RCC metastático de menos de 10% após cinco anos de diagnóstico. Com base nas suas características genéticas e histológicas, no seu fenótipo clínico e diferentes respostas à terapia, os RCCs podem ser subdivididos em vários tipos, sendo um dos mais comuns o de células claras RCC ( clear cell renal cell carcinoma - ccRCC); correspondendo a mais de 80% dos casos de RCC. Uma das características do ccRCC, bem como de outros tipos de cancro, é a metabolização da glucose através da glicólise seguido pela produção¸ de lactato, processo primeiramente descrito por Warburg - ” efeito de Warburg ”. Este efeito ocorre em oposição à normal glicólise seguida de fosforilação oxidativa mitocondrial, a fim de produzir o adenosina trifosfato (ATP). Esta característica deriva principalmente do gene von Hippel-Lindau (VHL) inactivo, contudo este apenas apresenta mutações que podem inactivar a sua função em apenas 52% das amostras de ccRCC. Esta mutação poderá não ser suficiente para explicar este carcinoma e que mais estudos são necessários a fim de entendê-la. Um papel importante neste cancro também tem sido atribuído à regulação epigenética, bem como a microRNAs desregulados. Desde o início do século XXI, vários projectos a nível global têm permitido descartar a ideia de que o genoma humano é principalmente ” lixo” e para isso também contribuiu o desenvolvimento de tecnologias de sequenciação de nova geração (next generation sequencing – NGS). Algumas destas tecnologias são a Roche 454, Illumina / Solexa e tecnologias ABISolid que permitem sequenciar todo o genoma/ transcriptoma de uma só vez. De modo a ocorrer esta sequenciação é necessária uma fragmentação do material genético; uma reacção em cadeia da polimerase (polimerase chain reaction - PCR) em paralelo e determinação da sequência através de fluorescência. Nos últimos anos, surgiram tecnologias de sequenciação de terceira geração (como PacBio e Helicos) capazes de definir a sequência utilizando moléculas individuais de DNA, sem necessidade de reacções de PCR. Actualmente, grande parte das tecnologias disponíveis apresentam várias vantagens e limitações, sendo o mais importante na escolha de uma destas o equilíbrio entre os objectivos e o orçamento disponível. Uma das técnicas que tira partido destas tecnologias é a sequenciação de RNA (RNAseq). Esta técnica, utiliza tecnologias de sequenciação de nova geração, a fim de analisar todas as moléculas de ácido ribonucleico (ribonucleic acid - RNA) de uma ou mais células – transcriptoma. A análise deste tipo de dados permite fornecer informações a nível de sequência, bem como sobre níveis de transcrição, facilitando o desenvolvimento de novas terapêuticas e interpretação de dados experimentais. Esta revolução tecnológica levou ao reconhecimento de que o transcriptoma não é apenas constituído por transcritos codificantes de proteínas, mas também por um elevado número de transcritos não codificantes. Transcritos estes que estão a ser gerados a partir de regiões que se acreditava ser ”desertos”. A transcrição generalizada das regiões não codificantes pode estar na origem de moléculas funcionais. Torna-se assim evidente que existe uma necessidade de ter em conta elementos não codificantes, ao serem realizados estudos de associação ao nível do genoma. Os transcritos não codificantes (non coding RNA - ncRNA) estão associados a várias funções a nível celular e pedem ser dividos em várias categorias, de acordo com o seu tamanho e localização relativa a genes codificantes de proteína. Um dos grupos de ncRNA são os longos transcritos não codificantes interétnicos (long non coding intergenic RNA – lincRNA), que apresentam um tamanho superior a 200 nucleótidos e não apresentam nenhuma sobreposição com outros genes anotados. Estes não apresentam nenhuma característica específica sendo que podem ser transcritos pela mesma maquinaria que permite a transcrição de genes codificantes de proteínas. Normalmente apresentam cerca de 2 a 3 exões e o nível de expressão é menos elevado que o dos genes codificantes. O papel biológico da maioria destes ainda é, em grande parte desconhecido, contudo alguns deles têm sido associados a vários tipos de cancro. Apesar da quantidade de estudos feitos em ccRCC e da quantidade de mutações identificadas, ainda não é possível compreender este subtipo de carcinoma renal. Assim, decidiu-se explorar o perfil de expressão de lincRNAs em ccRCC e quantificar diferença na expressão destes, comparando amostras normais versus a amostras de tumor de 62 pacientes com ccRCC. Para isso, é necessário construir o transcriptoma base do ccRCC para a descoberta de potenciais novos lincRNAs; analisar a expressão diferencial de lincRNA e mostrar sua correlação com genes que codificam proteínas. Foi então utilizada uma análise computacional de dados de RNA-seq de 62 amostras de pacientes ccRCC (pares de amostra tumoral e normal). Primeirament foi construido um catálogo com lincRNAs humanos, utilizadando anotações de lincRNA de várias bases de dados (Ensembl, Gencode, Vega, Lncipedia, UCSC, do Instituto Broad, Noncode e dados publicados por Zhipeng e Adelson). A falta de correspondência entre as diferentes bases de dados, aumentou o grau de complexidade do processo, contudo no final foi obtido um catálogo de 38 134 lincRNAs humanos. De seguida, foi reconstruído o transcriptoma do ccRCC para usar como base para nova descoberta de lincRNAs. A caracterização das 62 amostras de pacientes ccRCC (tumor e normal combinado) revelou 5549 potenciais novos linRNAs. A análise diferencial entre as amostras de cancro e tecido normal permitiu a identificação de 2129 genes diferencialmente expressos ( entre os quais 239 lincRNA e 105 potencias novos lincRNAs). Devido aos seus baixos níveis de expressão, para muitos dos lincRNAS o teste estatístico não foi sequer efectuado. Facto pelo qual, o último passo envolveu uma análise que tem em conta a relação entre os transcritos, independentemente da sua expressão diferencial. Foi realizada uma análise de correlação génica em rede (gene correlation network analysis), permitindo encontrar genes altamente correlacionados entre si e o tipo de amostra - tumor / normal. ´E de realçar o lincRNA PVT1, que foi previamente associado a outros tipos de cancro e tem uma elevada expressão em amostras de tumor ccRCC. Pacientes com elevada expressaão relativa deste lincRNA nas amostras normais, têm uma probabilidade inferior de sobrevivência comparativamente aos que apresentam uma menor expressão relativa. No final, esta análise permitiu a dar os primeiros na compreensão a importância dos lincRNAs no ccRCC.
Kidney cancer or renal cell carcinoma (RCC) is a common group of chemotherapy resistant diseases, and one of the most lethal type of cancer in the urinary system, being the survival rate for patients suffering from metastatic RCC is less than 10% survive five years subsequent to diagnosis. Based on their genetic characteristics, histological features, clinical phenotype and different responses to therapy, RCCs can be subdivided in several subtypes, one of the most common being clear cell RCC (ccRCC) accounting for more than 80% of RCC cases. ccRCC is usually characterized with an inactive von Hippel–Lindau (VHL) gene, the VHL gene mutations that can inactivate were observed only in 52% samples, which may indicate that this mutation is not sufficient to explain this carcinoma and that more studies are necessary in order to understand it. An important role for epigenetic regulation has also been suggested for ccRCC, as well for deregulated microRNAs. The development of next generation sequencing technologies (NGS) made possible for a bigger number of transcriptomes to be analysed. This allowed to acknowledge that a transcriptome is not only constitute by protein-coding transcripts but also by a high number of non-coding transcripts. This transcripts are being transcribed from regions previously thought to be “deserts”. This widespread transcription of non-coding regions may be in the origin of functional molecules, making apparent that there is a need to take into account non-coding elements when genome wide association studies are done. Non-coding RNA (ncRNA) are associated with plenty of functions and one group of ncRNA - long intergenic ncRNA, which have no overlap other annotated genes, have been associated with several other cancers. Despite the amount of studies made in ccRCC and the amount of identified mutations it is still not possible to comprehend this subtype of renal carcinoma. Thus, we decided to explore the long intergenic non-coding RNA (lincRNA) profile in ccRCC and quantify difference in gene expression when comparing the normal versus the tumor samples. For that is necessary to assemble the ccRCC transcriptome as base for potentially new lincRNA discovery, analyse differential lincRNA expression and show their correlation with protein coding genes. In order to achieve that, a computational analysis of RNA-seq pair-end data of 62 ccRCC patient samples (tumor and matched normal) was used. In order to accomplish these objectives, a human lincRNA catalog, with lincRNA annotations from several databases (Ensembl, Gencode, Vega, Lncipedia, UCSC, Broad Institute, Noncode and Zhipeng and Adelson published data) had to be constructed. The main preoccupation was to have the most complete tool/resource for assessing lincRNA expression. For that, 8 different databases with lincRNA annotations were merged in order to obtain a unified human catalogue of 38 134 lincRNAs. To uncover the lincRNA profile in ccRCC, the transcriptome composition of 62 ccRCC patient samples (tumor and matched normal) was assessed. Available bioinformatic tools were used and made possible the identification of 5549 potentially new lincRNA and determine 2129 differentially expressed genes (239 lincRNA and 105 potentially new lincRNAs). In order to proceed with an analysis that takes into account the relationship between the transcripts, independently of their differential expression, a weighted gene correlation network analysis followed. This analysis allowed to find highly co-expressed/correlated genes as well as genes highly correlated with sample type – tumor/normal sample, leading to uncover PVT1 lincRNA. This lincRNA was already associated with other cancers and has an expression highly upregulated in ccRCC tumor samples. Patients with relative high expression of this lincRNA in normal samples also show poor survival chances. In the end, this analysis allowed to give the first steps in order to understand the lincRNAs importance in ccRCC.
Descrição: Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015
URI: http://hdl.handle.net/10451/16005
Designação: Tese de mestrado em Bioinformática e Biologia Computacional
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc112369_tm_Ioana_Posa.pdf4,83 MBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.