Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/4685

Título: In silico analysis of miRNA promoters
Autor: Martins, Fernando Manuel Magalhães, 1969-
Orientador: Enguita, Francisco J.
Inácio, Ângela
Palavras-chave: Expressão génica
microRNA
Transcrição genética
Homo sapiens
Teses de mestrado - 2011
Issue Date: 2011
Resumo: Os microRNAs (miRNAs) contribuem de uma forma abundante para a fracção de RNAs não-codificantes eucariotas. Estes estão envolvidos na regulação negativa póstranscricional da expressão genética através da ligação com a região 3'-UTR dos transcritos de mRNA nascente, conjuntamente com várias outras proteínas ajudantes. Em mamíferos, manifesta-se principalmente através da inibição da síntese proteica. Actualmente, sabe-se que estas moléculas de RNA são reguladores moleculares mestre envolvidos em processos celulares que englobam a diferenciação, transdução de sinal, divisão celular e cancro. A expressão dos microRNAs parece ter uma assinatura específica para cada um dos tecidos. Ainda não está claro quais são os principais factores que controlam esta especificidade, porém vários autores têm postulado a existência de circuitos de regulação entre os factores de transcrição que controlam a expressão de miRNA e a regulação exercida pelo miRNA sobre a expressão do factor de transcrição. Recentemente, as sequências de DNA de todos os promotores de miRNA humanos foram caracterizados por imunoprecipitação da cromatina por Marson et al [1]. Começamos com estes dados e a primeira coisa que se fez foi recolher todas estas sequências, usando a versão do UCSC Genome Browser indicada no estudo anterior e tendo em conta as posições nele indicadas para cada um dos 550 promotores. Para este efeito, foi necessário escrever um pequeno programa. O presente trabalho tem como objectivo principal realizar uma caracterização in silico de todos estes promotores, estudando os factores de transcrição que possivelmente controlam a expressão de miRNAs. Procurou-se factores de transcrição que regulassem a expressão de cada um destes miRNAs e que, simultaneamente, fossem proteínas codificadoras alvo desses mesmos miRNAs. O primeiro passo na análise dos circuitos de regulação entre os microRNA e os factores de transcrição foi a predição dos locais de ligação (TFBS) destes últimos para todas as sequências de promotores de miRNA obtidas. Ou seja, dadas as sequências de promotores de cada um dos miRNAs, era necessário saber quais os factores de transcrição que a elas se poderiam ligar e regular sua transcrição dos respectivos miRNAs. Actualmente, existem vários programas disponíveis. No entanto, apesar de todos os esforços, esses algoritmos às vezes produzem muitos falsos positivos ou falsos negativos. Assim, um dos maiores problemas ainda existentes é como encontrar o software apropriado. Consequentemente, os investigadores costumam usar vários dos programas existentes. Nós usamos o TFSEARCH 1.3, MAPPER 2, Match 1,0, Patch 1.0, P-Match 1.0, PROMO 3.0.2 e o TFBind. A primeira diferença entre todos estes programas é a maneira como as sequências dos promotores lhes podem ser enviadas. O MAPPER 2, foi o único que foi capaz de processar um arquivo FASTA contendo todas as sequências de promotores. Para o TFSEARCH 1.3 foi possível descarregar o EZRetrieve. Esta é uma ferramenta gratuita que se baseia no TFSEARCH e também processou o arquivo FASTA completo. Para o TFBind concebemos uma ferramenta similar ao EZRetrieve. Este programa lê um arquivo FASTA e envia cada sequência à ferramenta TFBind que está disponível online. Em seguida, guarda os ficheiros HTML que podem ser obtidos quando se realizam as pesquisas online. Para todas as outras ferramentas, era necessário um registo prévio nos locais onde elas se encontram disponíveis e, como tal, é necessário fazer o login antes de começar a usar essas ferramentas. Por este motivo, não foi possível conceber qualquer ferramenta para realizar esta pesquisa automaticamente. A única solução foi dividir nosso arquivo FASTA em vários arquivos pequenos e submeter cada um deles a cada uma dessas ferramentas. Tendo esta quantidade enorme de dados proveniente dos sete programas, foi necessário, então, uniformizá-los e prepará-los para serem analisados, tendo sido necessário desenvolver diversos programas para o efeito. As principais questões surgidas durante este processo foram o facto de algumas das aplicações usadas não permitirem restringir os resultados a genes de Homo Sapiens e, para além disso, a identificação dos genes não ser feita de forma uniforma, em virtude de os mesmos terem diversas designações. Para o efeito, descarregamos todos os genes de Homo Sapiens existentes na base de dados GenBank do NCBI. Além dos símbolos oficiais de cada gene, esta base de dados também contém os seus sinónimos. Depois de comparar os nomes dos genes, foi possível identificar a maioria dos genes obtidos nas aplicações de TFBS. No entanto, muitos deles permanecem por classificar ou não são genes de Homo Sapiens. Hoje em dia, é evidente que os processos pós-transcricionais desempenham um papel muito mais importante na regulação da expressão génica do que o anteriormente esperado. Assim, um passo crucial para a análise de funções reguladoras dos miRNAs é a previsão de seus alvos. Actualmente, existem diversos programas e bases de dados disponíveis. Nós usamos o Diana micro-T, Miranda, miRWalk, miRTarBase e uma base de dados publicada em 2010 por Saito T e P Sætrom [44]. Por comparação com o processo de análise das bases de dados de TFBS, estas revelaram uma melhoria considerável na forma de identificação dos genes, pois algumas delas usam identificadores únicos, quer sejam do GenBank ou do sistema Ensemble. Dado que os dados dos genes extraídos do GenBank também incluem os identificadores Ensemble, esta questão da identificação dos genes nas bases de dados de targets não obrigou a tanto esforço e permitiu certamente resultados mais fiáveis. A principal questão surgida com a análise das bases de dados de targets foi o volume de dados das mesmas. Estas bases de dados contêm geralmente milhões de registos e, apesar de os formatos das mesmas serem de muito mais fácil tratamento, obrigam a que se desenvolvam ferramentas para a extracção dos dados pretendidos. Refira-se que a maior destas bases de dados por nós usadas contém cerca de 20 milhões de registos. Depois de analisar todos os dados seleccionados, encontramos 38.773 loops, cobrindo 285 diferentes factores de transcrição e 417 miRNAs distintos. Estes loops envolvem factores de transcrição que regulam a expressão de um miRNA e que, simultaneamente, são proteínas codificadoras alvo desse mesmo miRNA. No entanto, cada loop é composto por um único factor de transcrição e um único miRNA. Uma vez que um único miRNA pode regular múltiplos genes e um único gene pode ser regulado por múltiplos miRNAs, é bastante natural pensar que miRNAs e factores de transcrição possam cooperar na regulação dos genes-alvo tanto a nível transcricional como a nível pós-transcricional. Na verdade, factores de transcrição e miRNAs funcionam juntos em redes reguladoras de genes que ainda não estão completamente identificadas nem compreendidas. Consequentemente, todos os loops identificados por este estudo devem ser vistos como componentes de módulos reguladores, em vez de loops isolados. Embora isto seja verdade, também podemos analisar individualmente cada um destes loops. Tendo em mente o facto de que esta é uma análise in silico, devemos estar cientes que a grande maioria de todos os loops detectados têm uma probabilidade muito baixa de serem loops reais. Portanto, futuras investigações devem começar pela definição de critérios de fiabilidade de todos os dados obtidos. Na verdade, todos estes dados exigem futuras investigações e necessitam de validações experimentais. Assim, este trabalho permitiu reunir e catalogar loops de regulação mistos entre factores de transcrição e miRNAs, em humanos, tendo sido todos os dados processados e armazenados numa base de dados relacional. Além disso, foi desenvolvida uma plataforma web de modo a permitir futuras investigações, pois apesar de ainda não compreendermos perfeitamente o significado biológico destes circuitos, eles são provavelmente um importante mecanismo de regulação da expressão génica. Esta base de dados tem 36 tabelas e armazena mais de 2,5 milhões de registos. A interface web permite a procura de loops usando vários critérios de pesquisa e permite a análise de todos os detalhes de cada um dos loops, tais como os TFBS previstos, os targets, as pontuações associadas a cada previsão, etc.
MicroRNAs (miRNAs) are an abundant class of eukaryotic non-coding RNAs. They are involved in the negative post-transcriptional regulation of gene expression. Their inhibitory action is exerted by binding to the 3’-UTR region of nascent mRNA transcripts together with several other helper proteins, and in mammals it is observed mainly as an inhibition of protein synthesis. These non-protein coding RNA molecules are master molecular regulators that have been found to be involved in cellular processes ranging from differentiation, cell division, signal transduction and cancer. MicroRNAs expression appears to have a tissue specific signature in which specific miRNAs are expressed preferentially in some tissues or organs. It remains unclear which are the main factors that control this tissue-specificity, however several authors have postulated the existence of a regulatory feedback loop between transcription factors controlling miRNA expression and the regulatory control exerted by miRNA over the transcription factor expression. Recently, the DNA sequences of all the human miRNA promoters have been characterized by chromatin-immunoprecipitation [1]. The present work has the main objective of performing an in silico characterization of all these promoters, studying the possible transcription factors controlling miRNA expression. We were looking for transcription factors regulating miRNA expression and being simultaneously the target protein-coding gene of that same miRNA. Despite the fact that we cannot yet understand the biological significance of these regulation loops, this must be an important mechanism of genes regulation. The purpose of this work was to assemble and characterize a catalogue of such mixed transcription factor/miRNA regulation loops in humans. All data was processed and stored in a relational database. Furthermore, a web platform was developed in order to enable further investigations.
Descrição: Tese de mestrado. Biologia (Bioinformática e Biologia Computacional). Universidade de Lisboa, Faculdade de Ciências, 2011
URI: http://hdl.handle.net/10451/4685
Appears in Collections:FC - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
HSGenes.xlsx166,19 kBMicrosoft Excel XMLView/Open
HSGenes_GenBank.xlsx5,58 MBMicrosoft Excel XMLView/Open
LOOPS01_stats.xlsx9,14 MBMicrosoft Excel XMLView/Open
LOOPS02_by_targetsDB.xlsx3,28 MBMicrosoft Excel XMLView/Open
LOOPS03_ranking.xlsx8,52 MBMicrosoft Excel XMLView/Open
Marson_Cell08_S7.xlsx35,69 kBMicrosoft Excel XMLView/Open
PCA_clusters.pdf169,49 kBAdobe PDFView/Open
TARGETS01_mirWalk.xlsx815,53 kBMicrosoft Excel XMLView/Open
TARGETS02_mirTarBase.xlsx189,94 kBMicrosoft Excel XMLView/Open
TARGETS03_svm.xlsx35,73 MBMicrosoft Excel XMLView/Open
TARGETS04_DianaMicroT.xlsx7,97 MBMicrosoft Excel XMLView/Open
TARGETS05_miRanda_cons.xlsx3,48 MBMicrosoft Excel XMLView/Open
TARGETS06_miRanda_nonc.xlsx10,57 MBMicrosoft Excel XMLView/Open
TFBS01_TFSEARCH.xlsx462,01 kBMicrosoft Excel XMLView/Open
TFBS02_MAPPER.xlsx10,1 MBMicrosoft Excel XMLView/Open
TFBS03_TFBIND.xlsx31,79 MBMicrosoft Excel XMLView/Open
TFBS04_MATCH.xlsx8,06 MBMicrosoft Excel XMLView/Open
TFBS05_PMATCH.xlsx6,81 MBMicrosoft Excel XMLView/Open
TFBS06_PATCH.xlsx12,93 MBMicrosoft Excel XMLView/Open
TFBS07_PROMO.xlsx14,47 MBMicrosoft Excel XMLView/Open
mirna_prom.fasta520,45 kBUnknownView/Open
ulfc090943_tm_fernando_martins.pdf1,61 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE