Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/22427
Título: 3D Visualization of very large databases - integrating and expanding the state of the art in bioinformatics and astroinformatics
Autor: Gomes, Miguel Dias Duarte Ferreira
Orientador: Almeida, André Moitinho de, 1967-
Couto, Francisco José Moreira
Palavras-chave: Bioinformática
Astroinformática
Visualização 3D
Grandes Bases de Dados
Exploração visual de dados
Teses de mestrado - 2015
Data de Defesa: 2015
Resumo: A exploração visual de dados é essencial para o processo científico. Muitas vezes, é o ponto de partida e até mesmo a referência de orientação para o pensamento científico. Tanto a Biologia como a Astronomia enfrentam o desafio comum da análise de grandes conjuntos de dados altamente multidimensionais. O atual estado da exploração visual de dados tabulares, muitas vezes sobre o formato de nuvens de pontos, é feito principalmente usando representações 2D. No entanto a dimensionalidade reduzida esconde facilmente características e relações nos dados. Como exemplo, a redução de dimensionalidade facilmente produz “overplotting” e vistas desorganizadas. Vários painéis 2D são muitas vezes utilizados para melhorar este problema, mas a ligação entre dados em diferentes painéis frequentemente não é clara. Estudos indicam que a redução de 3D para 2D reduz significativamente a quantidade de informação visual na análise de dados genómicos. Curiosamente, a visualização 3D não é generalizada na análise de nuvens de pontos. Esta técnica é usada quase exclusivamente no estudo de fluidos e campos, que são corpos estendidos. Uma das razões é a falta de boas ferramentas para seleção 3D e interação com grandes conjuntos de pontos. Os arquivos extremamente grandes produzidos pelos levantamentos astronómicos do presente, em conjunto com os padrões estabelecidos pelo Observatório (Astronómico) Virtual Internacional para troca de dados e interação de aplicações estão a produzir uma mudança de paradigma na forma como os dados são explorados. A tendência atual é de se deixar de fazer a exploração dos dados unicamente localmente, isto é trazendo-os para as estações de trabalho dos utilizadores, e passando-se a recorrer a serviços “on-line” para pesquisar e explorar os arquivos, quer localmente na estação de trabalho como em dispositivos móveis. O mesmo tipo de mudança de paradigma é visto nas Ciências Biológicas, onde, por exemplo, os dados genómicos são armazenados em diferentes repositórios on-line. Como tal, também se torna natural abordar a exploração moderna de dados visuais também com serviços on-line. Na verdade, isso está-se a tornar uma realidade com serviços recentes, como Rapidgraph e Plot.ly que estão a receber atenção tanto da comunidade astronómica como de outros campos. Na biologia, o Epiviz um serviço on-line projetado para visualização de dados genómicos funcionais tem recebido grande atenção ultimamente, depois de ter sido destaque na revista Nature. Neste trabalho foi desenvolvida uma aplicação web para visualização de dados, denominada SHIV, acrónimo de Simple HTML Interactive Visualizator, cuja tradução é Visualizador Interativo HTML Simples. Esta aplicação web funciona como um cliente para outra aplicação, o Object Server, um servidor de dados. O Object Server é a aplicação que irá fornecer à missão Gaia da Agência Espacial Europeia, um levantamento de 1% das estrelas da Via Láctea (ainda assim para cima de mil milhões de objetos), as funcionalidades de visualização interativa tanto em 2D como em 3D. Este trabalho, o conjunto de cliente web com a aplicação servidor, propõe-se a oferecer aos seus utilizadores uma plataforma capaz de providenciar capacidades de visualização interativa de dados de vários domínios, indo desde dados astronómicos a dados genómicos. Os utilizadores têm à sua disposição uma ferramenta acessível em qualquer plataforma, de um comum computador desktop a correr Windows a um tablet a correr Android, desde que exista uma ligação de rede e um navegador de internet razoavelmente recente é possível utilizar a aplicação. Para ultrapassar tanto as limitações associadas aos navegadores, em termos de capacidades de processamento e de armazenamento, como limitações no tratamento de grandes quantidades de dados, escolheu-se modificar um servidor de dados, principalmente astronómicos, já provado. A grande quantidade de dados a visualizar é um problema atual no domínio astronómico, que ultrapassa em muito as capacidades disponíveis nos computadores de secretária atuais, e tudo leva a crer que com a tendência de crescimento associado à Bioinformática o mesmo aconteça num futuro próximo. Para oferecer aos utilizadores de computadores normais a capacidade de visualizar o catálogo da missão Gaia, foi desenvolvido uma aplicação que fornece, entre outras, funcionalidades de níveis-de-detalhe (do inglês level-of-detail), detalhe-a-pedido (do inglês detail-on-demand) e vistas ligadas (do inglês linked-views). A conjunção de níveis-de-detalhe, a descrição de um objeto ou conjunto de objetos com sucessivos níveis de detalhe progressivamente mais complexos, com detalhe-a-pedido, a capacidade de obter só os dados relevantes a um dado campo de visão ou filtro de dados, oferece a clientes com capacidades limitadas uma visão fiel dos dados, uma visão adaptada às suas restrições, quer de resolução disponível quer de outras limitações relacionadas com a capacidade de processamento existentes. A capacidade de ligar vistas oferece aos utilizadores a possibilidade de ligar vários gráficos de uma mesma fonte de dados, por exemplo ao fazer um gráfico de dispersão de um conjunto de amostras, pode ver como é que uma dada seleção se relaciona com um histograma de expressão média. Estas capacidades, tanto para visualizações 2D como para 3D, ao serem oferecidas por uma aplicação que funciona como um serviço oferece persistência dos dados, o que significa que um utilizador pode começar uma visualização num dispositivo e terminá-la noutro. Oferece também a possibilidade de partilhar tanto os dados como visualizações já criadas com outros utilizadores. No âmbito deste trabalho várias modificações e adições tiveram que ser efetuadas na aplicação servidor, de modo a poder integra-la no domínio da Bioinformática. Foi, por exemplo, adicionada a capacidade de carregamento de ficheiros em formato FASTA ou FASTAQ assim como de ficheiros em formato GFF ou GTF, formatos comuns. Foram também melhoradas as capacidades de serviço de aplicações web, já que a aplicação original está focada em clientes nativos. Várias funcionalidades de transformação de dados, como por exemplo a capacidade de criar transpostas de uma dada tabela ou a capacidade de gerar matrizes de distâncias de amostras. O cliente foi desenvolvido com base na biblioteca D3.js de Mike Bostock, esta biblioteca oferece capacidades de produção de gráficos dinâmicos e interativos para a web, utilizando as especificações, largamente utilizadas, de HTML5, Gráficos Vetoriais Escaláveis (do inglês Scalable Vector Graphics) e Folhas de Estilo em Cascata (do inglês Cascading Style Sheets). Para o aspeto gráfico e ambiente de interação do cliente foi também utilizada a biblioteca Bootstrap, que oferece um conjunto de elementos de tipografia comuns como botões, formulários, etc., que facilitam a criação de interfaces modernas e que funcionam de maneira similar em diferentes navegadores. Para além de oferecer capacidades de visualização interativa de dados em uma ou duas dimensões, através dos muito utilizados gráficos de dispersão (scatter plot), gráficos de linhas, histogramas, Heatmaps e gráficos de blocos. A aplicação oferece também capacidades básicas de visualização de dados em três dimensões. O 3D é discutido neste trabalho porque é pouco comum ainda no domínio da Bioinformática, e no geral nas ciências biológicas, a sua utilização. Embora existam utilizações, como por exemplo a visualização da estrutura de proteínas, no resto do domínio são raras as menções da utilização do 3D para efetuar ciência e gerar conhecimento. Um possível motivo para tal é que as ferramentas atualmente existentes não contemplam a possibilidade da criação de visualizações em três dimensões. Espera-se que com a inclusão, à partida, de capacidades 3D numa aplicação que espera ser uma base de trabalho para o futuro fomente a utilização do 3D na Bioinformática. Para demonstrar as capacidades do conjunto das aplicações, são mostrados casos de uso. O primeiro, um caso de uso tipicamente astronómico, mostra como é possível efetuar a visualização dos dados da missão Hipparcos da Agência Espacial Europeia, a primeira missão focada em astrometria de precisão que efetuou medidas precisas da posição de objetos celestes, num diagrama de Hertzsprung–Russell. Este diagrama de cor-magnitude é utilizado no conhecimento da evolução estelar nos domínios da astronomia e astrofísica. Ao mesmo tempo cria-se e visualiza-se um gráfico de dispersão das posições das estrelas observadas e compara-se seleções efetuadas num dos gráficos com a sua localização no outro gráfico, fazendo uso da funcionalidade de vistas ligadas. O segundo caso de uso é um exemplo típico de bioinformática exploratória. Com o carregamento de dados de expressão genética, obtidos pelo método de Cap Analysis of Gene Expression de amostras humanas do consórcio FANTOM5. Estas 70 amostras, principalmente de tecido cerebral juntamente com alguns outliers como tecido do útero, servem como base do caso de uso. Após o carregamento dos dados cria-se e visualiza-se um gráfico MA da expressão de genética em amostras de adulto e de recém-nascido de substantia nigra. Seguidamente criam-se histogramas para a largura da expressão genética assim da expressão média dos genes. Estas visualizações demostram as capacidades interativas da aplicação. Seguidamente compara-se a largura da expressão genética com a expressão média, faz-se também uso da funcionalidade de acrescentar linhas de regressão ao gráfico para verificar a existência de tendências nos dados. Depois cria-se a matriz de distâncias das amostras que serve de base a um Heatmap onde se pode visualizar facilmente as amostras outlier. Finalmente mostra-se a utilização de gráficos em 3D para a visualizar a informação obtida no Heatmap e como também se poderia distinguir outliers com recurso à mesma. Para terminar faz-se uma discussão do trabalho e apresenta-se as áreas onde o trabalho futuro se pode focar.
Visual data exploration is essential to the scientific process. It is often the starting point and even the guiding reference for scientific thought. Both biology and astronomy face the common challenge of analysing large sets of highly multidimensional data. Current day visual exploration of tabular data (point clouds) is mostly done using 2D representations. But reduced dimensionality easily hides features and relations in the data. As an example, collapsing dimensions easily produces overplotting and cluttered views. Multiple 2D panels are often used to improve this problem but the link between data in different panels is frequently not clear. Studies indicate that reduction from 3D to 2D reduces significantly the quantity of visual information in the analysis of genomic data. Curiously, 3D visualisation is not widespread in the analysis of point clouds. It is almost exclusively used with fluids and fields, which are extended bodies. One of the reasons is a lack of good tools for 3D selection and interaction with large sets of point. The extremely large archives produced by today's astronomical surveys, together with the International (Astronomical) Virtual Observatory standards for data interexchange and application messaging are producing a paradigm shift in the way data is explored. The tendency is becoming not to download the data to the user’s workstation or mobile device and explore it locally, but instead to use on-line services for querying and exploring those archives. The same kind of paradigm shift is seen in the Biological Sciences where, for example, genomic data are stored in different on-line repositories. Thus, it also becomes natural to address modern visual data exploration also with on-line services. Indeed, this is becoming a reality and recent services such as Rapidgraph and Plotly are receiving attention from the astronomical community among others. In biology, the Epiviz on-line service designed for visualisation of functional genomics data has received great attention lately, having been featured by Nature. In this work a web-based interactive visualization tool, the Simple HTML Interactive Visualizator (SHIV), was developed which in conjunction with a server software, Object Server, used for providing the interactive 2D and 3D visualization infrastructure to the European Space Agency’s Gaia mission, a survey of over a billion starts or 1% of the stellar content of the Milky Way. The conjunction of a web-based client with a server software allows users, with normal computers and/or in mobile devices, to visualize the large amounts of data that are common in the Astronomy and Astrophysics fields, and are expected to happen in the near future in the Bioinformatics field if the tendency to growth holds. This capacity is made possible with the usage of features like levels-of-detail, detail-on-demand and linked views. The creation of progressively more complex levels of detail for a given object or objects (levels-of-detail), in conjunction with the possibility to just request the data associated with a given viewport or filter (detail-on-demand) allow that clients with limited resources and/or limited screen space offer to users visualizations that faithfully represent the totality of the data. Allowing users to link views, gives them the possibility to explore multiple dimensions of the same data by using several graphs to focus on specific features. The client offers common visualization tools, with the creation of scatter plots, histograms, heatmaps, linecharts and block charts in two dimensions, as well as the creation of three dimensional visualizations. It is hoped that the support for 3D since the inception of the client will provide users with the tool necessary to analyse their data in new and innovative ways.
Descrição: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2015
URI: http://hdl.handle.net/10451/22427
Designação: Tese de mestrado em Bioinformática e Biologia Computacional (Bioinformática)
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc116075_tm_Miguel_Gomes.pdf2,75 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.