Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Teses de Doutoramento >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/3749

Título: Metodologias de classificação supervisionada para análise de dados de microarrays
Autor: Rebouças, Sílvia Maria Dias Pedro, 1978-
Orientador: Sousa, Lisete Maria Ribeiro de, 1972-
Parente, Ana Maria Pires
Palavras-chave: Microarray
Classificação supervisionada
Análise de componentes principais
Data piling
Teses de doutoramento - 2011
Issue Date: 2011
Resumo: Uma das principais características dos dados de microarrays é a sua elevada dimensionalidade, sendo o número de variáveis (p) muito superior ao número de observações (n). Esta particularidade suscita problemas na análise destes dados e, em particular, na classificação dos indivíduos em grupos a partir da quantificação da expressão dos seus genes, lançando a necessidade de reduzir previamente a dimensionalidade dos dados ou de efetuar alterações aos métodos de classificação tradicionais. Esta tese apresenta uma análise comparativa do desempenho de três métodos de classificação aplicados aos dados sem redução (método dos vizinhos mais próximos e duas variantes de análise discriminante linear regularizada), com o de quinze combinações de métodos de análise de componentes principais (decomposição em valores singulares e dois métodos robustos), seguidos de métodos de classificação supervisionada (análise discriminante linear, regressão logística, árvores de classificação, redes neuronais e vizinhos mais próximos). Os diversos métodos foram aplicados a dados de cancro, tendo-se concluído que a estratégia de aplicação de análise de componentes principais seguida de classificação supervisionada é recomendada. As melhores capacidades preditivas foram obtidas através dos métodos de análise discriminante linear e regress˜ao logística aplicados aos dados reduzidos. Nesta tese, propõe-se uma nova abordagem para mostrar que qualquer conjunto de dados com p > n é linearmente separável, demonstrando-se a ocorrência do fenómeno de data piling descrito em Ahn and Marron (2010). Esta abordagem consiste na redução da dimensionalidade dos dados, através da análise de componentes principais, seguida da projecção dos dados reduzidos na direcção do vetor dos coeficientes de um modelo de regressão linear múltipla, ajustado para predizer o grupo a que cada observação pertence, a partir dos seus scores. Esta nova abordagem permitiu identificar diversas propriedades da matriz dos scores, concluir que as projecções das observações de cada grupo são todas iguais (data piling) e determinar a distância entre essas projecções.
Development in microarray technology has resulted in revolutionary changes in biomedical research. Using microarrays, the expression level of thousands of genes can be monitored simultaneously, providing investigators with new ways to gain insight into the complex interaction in living organisms. However, to do so, it is necessary to analyse large and complex data sets, with thousands of genes (p) and small sample sizes (n). In order to draw meaningful information from these data, wide ranges of statistical models, data mining, and pattern recognition tools have been applied and developed. Microarray-based class prediction has become a major topic in many medical fields, particularly in cancer research. The predictive models are built by supervised classification methods, using gene expression measurements of individuals with known class membership. This thesis presents an extensive comparative study of the performance of three classification methods applied to the complete data (nearest neighbors and two variants of regularized linear discriminant analysis) and fifteen combinations of principal components analysis methods (singular values decomposition and two robust methods), followed by supervised classification methods (linear discriminant analysis, logistic regression, classification trees, neural networks and nearest neighbors). This methods were applied to three cancer data sets. Linear discriminant analysis and logistic regression applied to reduced data, presented the best performances. A new approach to prove that every data set with p > n is linearly separable, showing the data piling phenomenon discussed by Ahn and Marron (2010), is proposed. This approach reduces data by principal components analysis and then projects the reduced data onto the multiple linear regression coefficients vector, fitted to predict the class label of an observation, based on its scores. This approach shows some interesting properties of the score matrix, shows that projections take on only two distinct values, one for each class (data piling) and calculates the distance between projections.
Descrição: Tese de doutoramento, Estatística e Investigação Operacional (Probabilidades e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2011
URI: http://hdl.handle.net/10451/3749
Appears in Collections:FC - Teses de Doutoramento

Files in This Item:

File Description SizeFormat
ulsd60836_td_Silvia_Reboucas.pdf3,25 MBAdobe PDFView/Open
Restrict Access. You can request a copy!
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
Promotores do RCAAP   Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência PO Sociedade do Conhecimento (POSC) Portal oficial da União Europeia