|
|
Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Teses de Doutoramento >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10451/3749
|
| Title: | Metodologias de classificação supervisionada para análise de dados de microarrays |
| Authors: | Rebouças, Sílvia Maria Dias Pedro, 1978- |
| Advisor: | Sousa, Lisete Maria Ribeiro de, 1972- Parente, Ana Maria Pires |
| Keywords: | Microarray Classificação supervisionada Análise de componentes principais Data piling Teses de doutoramento - 2011 |
| Issue Date: | 2011 |
| Abstract: | Uma das principais características dos dados de microarrays é a sua elevada
dimensionalidade, sendo o número de variáveis (p) muito superior ao número de
observações (n). Esta particularidade suscita problemas na análise destes dados e,
em particular, na classificação dos indivíduos em grupos a partir da quantificação
da expressão dos seus genes, lançando a necessidade de reduzir previamente a
dimensionalidade dos dados ou de efetuar alterações aos métodos de classificação
tradicionais.
Esta tese apresenta uma análise comparativa do desempenho de três métodos
de classificação aplicados aos dados sem redução (método dos vizinhos mais
próximos e duas variantes de análise discriminante linear regularizada), com o
de quinze combinações de métodos de análise de componentes principais (decomposição em valores singulares e dois métodos robustos), seguidos de métodos
de classificação supervisionada (análise discriminante linear, regressão logística,
árvores de classificação, redes neuronais e vizinhos mais próximos).
Os diversos métodos foram aplicados a dados de cancro, tendo-se concluído
que a estratégia de aplicação de análise de componentes principais seguida de
classificação supervisionada é recomendada. As melhores capacidades preditivas
foram obtidas através dos métodos de análise discriminante linear e regress˜ao
logística aplicados aos dados reduzidos.
Nesta tese, propõe-se uma nova abordagem para mostrar que qualquer conjunto
de dados com p > n é linearmente separável, demonstrando-se a ocorrência
do fenómeno de data piling descrito em Ahn and Marron (2010). Esta abordagem
consiste na redução da dimensionalidade dos dados, através da análise de
componentes principais, seguida da projecção dos dados reduzidos na direcção do
vetor dos coeficientes de um modelo de regressão linear múltipla, ajustado para
predizer o grupo a que cada observação pertence, a partir dos seus scores. Esta
nova abordagem permitiu identificar diversas propriedades da matriz dos scores,
concluir que as projecções das observações de cada grupo são todas iguais (data
piling) e determinar a distância entre essas projecções. Development in microarray technology has resulted in revolutionary changes
in biomedical research. Using microarrays, the expression level of thousands of
genes can be monitored simultaneously, providing investigators with new ways to
gain insight into the complex interaction in living organisms. However, to do so,
it is necessary to analyse large and complex data sets, with thousands of genes (p)
and small sample sizes (n). In order to draw meaningful information from these
data, wide ranges of statistical models, data mining, and pattern recognition tools
have been applied and developed.
Microarray-based class prediction has become a major topic in many medical
fields, particularly in cancer research. The predictive models are built by supervised
classification methods, using gene expression measurements of individuals
with known class membership.
This thesis presents an extensive comparative study of the performance of
three classification methods applied to the complete data (nearest neighbors and
two variants of regularized linear discriminant analysis) and fifteen combinations
of principal components analysis methods (singular values decomposition and two
robust methods), followed by supervised classification methods (linear discriminant
analysis, logistic regression, classification trees, neural networks and nearest
neighbors).
This methods were applied to three cancer data sets. Linear discriminant
analysis and logistic regression applied to reduced data, presented the best performances.
A new approach to prove that every data set with p > n is linearly separable,
showing the data piling phenomenon discussed by Ahn and Marron (2010),
is proposed. This approach reduces data by principal components analysis and
then projects the reduced data onto the multiple linear regression coefficients vector,
fitted to predict the class label of an observation, based on its scores. This
approach shows some interesting properties of the score matrix, shows that projections
take on only two distinct values, one for each class (data piling) and calculates
the distance between projections. |
| Description: | Tese de doutoramento, Estatística e Investigação Operacional (Probabilidades e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2011 |
| URI: | http://hdl.handle.net/10451/3749 |
| Appears in Collections: | FC - Teses de Doutoramento
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|