Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/13997
Título: Data mining para diferenciação de tintas
Autor: Moreira, Liliana Raquel Correia
Orientador: Falcão, André Osório e Cruz de Azerêdo, 1969-
Palavras-chave: Prospecção de Dados
Medidas de Distância
Aglomeração de Dados
Espectroscopia por Infravermelhos
Trabalhos de projecto de mestrado - 2008
Data de Defesa: 2008
Relatório da Série N.º: di-fcul-tr-08-23
Resumo: A métrica de distância é uma peça fundamental para a análise de dados. Muitas metodologias de análise exigem uma quantificação da medida de proximidade entre dados, a distância, para as tarefas de agregação ou classificação. A métricas de distância tradicionais são adequadas para problemas de dados típicos e quando há uma distinção clara entre as variáveis e os dados propriamente ditos. Por outro lado, a informação de dados sequenciais, como espectros de revestimentos orgânicos, as variáveis estão muitas vezes espacialmente correlacionadas de acordo com a sua posição na sequência. Como tal, as métricas tradicionais por vezes não conseguem comparar adequadamente duas sequências de dados quando estas possuem ligeiras deslocações da mesma informação. Neste projecto é proposta ShiftedPoint, uma métrica de distância que visa conferir maior flexibilidade no que respeita à medição da distância de dados com especificidade variavelmente localizada. O método utiliza uma abordagem em que se utiliza a deslocação de blocos de dados de dimensão fixa, as janelas móveis, e adequadamente penaliza essas deslocações durante as comparações realizadas ao longo da sequência. A distância global entre amostras resulta do somatório de todas as comparações realizadas. Esta métrica foi avaliada pela metodologia de vizinho mais próximo para diferentes tipos de problemas de classificação e foi comprovado o aumento estatístico da sua eficácia, comparativamente à métrica de maior amplitude aplicacional, a Euclideana. ShiftedPoint revelou ser em todos os casos pelo menos tão boa, sendo na sua maioria superior.
A distance metric is a fundamental piece in data analysis. Many methods require distances for clustering or classification. Traditional distance metrics are adequate for typical datasets and problems where there are clear distinctions between variables and data. On the other hand, on sequential information, like organic coating spectra, variables are many times spatially correlated according to their position on the sequence. As such, usual metrics sometimes fail to adequately compare two patterns when these are slightly misaligned. In this paper, we propose ShiftedPoint, a distance metric that aims at conferring more flexibility in measuring the dissimilarities between data samples with locational variable specificity. The method uses a moving window approach and appropriately weights shifts when comparing sequence frames. The distance sum of all frames results in a valid global distance between samples. This metric was evaluated by testing it with a nearest neighbor classification framework for several problems and its effectiveness was proved with an overall increase in all classification statistics. ShiftedPoint proved to be in all cases at least as good as other metrics, and in the majority of cases surpassing it.
Descrição: Trabalho de projecto de mestrado em Engenharia Informática, apresentado à Universidade de Lisboa, através da Faculdade de Ciências, 2008
URI: http://hdl.handle.net/10451/13997
http://repositorio.ul.pt/handle/10455/3081
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
08-23.pdf2,65 MBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.