Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/23561
Título: Análise por prospeção de dados de registos eletrónicos de saúde de pacientes com cancro do pulmão
Autor: Silva, Ana Cristina Antunes da
Orientador: Pesquita, Cátia, 1980-
Sousa, Lisete Maria Ribeiro de, 1972-
Palavras-chave: Análise de agrupamentos
Análise de dados espaciais
Cancro
Registos eletrónicos de saúde
Prospeção de dados
Trabalhos de projecto de mestrado - 2016
Data de Defesa: 2016
Resumo: As informações de saúde dos indivíduos ao longo da sua vida, por exemplo a partir das anotações médicas, são registadas em sistemas de bases de dados, dando origem aos registos eletrónicos de saúde. Devido ao crescente interesse pela recolha, registo e armazenamento destes dados, o seu volume atinge atualmente proporções elevadas e é cada vez mais importante e valorizado conseguir usar esta informação como ferramenta para que as entidades de saúde adquiram maior conhecimento acerca das doenças. Hoje em dia utiliza-se frequentemente técnicas de estatística clássicas mas devido ao volume de informação estas técnicas tornam-se insuficientes ou até obsoletas. As técnicas de prospeção de dados vieram colmatar esta insuficiência, através da sua automatização e eficiência computacional. Este estudo tem como objetivo a extração de conhecimento útil a partir dos registos eletrónicos de saúde dos pacientes com cancro do pulmão. Estes pacientes foram diagnosticados no decorrer do primeiro semestre de 2013 e residem na região abrangida pelo Registo Oncológico Regional Sul. Paralelamente ao objetivo principal deste estudo, pretende-se integrar registos eletrónicos de saúde dos pacientes oncológicos com dados relativos a comportamentos de risco individuais e a fatores ambientais, uma vez que diversos estudos referem a existência de uma relação entre esses fatores. Pretende-se, ainda, descobrir padrões da incidência do cancro do pulmão, a nível geográfico, na região sul de Portugal. Em primeiro lugar, aplicaram-se técnicas de estatística descritiva e de inferência estatística para se conhecer a estrutura e as características do conjunto de dados recolhidos. Posteriormente, para estudar padrões de incidência do cancro do pulmão a nível geográfico, aplicaram-se técnicas de autocorrelação e associação espacial. Por fim, aplicaram-se métodos de agrupamento - nomeadamente de agrupamento hierárquico e de particionamento - utilizando como referência as circunstâncias demográficas, características do tumor, comportamentos de risco e fatores ambientais, com vista a encontrar grupos de pacientes com caraterísticas semelhantes entre si. Os algoritmos e métodos de agrupamento explorados foram avaliados por medidas de qualidade por forma a obter o melhor particionamento dos dados. Em cada análise realizada, pretendeu-se construir um modelo descritivo adequado a qualquer conjunto de dados (com características semelhantes ao do conjunto de dados em análise), com o objetivo de, numa forma rápida e automática, encontrar relações e padrões subjacentes ao conjunto de dados que leve à obtenção de conhecimento útil. Relativamente aos resultados finais, verificou-se que a utilização e combinação de diversas técnicas complementares proporcionam uma maior segurança e confiança nos resultados obtidos; os modelos construídos podem ser aplicados a outros conjuntos de dados com características semelhantes, facultando uma análise eficiente de um grande conjunto de dados em curto espaço de tempo. Concluiu-se que os fatores ambientais e a idade média dos pacientes por concelho têm um impacto direto na taxa de incidência do cancro do pulmão e que existem diferenças significativas a nível geográfico que carecem de uma investigação mais profunda. A principal conclusão deste estudo é de que uma análise mais abrangente dos registos eletrónicos de saúde dos pacientes oncológicos pode permite encontrar relações significativas entre alguns fatores presentes no estudo. Foi ainda revelada a importância da abrangência e completude dos dados para o sucesso deste tipo de investigação. Estes resultados poderão abrir portas a novas linhas de estudo e ao estabelecimento de objetivos mais concretos em futuras investigações.
During their lifetime, people’s health information (such as notes of medical records) is stored in database systems, yielding electronic health records. Currently the volume of such data reaches very high proportions due to the growing interest in collecting, recording and storing them. Therefore, the ability to use these data as a tool has a greater importance for the health authority to acquire new knowledge of numerous diseases. Traditional statistical techniques are still commonly used today. However, due to the large volume of data, these techniques end up being insufficient or even obsolete. Data Mining has filled that gap because it presents technical features such as automation and computational efficiency. The goal of this research is to extract knowledge from the electronic health records of lung cancer patients using mainly data mining techniques. These patients were diagnosed during the first semester of 2013 and reside in the area covered by the Registo Oncológico Regional Sul. Another purpose of this research is integrating the health information of cancer patients with data concerning individual risk behaviors and environmental factors because there are several studies reported the existence of a relationship between the above criteria. Finally, we intended to conduct a geographical analysis of lung cancer incidence in southern Portugal, in order to find patterns of incidence geographically. In this study, first we applied techniques of descriptive statistics and statistical inference to know the structure and the characteristics of dataset collected. The next step, in order to study the incidence of geographically lung cancer, was to apply autocorrelation and spatial association techniques. Then, we applied clustering methods, including hierarchical clustering methods and partitioning, in order to find groups of patients with similar characteristics to each other, using as reference the demographic features, tumor characteristics, risk behaviors and environmental factors. It is intended associating quality measures in addition to the same algorithms and clustering methods in order to explore and try different strategies to achieve better results. In both analyzes intended to build an adequate descriptive model for any dataset, in which the goal is to find hidden patterns and relationships in the dataset that leads to obtaining useful information, a process that is both fast and automated. The results suggest that the use and combine several complementary techniques provide a better quality for research and also greater confidence in conclusions. Another contribution from this work are the constructed models that can be applied to other datasets with similar characteristics and can provide an efficient analysis of a large dataset in real time. It was also found that environmental factors and the average age of a certain county patients have a direct impact on the incidence rate of lung cancer. At last, significant differences geographically were found, which need more research in the near future. The main conclusion is that the application of this type of methods allows us to draw a more comprehensive analysis of the electronic health records of cancer patients, which can support the finding of some significant relationships between certain factors considered in the study. Moreover, the importance of a broad scope and completeness of data was identified. These results could open doors to new lines of research and the establishment of more concrete goals in studies to be undertaken in the future.
Descrição: Trabalho de projecto de mestrado, Gestão de Informação (Gestão e Análise de Dados) Universidade de Lisboa, Faculdade de Ciências, 2016
URI: http://hdl.handle.net/10451/23561
Designação: Trabalho de projecto de mestrado em Gestão de Informação (Gestão e Análise de Dados)
Aparece nas colecções:FC-DI - Master Thesis (projects)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc118232_tm_Ana_Cristina_Silva.pdf3,48 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.