Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/20153
Título: RESIST: an intelligent system to predict antibiotic resistance
Autor: Nascimento, João Miguel Campos do
Orientador: Pesquita, Cátia, 1980-
Palavras-chave: Aprendizagem supervisionada
Aprendizagem automática sobre dados clínicos
Previsão de resistência a antibióticos
Prospecção de dados
Registos de saúde eletrónicos
Teses de mestrado - 2015
Data de Defesa: 2015
Resumo: Os recentes avanços na tecnologia e poder computacional e o cada vez mais frequente uso de registos de saúde eletrónicos abriram as portas a novas pesquisas que exploram a informação destes registos para melhorar os cuidados médicos, nomeadamente nos diagnósticos e nas prescrições terapêuticas. Uma das maiores preocupações em termos de saúdes pública é a resistência a antibióticos. Este fenómeno ocorre quando algumas das subpopulações de um microrganismo sobrevivem após serem expostas a antibióticos, tornando-se mais difíceis de controlar. É, portanto, essencial utilizar antibióticos de uma forma mais eficaz. A Organização Mundial de Saúde já declarou publicamente que, a não ser que se consiga reduzir o rápido crescimento da resistência a antibióticos a que tem assistido, estamos a caminhar para uma era pós-antibióticos, onde a taxa de mortalidade por infeções comuns vai disparar devido à falha expectável de tratamentos médicos habituais. Hoje em dia, o antibiótico mais adequado apenas pode ser descoberto após os resultados dos testes dos laboratórios de análise serem conhecidos, então a maioria dos médicos fazem prescrições com base na sua experiência. No entanto, ao analisar um grande volume de dados clínicos, é possível que o pessoal clínico descubra informações mais relevantes que podem ajudá-los nas suas decisões. A equipe médica deve ter mais informações aquando da tomada de decisões. A análise computacional dos registos de saúde electrónicos representa uma oportunidade para combater a tendência crescente de resistência aos antibióticos, pois a nova informação descoberta pode auxiliar os médicos na tomada de melhores diagnósticos e prescrições. Isso poderia aumentar a qualidade da assistência médica, reduzindo não só a mortalidade e morbidade, mas também os custos. O objetivo deste projeto foi investigar se era possível desenvolver modelos de aprendizagem supervisionadas que fossem capazes de classificar os pacientes consoante o risco de resistência a antibióticos utilizando as informações que são geralmente recolhidas a nível clínico e laboratorial em termos de resistência aos antibióticos. O conjunto de dados que apoiaram este projecto foi gentilmente partilhado através de uma colaboração com o Laboratório de BIOFIG na FCUL, e representa dados reportados por vários hospitais portugueses em matéria de resistência aos antibióticos durante um período de 11 anos. Duas tarefas foram realizadas para cumprir os objectivos: pré-processamento dos dados e aprendizagem supervisionada. No pré-processamento dos dados foram usadas técnicas de limpeza, de estandardização e de transformação de dados, de modo a tornar os dados o mais consistente possível para que pudessem depois seguir para a aprendizagem supervisionada. Aqui foram aplicados métodos de aprendizagem automática sobre os dados para treinar um modelo capaz de prever a resistência aos antibióticos ao nível do paciente, com base em parâmetros demográficos, clínicos e laboratoriais. Numa primeira fase, a classificação de cada paciente como resistente ou não resistente a cada antibiótico foi realizada individualmente. Nela foram testados diversos algoritmos, como Decision Tables (DT), Random Forests (RF), Multilayer Perceptron (MP) e Support Vector Machines (SVM), sempre com validação cruzada com 10 subconjuntos. Foram ainda feitos testes com os filtros SMOTE a 200% e 500% e Spread Subsample com um rácio 1:1. Os resultados não foram satisfatórios, portanto os testes foram repetidos após se fazer uma avaliação sobre ganho de informação dos atributos, de modo se testar apenas sobre os atributos mais relevantes. No entanto, os resultados pouco melhoraram. Foi então compreendido que a formulação inicial do problema (uma classe para cada antibiótico) era provavelmente inadequada. Assim sendo, problema de classificação foi reformulado, desta feita seguindo para uma abordagem de classificação por perfil de resistência dos pacientes. Técnicas de agrupamento foram aplicadas sobre os dados para identificar perfis de resistência, ou seja, pacientes que apresentaram resistência ao mesmo conjunto de antibióticos. Após isso, uma estratégia de classificação de dois níveis foi concebida de forma a classificar os pacientes de acordo com o seu perfil de resistência. Para o primeira nível, a classificação filtrada, uma estratégia de classificação duas classes foi utilizada, em que todas as instâncias pertencentes a grupos de perfis resistentes foram agrupados numa única classe, enquanto que os restantes doentes sem qualquer resistência foram agrupados noutra classe distinta. A classificação filtrada foi sempre realizada com um filtro SMOTE com a percentagem a 500% e os algoritmos de classificação foram testados Decision Tables e Random Forests, com uma validação cruzada com 10 subconjuntos. Seguidamente, no segundo nível, as instâncias que foram classificadas como resistentes foram novamente separadas consoante os resultados da técnica de agrupamento anteriormente utilizada, classificadas via classificação multi-classe, para que o conjunto de dados multi-classe pudesse ser tratado por classificadores de 2 classes. Os algoritmos de classificação utilizados foram os mesmos que para o primeiro nível, apenas sem filtro, e os métodos utilizados para transformar o problema multi-classe em vários de 2 classes foram 1-contra-todos e 1-contra-1. Notou-se uma melhoria geral nos resultados, mas ainda com um desempenho bastante reduzido na maioria dos perfis. Outras duas abordagens foram feitas usando esta estratégia de classificação de dois níveis. Uma baseada numa classificação direta de instâncias em perfis de resistência, corrigindo algumas das atribuições erradas dos agrupamentos feitas pelo algoritmo de agrupamento, tendo as instâncias que foram erradamente colocadas num agrupamento sido realocadas. A outra, para além do reajustamento que acabou de ser explicado, continha ainda o número de instâncias pertencentes a cada agrupamento por mês. Novamente, apesar de terem sido notadas melhoras gerais, não eram suficientemente satisfatórias. Foram ainda realizadas previsões futuras sobre a evolução futura do número de pacientes resistentes por perfil de resistência recorrendo a séries temporais. Apesar dos resultados da classificação por perfil de resistência terem um baixo desempenho no geral, tiveram algum sucesso com o perfil onde os pacientes eram resistentes a Tetramicina e Cloranfenicol. Dadas as várias falhas detectadas a nível da qualidade dos dados (dados em falta, heterogeneidade de nomeações e categorias, número reduzido de pacientes resistentes para alguns antibióticos) é expectável que o desempenho para outros perfis possa aumentar, utilizando um conjunto de dados com maior qualidade e representatividade. Este projecto realçou dois aspectos importantes: a qualidade e representatividade dos dados recolhidos, pois após terem sido testadas várias abordagens diferentes e os resultados correspondentes analisados, foi determinado que a informação reportada não tinha a capacidade preditiva apropriada, pelo que não foi possível desenvolver o modelo anteriormente descrito; e a compreensão dos dados e do seu domínio, verificado quando se demonstrou que a classificação por perfil de resistência obteve melhores resultados que a classificação por antibiótico. Uma vez que os dados recolhidos cobrem um período de até há 10 anos, é expectável que com as recentes evoluções nos sistemas de informação de saúde empregues por hospitais portugueses, uma recolha de dados mais recentes iria fornecer dados de melhor qualidade. Seria assim interessante aplicar a estratégia proposta sobre dados mais recentes, e testar estes iriam de facto melhorar o desempenho da classificação.
The recent advances in technology and computation power and the expanding use of electronic health records have opened new avenues of research that explore the information in these records to improve healthcare, namely in diagnosis and therapeutic prescriptions. One increasingly relevant public health concern is antibiotic resistance. The World Health Organization has already stated that unless the antibiotic resistance's growing trend is reduced, we are heading towards a post-antibiotic era, where the death rate of common infection will rise due to the expected failure of standard medical treatments. The ability to successfully predict antibiotic resistance risk can have a significant impact worldwide, because it can help clinicians in selecting appropriate antibiotics. This can help reduce antibiotic resistance levels, improve patient treatment, and ultimately decrease healthcare costs. This project's goal is to investigate if it is possible to develop supervised learning models that are able to classify patients regarding their antibiotic resistance risk using the information that has been usually collected at a clinical and laboratorial level and reported by Portuguese hospitals. This was accomplished by taking electronic health records data, pre-processing it using data cleaning, standardization and transformation techniques, and then applying machine learning methods to it to train a model capable of predicting antibiotic resistance at the patient level. The most successful classification strategy was based on a two-stage multi-class approach, where patients were classified into resistance profiles previously obtained using clustering techniques. Nevertheless, performance was still very low for most resistance profiles, no doubt influenced by the several issues in data quality detected. An improved collection of data, with fewer errors and other variables reported would likely have a great impact in performance.
Descrição: Tese de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015
URI: http://hdl.handle.net/10451/20153
Designação: Mestrado em Engenharia Informática (Sistemas de Informação)
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc115780_tm_João_Nascimento.pdf1,06 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.