Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Teses de Doutoramento >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/6641

Título: Semiparametric and nonparametric modeling of diagnostic data
Autor: Inácio, Vanda Calhau Fernandes, 1985-
Orientador: Turkman, Maria Antónia Amaral, 1949-
Palavras-chave: Métodos bayesianos
Prática clínica
Testes de diagnóstico
Teses de doutoramento - 2012
Issue Date: 2012
Resumo: Diagnostic tests play an important role in health care and the statistical evaluation of their accuracy is imperative before they are used in practice. The receiver operating characteristic (ROC) curve is the most widely used measure to evaluate the discriminatory performance of a continuous diagnostic test. In some diagnostic situations, covariate information that affects the test's performance is also available and this additional information should be taken into account when evaluating the accuracy of the test. When there are more than two possible disease status, ROC curves give rise to ROC surfaces. The statistical analysis of diagnostic data has traditionally used parametric methods. Nonparametric and semiparametric approaches are advantegeous because they provide exible and robust inferences. In this thesis we developed nonparametric and semiparametric estimators as well as new methodologies for the evaluation of continuous diagnostic tests. In the first part of this thesis, we developed a exible and robust Bayesian nonparametric approach based on mixtures of finite Polya trees priors to estimate the ROC surface. We thus relaxed the strong distributional assumptions of the existing approaches. In the second part, we proposed a Bayesian nonparametric ROC regression estimator based on dependent Dirichlet processes, which allows for modeling directly the entire conditional distribution in the healthy and diseased populations. This model also easily accomodates multiple predictors, either categorical or continuous. In the third part of the thesis, we have developed ROC regression methodology for the case where the covariate is functional, rather than univariate or multivariate. To this end, semiparametric and nonparametric ROC regression estimators were proposed. A large number of simulations and example analysis illustrate the performance of the proposed estimators.
Os testes de diagnóstico são um instrumento fundamental em medicina e o seu desempenho deve ser avaliado antes de serem utilizados em larga escala na prática clinica. A qualidade ou bom desempenho de um teste de diagnóstico traduz-se na sua capacidade de classificar corretamente os indivíduos em dois grupos clinicamente relevantes (por norma, doentes e saudáveis/não doentes).É admitido que o verdadeiro grupo a que cada indivíduo pertence é conhecido, i.e., é admitido que existe um teste perfeito que classifica corretamente todos os indivíduos doentes como sendo doentes e todos os indivíduos saudáveis como sendo saudáveis. Este teste é vulgarmente designado por padrão áureo (do inglês, gold standard). A curva ROC (do inglês, Receiver Operating Characteristic).é uma ferramenta amplamente utilizada para avaliar o desempenho de testes de diagnóstico que são medidos numa escala ordinal ou contínua. Nesta tese apenas estamos interessados em testes que são medidos numa escala contínua. A área abaixo da curva ROC é a mais popular medida sumária da capacidade discriminação de um teste de diagnóstico. Um teste totalmente incapaz de discriminar indivíduos doentes de não doentes, tem uma área abaixo da curva de 0:5. Por oposição, um teste que classifica corretamente todos os indivíduos tem uma área abaixo da curva de 1. A área abaixo da curva representa a probabilidade de que, escolhidos dois indivíduos aleatoriamente, um doente e outro não doente, o indivíduo doente tenha um resultado no teste de diagnóstico superior ao resultado de teste do indivíduo não doente. A maioria dos testes de diagnóstico tem áreas abaixo da curva entre 0:5 e 1. Em diversas situações de diagnóstico, existe informação adicional disponível sob a forma de covariáveis. Ignorar o efeito das covariáveis conduz a inferências enviesadas, ao passo que estratificar por valor da covariável se revela pouco prático quando a covariável é contínua. Determinar em que subgrupos, i.e., para que valores da covariável, o teste tem um bom desempenho, é crucial e deve ser o primeiro passo a ser dado aquando da avaliação da capacidade de discriminação de um teste. Em diversas situações práticas existem mais do que dois grupos de interesse nos quais queremos classificar os indivíduos, i.e., o padrão áureo ao invés de binário, é ordinal. Neste caso, as curvas ROC dão origem a superfícies ROC. A literatura dedicada à avaliação estatística de dados resultantes de testes de diagnóstico, apesar de extensa, baseia-se essencialmente em modelos paramétricos. Os modelos paramétricos, apesar de conceptualmente intuitivos e úteis, assentam em pressupostos demasiado restritivos para poderem ser aplicados de forma generalizada em situações práticas. É por isso útil considerar alternativas mais flexíveis. Os modelos semiparamétricos e não paramétricos são uma boa alternativa aos modelos paramétricos, sendo mais flexíveis e robustos, e consequentemente, capazes de lidar com um maior espectro de dados. Nesta tese propomos modelos semiparamétricos e não paramétricos assim como novas metodologias para a avaliação de dados de diagnóstico. No Capítulo 2 desta tese debruçamo-nos sobre a superfície ROC, no caso em que existem três grupos de diagnóstico de interesse onde queremos classificar os indivíduos. As abordagens existentes na literatura, ou são demasiado simplistas, baseando-se em distribuições empíricas, ou demasiado restritivas, admitindo que os resultados do teste seguem uma distribuição normal em cada grupo. Neste capítulo propomos um modelo Bayesiano não paramétrico baseado numa mistura finita de árvores de Polya para modelar os resultados do teste de diagnóstico em cada um dos três grupos de interesse. Este modelo é bastante robusto e flexível permitindo lidar de forma eficiente, por exemplo, com distribuições assimétricas e/ou multimodais. Uma característica importante deste estimador é o facto de ser centrado numa distribuição paramétrica, o que permite obter inferências com um `bom grau de precisão quando a assunção paramétrica é verificada. Realçamos que a aplicação de modelos Bayesianos permite realizar de forma imediata inferências não só para a própria superfície ROC, como para qualquer um dos seus funcionais, por exemplo, para o volume abaixo da superfície ROC. No terceiro capítulo desta tese foi proposto um estimador Bayesiano não paramétrico, baseado em processos de Dirichlet dependentes, para a curva ROC na presença de covariáveis. Ignorar as covariáveis pode resultar em inferências enviesadas, enquanto que estratificar por valor da covariável e impossível no caso de covariáveis contínuas. A estratégia de estimação passa por modelar diretamente os resultados de teste como função das covariáveis no grupo dos doentes e no grupo dos não doentes e posteriormente calcular a curva ROC específicaca para cada valor de interesse da covariável. Realçamos que neste contexto, para cada valor de interesse da covariável, obtemos uma curva ROC e uma área abaixo da curva diferentes. Ao contrário dos estimadores já existentes, este estimador não se restringe a covariáveis univariadas. Com efeito, este estimador permite que a covariável seja univariada ou multivariada, categórica ou contínua. O desempenho deste estimador é, em algumas situações, superior ao dos estimadores já existentes. A implementação deste estimador Bayesiano não paramétrico foi feita no software estatístico R e disponibilizada na função LDDProc do pacote DPpackage, que pode ser descarregado de http://cran.r-project.org/web/packages/DPpackage/, estando por isso acessível a toda a comunidade. No Capítulo 4, foi desenvolvida metodologia de regressão para a curva ROC para o caso em que a covariável é funcional, ao invés de univariada ou multivariada. Ao contrário do que é usual, no contexto funcional, os dados não são representados por pontos, mas por funções, sendo por isso a sua natureza mais complexa. Realçamos que analisar dados funcionais com técnicas multivariadas pode conduzir a inferências extremamente enviesadas. Com o objetivo de propôr uma classe versátil de modelos para o caso em que a covariável tem uma estrutura funcional, foram propostos estimadores semiparamétricos e não paramétricos. O estimador semiparamétrico baseia-se num modelo funcional linear homocedástico, enquanto que o estimador não paramétrico é baseado em extensões dos métodos de tipo núcleo para o caso funcional. O estimador semiparamétrico tem melhor desempenho quando o efeito da covariável é linear, enquanto que o estimador não paramétrico é mais robusto e flexível, tendo ainda um bom desempenho, se o efeito da covariável é, de facto, linear. Foi assim proposta uma classe versátil de modelos que permite ao investigador escolher qual a abordagem mais adequada para o seu problema/conjunto de dados. O comportamento dos estimadores e métodos propostos é validado através de múltiplos estudos de simulação. Nos estudos de simulação é também comparado o desempenho dos estimadores propostos com o desempenho dos estimadores já existentes na literatura. Todos os métodos são também ilustrados através da análise de dados reais.
Descrição: Tese de doutoramento, Estatística e Investigação Operacional (Probalilidades e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2012
URI: http://hdl.handle.net/10451/6641
Appears in Collections:FC - Teses de Doutoramento

Files in This Item:

File Description SizeFormat
ulsd063122_td_Vanda_Inacio.pdf8,29 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
Promotores do RCAAP   Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência PO Sociedade do Conhecimento (POSC) Portal oficial da União Europeia