| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 3.92 MB | Adobe PDF |
Orientador(es)
Resumo(s)
In Portugal, the National Statistical Institute (NSI) publishes official quarterly estimates of the labour market for the national territory and for NUTS I and NUTS II regions. NUTS is the nomenclature of territorial units for statistics, communly used by Eurostat, and has three different levels: NUTS I, NUTS II and NUTS III, depending on the disagregated level. The estimation is based on a direct method, using the data from the Labour Force Survey (LFS). However, for NUTS III regions, the sample size of the LFS is not enough to provide accurate estimates using this direct method. This problem is known as the small area estimation problem and it can arise in several disparate areas such as epidemiology, ecology, economics, social sciences, among others. Within the small area estimation (SAE) framework, several methods and models are suggested and they are centered around the basic Fay-Heriot model and its extensions in several directions. However, the assumptions made in these models are very restrictive and do not appear to be suitable in the context of unemployment. In this study we propose three alternative approaches for unemployment estimation in small areas. The first approach is based on generalized linear models (GLM) at areal level, where three different data modelling strategies are considered and compared: modelling of the total unemployed through Poisson, Binomial and Negative Binomial models; modelling of rates using a Beta model; and modelling of the three states of the labour market (employed, unemployed and inactive) by a Multinomial model. The second approach is based on spatial point processes. From the 4th quarter of 2014 onwards, all the sampling units of the LFS are georeferenced, mainly the residential buildings. For that reason, we propose using this new data, together with the information specific to the families to model the intensity of points and the marks associated to those points, through a marked log Gaussian Cox processes model. Here, the points are the residential buildings, whereas the associated marks are the number of unemployed people residing in these buildings. The basic assumption behind this model is that, although we know the geo-referenced positions of the residential units in the labour sample survey, we do not know the spatial configuration of all residnetial units in the population and therefore, we take the sampled residential units as a realization of a spatialpoint process. Recently, the NSI provided us with information about the locations of all residential buildings in the national territory. Consequently, it is no longer necessary to model the points, as all the residential buildings are georeferenced. Thus, the third method we propose is based on a point referenced data model, also described as a geostatistical model. This model assumes that the points in the population are fixed and the interest is to model the spatial variation of the marks. The modelling process is based on a spatial extrapolation of the unemployment figures from the 14000 residential buildings sampled in the LFS to all other known residential units not sampled by the labour survey. A comparison between the mentioned models, the direct method and the traditional small area models, shows that the geostatistical model is the most favorable due to the good behaviour in terms of variability and the detailed information it can provide. We follow a Bayesian approach and the inference is made using the package R-INLA in the software R.
Em Portugal, o Instituto Nacional de Estatística (INE) publica trimestralmente as estimativas oficiais do mercado de trabalho a nível nacional e para as regiões NUTS I e NUTS II. NUTS e a nomenclatura das unidades territoriais usada para fins estatísticos, e engloba três níveis hierárquicos: NUTS I, NUTS II e NUTS III, consoante o nível de desagregação. O processo de estimação baseia-se num método direto, usando os dados do Inquérito ao Emprego (IE). Para as regiões NUTS III, a dimensão da amostra do IE não é suficiente para fornecer estimativas precisas usando o método direto. Este é um problema conhecido na literatura como problema de estimação em pequenos domínios e pode surgir em diferentes áreas tal como epidemiologia, ecologia, economia, ciências sociais, entre outras. Na literatura, têm sido propostos métodos alternativos ao método direto para resolver este problema. O método mais comum é o método Fay-Herriot,um modelo nível área. Contudo, as suposições impostas por este modelo são muito restritivas e não parecem ser adequadas no contexto do desemprego. Neste trabalho propomos três abordagens alternativas para a estimação do desemprego em pequenos domínios. A primeira abordagem baseia-se em modelos de regressão ao nível área, onde são consideradas três estratégias de modelação: modelação do total de desempregados com base em modelos de Poisson, Binomial e Binomial Negativa; modelação taxas usando um modelo Beta; e modelação dos três estados do mercado de trabalho (empregado, desempregado e inativo) usando um modelo Multinomial. A segunda abordagem baseia-se em processos pontuais espaciais. A partir do 4.º trimestre de 2014,todas as unidades amostrais do IE foram georreferenciadas, nomeadamente os edifícios residenciais. Por este motivo, propomos usar esta informação bem como informação específica das famílias para modelar a intensidade dos pontos e as marcas associadas a estes pontos, através de um modelo de Cox log Gaussiano. A suposição básica por detrás deste modelo é que, apesar de as localizações dos edifícios residenciais na amostra do IE serem conhecidas, a configuração espacial de todos os edifícios residenciais na população não é conhecida e, portanto, as unidades residenciais amostrais são tratadas como uma realização do processo pontual espacial. Recentemente, o INE disponibilizou informações sobre as localizações de todos os edifícios residenciais em todo o território nacional. Desta forma, não é necessário modelar os pontos uma vez que agora estes são conhecidos. O terceiro método que propomos baseia-se num modelo de dados referenciados por pontos, ou também conhecido como modelo de geoestatística. Este modelo assume que os pontos na população são fixos e o interesse é a modelação da variação espacial das marcas. Esta modelação é feita com base numa extrapolação espacial do número total de desempregados a partir dos 14000 edifícios residenciais da amostra do IE para todos os edifícios residenciais que não pertencem à amostra. A comparação entre os modelos propostos, o método direto e os modelos de estimação em pequenos domínios (SAE) tradicionais mostra que o modelo de geoestatística é o modelo preferencial dado o comportamento em termos de variabilidade e informação detalhada que este pode fornecer. Neste estudo, seguimos uma abordagem Bayesiana e a inferência foi feita usando o package R-INLA do software R.
Em Portugal, o Instituto Nacional de Estatística (INE) publica trimestralmente as estimativas oficiais do mercado de trabalho a nível nacional e para as regiões NUTS I e NUTS II. NUTS e a nomenclatura das unidades territoriais usada para fins estatísticos, e engloba três níveis hierárquicos: NUTS I, NUTS II e NUTS III, consoante o nível de desagregação. O processo de estimação baseia-se num método direto, usando os dados do Inquérito ao Emprego (IE). Para as regiões NUTS III, a dimensão da amostra do IE não é suficiente para fornecer estimativas precisas usando o método direto. Este é um problema conhecido na literatura como problema de estimação em pequenos domínios e pode surgir em diferentes áreas tal como epidemiologia, ecologia, economia, ciências sociais, entre outras. Na literatura, têm sido propostos métodos alternativos ao método direto para resolver este problema. O método mais comum é o método Fay-Herriot,um modelo nível área. Contudo, as suposições impostas por este modelo são muito restritivas e não parecem ser adequadas no contexto do desemprego. Neste trabalho propomos três abordagens alternativas para a estimação do desemprego em pequenos domínios. A primeira abordagem baseia-se em modelos de regressão ao nível área, onde são consideradas três estratégias de modelação: modelação do total de desempregados com base em modelos de Poisson, Binomial e Binomial Negativa; modelação taxas usando um modelo Beta; e modelação dos três estados do mercado de trabalho (empregado, desempregado e inativo) usando um modelo Multinomial. A segunda abordagem baseia-se em processos pontuais espaciais. A partir do 4.º trimestre de 2014,todas as unidades amostrais do IE foram georreferenciadas, nomeadamente os edifícios residenciais. Por este motivo, propomos usar esta informação bem como informação específica das famílias para modelar a intensidade dos pontos e as marcas associadas a estes pontos, através de um modelo de Cox log Gaussiano. A suposição básica por detrás deste modelo é que, apesar de as localizações dos edifícios residenciais na amostra do IE serem conhecidas, a configuração espacial de todos os edifícios residenciais na população não é conhecida e, portanto, as unidades residenciais amostrais são tratadas como uma realização do processo pontual espacial. Recentemente, o INE disponibilizou informações sobre as localizações de todos os edifícios residenciais em todo o território nacional. Desta forma, não é necessário modelar os pontos uma vez que agora estes são conhecidos. O terceiro método que propomos baseia-se num modelo de dados referenciados por pontos, ou também conhecido como modelo de geoestatística. Este modelo assume que os pontos na população são fixos e o interesse é a modelação da variação espacial das marcas. Esta modelação é feita com base numa extrapolação espacial do número total de desempregados a partir dos 14000 edifícios residenciais da amostra do IE para todos os edifícios residenciais que não pertencem à amostra. A comparação entre os modelos propostos, o método direto e os modelos de estimação em pequenos domínios (SAE) tradicionais mostra que o modelo de geoestatística é o modelo preferencial dado o comportamento em termos de variabilidade e informação detalhada que este pode fornecer. Neste estudo, seguimos uma abordagem Bayesiana e a inferência foi feita usando o package R-INLA do software R.
Descrição
Tese de doutoramento, Estatística e Investigação Operacional (Probabilidade e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2018
Palavras-chave
Teses de doutoramento - 2018
