Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/9966
Título: A tool for ontology instance matching
Autor: Lopes, André Filipe Agostinho
Orientador: Couto, Francisco José Moreira
Silva, Mário J. Gaspar da, 1961-
Palavras-chave: Web semântica
Ontologias
Emparelhamento de ontologias
Emparelhamento de exemplares
Emparelhamento de cadeia de caracteres
Aprendizagem automática
Data de Defesa: 2013
Resumo: A Web Semântica pretende fornecer formatos comuns para caracterizar semanticamente os dados publicados na Web, melhorando a interoperabilidade e integração de dados. A iniciativa Linked Data visa ligar dados relacionados que não foram previamente ligados. As ontologias têm um papel fundamental nisso, pois, fornecem vocabulários controlados, para caracterizar semanticamente os dados de uma forma inequívoca. Conforme definido por Gruber, uma ontologia é uma especificação de uma conceituação, que se destina a modelar um domínio em particular. A especificação de uma ontologia é composto por dois tipos de declarações: TBox (classes) e ABox (exemplares). TBox são classes que são interpretadas como um conjunto de indivíduos no domínio; ABox são exemplares que são interpretados como indivíduos particulares de um domínio. Al´em disso, uma ontologia também é composta por: Relacionamentos ou relações entre classes e/ou exemplares; Tipos de dados são partes particulares do domínio que especificam valores; Valores de dados são valores simples. Apesar de uma ontologia se destinar a modelar um domínio em particular, existem muitas ontologias de diferentes fontes a modelar o mesmo domínio, isto é, existe um problema de sobreposição. O problema de sobreposição consiste em ontologias distintas que representam as mesmas entidades de uma forma diferente. É, portanto, necessário criar processos capazes de encontrar as sobreposições e fundi-las. Emparelhamento de ontologias é geralmente aplicado para alinhar duas TBox de duas ontologias diferentes, ou seja, para encontrar relações ou correspondências entre as classes ontológicas. Há um caso particular de emparelhamento de ontologias, o Emparelhamento de Exemplares. O objetivo do emparelhamento de exemplares é alinhar dois ABox de duas ontologias diferentes, ou seja, encontrar as correspondências entre exemplares de diferentes ontologias. O Emparelhamento de Exemplares adota o princípio de que, quanto maior for a semelhança entre duas descriçõees de exemplares de duas ontologias distintas, maior é a probabilidade de estes exemplares representarem a mesma entidade de um determinado domínio. Por exemplo, no domínio político, vamos considerar o actual Presidente da Comissão Europeia, Durão Barroso e assumir que na Ontologia 1 tem um exemplar com o descritor: “José Manuel Durão Barroso”, e Ontologia 2 tem um exemplar com o descritor: “José Durão Barroso”. Portanto, é necessário implementar técnicas de emparelhamento de exemplares, para descobrir se estes dois exemplares destas duas ontologias diferentes correspondem à mesma pessoa/entidade, isto é, se eles emparelham. Os objectivos desta dissertação eram: Desenvolvimento de algoritmos de emparelhamento de exemplares que visou o desenvolvimento de algoritmos para o emparelhamento de ontologias ao nível dos seus exemplares, de forma a resolver problemas de emparelhamento de exemplares. O desenvolvimento de algoritmos foi baseado em técnicas de emparelhamento de exemplares já propostas por outros; Alinhamento de exemplares do mundo real Que visou a aplicação dos algoritmos desenvolvidos, para gerar emparelhamentos de alta qualidade em exemplares do mundo real, e avaliar a sua qualidade em termos de Precisão, Sensibilidade, Medida-F, Exatidão e Exatidão Unilateral; Desenvolvimento de um emparelhador de exemplares Web Que visou o desenvolvimento de uma ferramenta capaz de realizar emparelhamento de exemplares através da Web, incorporando os algoritmos desenvolvidos por mim. Os resultados alcançados por esta dissertação foram a produção de alinhamentos de exemplares, entre as ontologias POWER-DBpediaPT, POWER-Verbetes e POWERPOWER. Estas três ontologias contêm exemplares que representam entidades políticas. E também entre as ontologias provenientes do OAEI 2012. O OAEI (Ontology Alignment Evaluation Initiative), é um concurso internacional, realizado todos os anos, que entre vários tipos de competições, tem uma dedicada à avaliação de ferramentas e de técnicas de emparelhamento de exemplares. Para avaliar a qualidade dos alinhamentos produzidos foram implementadas as seguintes métricas: Precisão; Sensibilidade; Medida-F; Exatidão; e Exatidão Unilateral. Esta dissertação também produziu um emparelhador de exemplares disponível através da Web, que implementa as métricas mencionadas para avaliar os alinhamentos produzidos por ele. POWER (Politics Ontology for Web Entity Retrieval) é uma ontologia que modela o domínio da política portuguesa, que foi desenvolvida e fornecida pela grupo REACTION. Os seus exemplares foram alinhados com os das ontologias DBpediaPT e Verbetes. A DBpediaPT é uma ontologia que contém exemplares que representam entidades da DBpedia versão 3.8. Cada entidade é referida na versão Portuguesa da Wikipédia. Esta ontologia foi construída a partir de uma lista, fornecida pelo grupo REACTION. Verbetes é uma ontologia, cujos os exemplares representam entidades que têm pelo menos cinco ocorrências nas notícias agregadas pelo serviço SAPO Verbetes. Para avaliar o alinhamento POWER-DBpediaPT foi usada a métrica Exatidão Unilateral. Usando o algoritmo de emparelhamento FirstLastNamePlusJaccard, alcançou-se 97.29% de Exatidão Unilateral para o POWER, e 87.25% de Exatidão Unilateral para o DBpediaPT. Usando o algoritmo de emparelhamento Stratified 10-fold Cross-Validation, alcançou-se 99.11% de Exatidão Unilateral para o POWER, e 95.97% de Exatidão Unilateral para o DBpediaPT. Estes foram os melhores resultados conseguidos para este alinhamento. No caso do alinhamento POWER-Verbetes não foram calculadas métricas mas, fez-se uma avaliação manual pela minha parte e pela parte do grupo REACTION, e foi positiva. Além disso, porque o POWER contém exemplares duplicados, ou seja, dois ou mais exemplares a representarem a mesma entidade, foi efectuado o alinhamento POWER-POWER de forma a encontrar os exemplares duplicados. No caso do POWER, estas situações não podiam acontecer. O alinhamento foi entregue ao grupo REACTION, para eles poderem melhorar a sua ontologia. Estes dois alinhamentos, POWER-Verbetes e POWER-POWER, foram realizados pelo algoritmo de emparelhamento MachineLearning. Foram também realizados alinhamentos de exemplares entre as ontologias fornecidas pelo OAEI 2012. Estas ontologias encontram-se divididas em dois grupos: o Sandbox que contém onze ontologias; e o IIMB que contém oitenta ontologias. Os alinhamentos produzidos foram realizados dentro de cada grupo. Neste caso, os algoritmos de emparelhamento utilizados foram FirstLastNamePlusJaccard e o Stratified 10-fold Cross- Validation. Na maioria dos alinhamentos produzidos a Medida-F foi maior no segundo algoritmo do que no primeiro. Todas as ontologias cujos exemplares foram alinhados, e os seus respectivos alinhamentos e métricas, estão disponíveis através da ligação: http://lasige.di.fc.ul.pt/webtools/instancematcher/dissertation_work.zip. O emparelhador de exemplares Web, foi outra realização desta dissertação, e está disponível através da ligação: http://lasige.di.fc.ul.pt/webtools/instancematcher/. Este disponibiliza aos utilizadores dois algoritmos de emparelhamento: o FirstLastNamePlusJaccard; e o MachineLearning. Além disso, também permite que o utilizador escolha que tipo de alinhamentos quer. Um-para-um (em Inglês: one-to-one) ou muitos-para-muitos (em Inglês: many-to-many). No primeiro caso, cada exemplar só pode estar presente uma vez no alinhamento, isto é, não pode haver mais do que um emparelhamento por exemplar; no segundo caso, cada exemplar pode estar presente várias vezes no alinhamento, ou seja, pode haver mais do que um emparelhamento por exemplar. Os alinhamentos POWER-DBpediaPT e POWER-Verbetes foram um-para-um. E os alinhamentos OAEI 2012 e POWER-POWER foram muitos-para-muitos. Há ainda a opção Limiar (em Inglês: Threshold) que permite ao utilizador indicar qual é o valor mínimo dos alinhamentos devolvidos pelo emparelhador de exemplares Web. Em cada alinhamento de exemplares é atribuído um valor [0,1] pelos algoritmos de emparelhamento, que determina o grau de confiabilidade/certeza do alinhamento estabelecido. No alinhamento também se podem encontrar exemplares que emparelham para nada, ou seja, para NULL. Estes, são os exemplares para os quais o algoritmo de emparelhamento escolhido, não encontrou nenhum exemplar correspondente. Para que o emparelhador de exemplares Web devolva métricas que atestem a qualidade do alinhamento produzido, o utilizador tem que introduzir o alinhamento de referência (em Inglês: Reference Alignment). Este é um documento, que se assume, que contenha todos os emparelhamentos correctos entre os exemplares de duas ontologias. As métricas são calculadas aquando da comparação do alinhamento produzido com o alinhamento de referência. Existem ainda as opções POWER 2010 e OAEI 2012, que permitem indicar ao emparelhador de exemplares Web, que os exemplares a emparelhar são do POWER e do OAEI 2012. É também necessário que o utilizador insira os identificadores dos descritores dos exemplares, para que o emparelhador obtenha a informação necessária para poder efectuar os alinhamentos. Cada identificador tem que começar pelo prefixo http.
An ontology is an object-based conceptualization of some particular domain. An ontology provides a shared controlled vocabulary to semantically characterize the data of the modelled domain. But it often happens that independently created ontologies model the same domain in different ways. This constitutes a problem because there may be entities being represented differently, therefore creating ambiguity and interoperability problems when linking related data characterized by two ontologies. So it is necessary to develop processes capable of matching the data. The matching can be made at the class level or at the instance level. The goal of the instance matching is to find the correspondences between instances from different ontologies, called instance alignments. The objective of this dissertation was the development of instance matching algorithms for generating instance alignments of real world instances. And the creation of an instance matcher Web tool, where the algorithms developed by me were incorporated. The outcome of this dissertation was the generation of instance alignments between POWER-DBpediaPT, POWER-Verbetes and POWER-POWER. All these three ontologies have instances representing political entities. Furthermore, it was generated instance alignments between ontologies from the OAEI 2012. OAEI (Ontology Alignment Evaluation Initiative), is an international contest, that has a track focus on evaluation of instance matching tools and techniques. To assess the quality of the instance alignments produced, it was implemented the metrics of Precision, Recall, F-measure, Accuracy and Unilateral Accuracy. Another outcome of this dissertation is the instance matcher tool, available through the Web. The tool implements two instance matchers. The FirstLastNamePlusJaccard which is based on element-level matching techniques, that uses the descriptors of the instances to correspond them. And the MachineLearning matcher that uses machine learning approaches to find those correspondences. This Web tool also assesses the instance alignments that it produces, because it implements the already mentioned metrics.
Descrição: Tese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
URI: http://hdl.handle.net/10451/9966
Aparece nas colecções:FC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc105759_tm_André_Lopes.pdf1,84 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.