DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr inż. Adama Łuszpaja |
ZDECENTRALIZOWANA INFRASTRUKTURA DO INTEGRACJI WIEDZY W SEMANTIC WEB |
Dyskusja odbędzie się 19 września 2019 roku o godz. 12:00 w sali 2.41 Pawilon D-17, ul. Kawiory 21, 30-059 Kraków |
PROMOTOR: Prof. dr hab. inż. Grzegorz Dobrowolski, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie |
RECENZENCI: Prof. dr hab. inż. Ngoc Thanh Nguyen, Politechnika Wrocławska |
Prof. dr hab. inż. Krzysztof Zieliński, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH w Krakowie, Al. Mickiewicza 30 |
mgr inż. Adam Łuszpaj
Promotor: prof. dr hab. inż. Grzegorz Dobrowolski (AGH)
Dyscyplina: Informatyka
STRESZCZENIE
Sieć Web zrewolucjonizowała dostęp do wiedzy. Semantic Web niesie ze sobą nowy paradygmat dostępu, jakim jest automatyczne przetwarzanie danych w sieci globalnej przez aplikacje rozumiejące ich znaczenie. Nowe metody reprezentacji i manipulowania wiedzą, takie jak RDF, OWL czy SPARQL przekształcają sieć dokumentów w sieć zasobów, dostarczając zunifikowanego modelu danych i formalizmów wyrażania semantyki. Modele dostępu do danych, w tym gromadzenie danych RDF w centralnych repozytoriach, nawigowanie w sieci Linked Data, wyszukiwarki semantyczne czy systemy federacyjne, napotykają na dwie przeszkody. Pierwsza z nich, nazwana barierą architektoniczną, dotyczy problemu lokalizacji źródeł i transparentnego pozyskiwania wiedzy; druga, nazwana semantyczną, związana jest z zagadnieniami różnorodności i niedopasowania ontologii.
W ramach rozprawy sformułowane zostało zadanie pozyskiwania wiedzy, wobec którego kierowanych jest 6 postulatów efektywności. Zadanie polega na rozproszonym wykonaniu zapytania SPARQL opartego na ontologiach, w którym zakłada się identyfikację źródeł wiedzy w oparciu o elementy terminologiczne zapytania. Treścią rozprawy jest propozycja zdecentralizowanej infrastruktury ActiveDiscovery, która wspiera realizację zadania pozyskiwania w zgodzie z postulatami efektywności, stanowiąc architekturę dostępu konceptualnie mierzącą się z obiema barierami.
Tytułowa integracja wiedzy dotyczy z jednej strony agregacji danych współdzielonych pomiędzy różnymi źródłami, z drugiej, odwzorowań pomiędzy ontologiami. Zadanie efektywnego pozyskiwania wiedzy w oparciu o ActiveDiscovery spełnia warunek transparentności dostępu i aktywności sieci, ponieważ nie wymaga adresowania zapytania oraz maksymalizuje zbiór wyników poprzez integrację terminologiczną. Infrastruktura konstrukcyjnie nawiązuje do rozwiązań federacyjnych SPARQL oraz do internetowego systemu nazw domenowych.
Zaproponowano indeks źródeł wiedzy instancyjnej (ABox) oraz indeks odwzorowań wiedzy terminologicznej (TBox) w architekturze rozproszonych węzłów, które osiągalne są poprzez wprowadzone rozszerzenia adnotacyjne dla ontologii OWL w Semantic Web. Niezaadresowane zapytanie źródłowe typu ABox przetwarzane jest przez węzeł mediatora, którego zadaniem jest ekstrakcja predykatów występujących w zapytaniu, zlokalizowanie źródeł wiedzy oraz translacja i optymalizacja zapytania z użyciem informacji kontekstowych, a następnie wykonanie docelowego zapytania federacyjnego wobec zlokalizowanych punktów dostępowych SPARQL.
Wykonano prototypową implementację opracowanych węzłów infrastruktury, rozszerzeń adnotacyjnych, protokołu interakcji mediatora z pozostałymi węzłami i algorytmu translacji zapytania oraz przeprowadzono ewaluację, której wyniki wskazują na wartość dodaną i skalowalność zaproponowanej infrastruktury.
ABSTRACT
The Web has deeply changed the way we acquire knowledge. The Semantic Web brings a new paradigm of machine-processable knowledge on a global scale by intelligent, semantics-aware applications. New methods of knowledge representation and manipulation, such as RDF, OWL and SPARQL, transform a document-centric medium into resource-oriented space by providing a uniform data model and means to express data semantics. The proposed knowledge access approaches, namely collecting data in central repositories, navigating in Linked Data, semantic indexing searchers or federated systems, face two general impediments. The first, called an architectural barrier, regards the problem of knowledge discovery and transparency of knowledge sources access; the second, called a semantic barrier, is related to the question of semantic heterogeneity.
The dissertation discusses the problem of knowledge acquisition required to satisfy 6 conditions of effectiveness. The problem refers to the distributed execution of an ontology-based SPARQL query in which knowledge sources are dynamically detected, based on the query’s terminological boxes. The contribution of the dissertation is a proposal of a decentralized infrastructure named ActiveDiscovery, designed to support a solution to the problem of knowledge acquisition in compliance with the effectiveness conditions, consitituting an architectural pattern which attempts to overcome both access barriers.
The knowledge integration concerns aggregation of data shared among disparate sources and ontology matching. The problem of effective knowledge acquisition in ActiveDiscovery meets the requirement of transparent access and network proactivity thanks to non-addressing query handling and extends query resultset through cross-ontology TBox mappings. The proposed infrastructure is conceptually related to federated SPARQL architectures and worldwide Domain Name System.
An index of assertional (ABox) knowledge sources as well as an index of terminological (TBox) knowledge mappings have been proposed within an architecture of distributed nodes. Index nodes accessibility throughout the network is enabled by annotation extensions introduced in OWL ontologies. A non-addressing ABox source query is processed by the mediator node which is responsible for an extraction of TBoxes from the query, discovery of relevant knowledge sources, translation and optimization of the query based on context meta-data and finally an execution of the target query against federated SPARQL endpoints.
A proof-of-concept implementation has been carried out regarding the previously designed node applications, annotation extensions, interaction protocol between mediator node and other parties as well as an algorithm for query translation. Finally, an evaluation has been performed, revealing value added and scalability of the proposed infrastructure.
Recenzje rozprawy
Prof. dr hab. inż. Ngoc Thanh Nguyen (PW)
Prof. dr hab. inż. Krzysztof Zieliński (AGH)
Ważniejsze publikacje doktoranta: