3.1 Resource Descriptor Framework (RDF)
Resource Descriptor Framework (RDF)1 poskytuje mechanismus pro explicitní, formalizované a standardizované vyjádření sémantických informací (Čerba 2011). RDF bylo původně vytvořené v roce 1999 jako standard založený na bázi XML pro zápis metadat – dat o datech (Tauberer, 2008).Základním principem formátu RDF je popis jevů a objektů (zdrojů) pomocí takzvaných trojic (triples). Ty se skládají ze subjektu (podle terminologie užívané v ontologiích jde o třídy nebo individuály), predikátu (vlastnost, která představuje binární relaci mezi oběma zbylými prvky) a objektu (třída, individuál, datový typ, hodnota)2. Taková trojice víceméně odpovídá struktuře přirozeného jazyka, kdy jednoduchá věta zpravidla obsahuje také tři základní prvky – podmět, přísudek a předmět (případně přívlastek nebo příslovečné určení). Převedeme-li strukturu trojice do oblasti větné stavby a přirozeného jazyka, pak bývá na místě subjektu zpravidla substantivum (podmět věty), predikát je reprezentován slovesem (verbum, přísudek ve větné stavbě) a objekt má nejčastěji formu substantiva nebo adjektiva (předmětu věty nebo další fakultativní větné členy). Propojením prvků v RDF vzniká grafová struktura, jejíž hrany tvoří predikáty a uzly subjekty a objekty (podle Bergman 2009).
Pro jednotlivé části trojice mohou být používány jednoznačné identifikátory ve formě Uniform Resource Identifier (URI)3, který představuje běžný mechanismus v prostředí internetu, a navíc našel své nezastupitelné místo i v přístupu Linked Data, který využívá i RDF.
Informaci „Flachau leží v Rakousku“ můžeme rozdělit následujícím způsobem:
- Subjekt: Flachau
- Predikát: leží v
- Objekt: Rakousko
<rdf:description rdf:about="Flachau">
<lezi_v>Rakousko</lezi_v>
</rdf:description>
V předchozí větě je výraz „může být reprezentován“ použit zcela záměrně. Nemá poukázat na vágnost RDF standardu, ale na to, že pro RDF data existuje několik rovnocenných syntaxí (například RDF/XML, Turtle, N-Triples, N3 a další) a dalších způsobů kódování (například pomocí atributů nebo elementů v XML dokumentu4). Hlavním důvodem pro více způsobů syntaxe je různý způsob využívání RDF dokumentů. V některých případech je důležitá kompatibilita s XML (na úkor větší velikosti souboru), jindy spolupráce s konkrétním softwarovým produktem pracujícím pouze s jedním formátem nebo je důležitá velikost souboru kvůli rychlosti přenosu.
Postupem času se ukázalo, že svoboda, kterou RDF nabízí svým uživatelům (například libovolné pojmenování predikátů), je spíše kontraproduktivní, protože v mnoha případech omezuje hlavní účel RDF - sdílení dat a informací. Uživatel mohl prvky v trojici nazvat libovolným způsobem, a tím docházelo ke zhoršování interoperability.
Proto došlo k zavedení dalších standardů, které mají některé typy vazeb předdefinované. Příkladem může být RDF Schema (RDFS)5. RDFS má standardizované některé běžné vlastnosti a třídy (rdfs:subClassOf, rdfs:range, rdfs:domain, rdfs:Class, rdfs:Datatype a další). RDFS tedy představuje nadstavbu RDF, která umožňuje standardizovaným způsobem definovat například hierarchie prvků nebo obor hodnot a definiční obor vlastností.
RDF a RDFS představují velice užitečné nástroje pro popis dat a informací. Mají ovšem také určité nedostatky, jako chybějí vyjádření kardinality nebo detailní specifikace typů vlastností. Proto byla vytvořena jejich další nadstavba, která využívá principu trojic a předdefinovaných vlastností z RDFS, ale nabízí širší možnosti například v oblastech deskripční logiky. Touto nadstavbou jsou ontologické jazyky, především OWL, které jsou podrobněji popsány v kapitole 3.6.
Bergman ve svých článcích z let 2009 a 2013 uvádí několik předností formátu RDF:
- Standard RDF je spravován silnou a respektovanou organizací
W3C.
- RDF je provázán s dalšími nástroji, které zvyšují
jeho vyjadřovací schopnosti (například SPARQL, GRDDL6
nebo RIF7).
- RDF může být používáno společně s dalšími formáty
založenými na XML. Díky tomu RDF může být validováno pomocí
automatických nástrojů (validátorů).
- Struktura trojic (triples) je jednoduchá a snadno
pochopitelná. Na druhou stranu pro zpracování trojic (například
vyhledání) je možné využít existující sofistikované grafové
algoritmy vyvinuté matematiky nebo kybernetiky.
- Grafová reprezentace je srozumitelnější než tabulky (v
mnoha případech)8.
- Existuje velké množství softwarových produktů, které
transformují standardní datové formáty do RDF.9
- RDF je schopné popsat
nejen plochá data (například tabulky), ale i komplikované
struktury jako například multihierarchické grafy.
Zdroje:
Bergman, M. (2009). Advantages and Myths of RDF. AI3:::Adaptive Information.
Bergman, M. (2013). Seven Arguments for Semantic Technologies. AI3:::Adaptive Information.
Čerba, O. (2011). Ontologie jako nástroj pro návrhy datových modelů vybraných témat příloh směrnice INSPIRE. Disertační práce. Univerzita Karlova v Praze.
Tauberer, J. (2008). What is RDF and what is it good for?
1http://www.w3.org/RDF/
2Podle
Bergman, 2009 se pro objekty a subjekty používají také označení
koncept, entita nebo zdroj.
3Kromě
URI mohou být využity i literály, ty však nemohou představovat
cíle v rámci odkazů ani subjekty.
4Ukázky
jsou k dispozici například v RDF Tutoriálu publikovaném na
webové stránce ZVON
(http://zvon.org/xxl/RDFTutorial/General/contents.html).
5http://www.w3.org/TR/rdf-schema/
6http://www.w3.org/TR/grddl/
7http://www.w3.org/2005/rules/wiki/RIF_Working_Group
8Poznámka
autora: Jedná se o analogický příklad jako v případě
kartografie. Mapy (jako grafická forma dat a informací) bývají
také často srozumitelnější než texty nebo tabulky nesoucí
stejnou informaci.
9Podle
Bergman 2009 je jich více než 100.
10http://www.linkeddatatools.com/introducing-rdf-part-2
11http://zvon.org/comp/r/tut-RDF.html
12http://www.w3schools.com/webservices/ws_rdf_intro.asp
Žádné komentáře:
Okomentovat