Dbpedia

Dbpedia
URL dbpedia.org
Komerční Ne
Typ webu znalostní báze , online databáze [d] , databáze odvozená z projektů Wikimedia [d] a znalostní graf [d]
jazyky) Scala , Java , Virtuoso Server Pages
Programovací jazyk Java a Scala
Majitel Univerzita v Lipsku a Univerzita v Mannheimu
Autor University of Leipzig , University of Mannheim a Hasso Platner Institute [d]
Začátek práce 10. ledna 2007
 Mediální soubory na Wikimedia Commons

DBpedia  je crowdsourcovaný projekt zaměřený na extrahování strukturovaných informací z dat vytvořených projektem Wikipedie a jejich publikování jako datové sady dostupné pod svobodnou licencí . Projekt citoval Tim Berners-Lee jako jednu z nejznámějších implementací konceptu spojených dat [1] .

Projekt zahájila skupina dobrovolníků ze Svobodné univerzity v Berlíně a Univerzity v Lipsku ve spolupráci s OpenLink Software , přičemž první datový soubor byl zveřejněn v roce 2007 . Od roku 2012 je univerzita v Mannheimu aktivním účastníkem projektu .

Databáze

K dubnu 2016 databáze DBpedia popisují více než 6 milionů konceptů, z nichž 5,2 milionu je klasifikováno podle ontologie , včetně 1,5 milionu osobností, 810 tisíc geografických objektů, 135 tisíc hudebních alb, 106 tisíc filmů, 20 000 videoher, 275 000 organizací , 201 000 taxonů a 5 000 nemocí. DBpedia obsahuje 38 milionů značek a anotací ve 125 jazycích; 25,2 milionů odkazů na obrázky a 29,8 milionů odkazů na externí webové stránky; 50 milionů externích odkazů na jiné databáze RDF , 80,9 milionů kategorií Wikipedie.

Projekt využívá Resource Description Framework (RDF) k reprezentaci extrahovaných informací, od září 2014 se základny skládají z více než 9,5 miliard RDF trojitých, z nichž 1,3 miliardy pochází z anglické Wikipedie a 5,0 miliard je extrahováno ze sekcí v jiných jazycích. .

Jedním z problémů při vytahování informací z Wikipedie je, že stejné pojmy lze v šablonách vyjádřit různými způsoby, například pojem „místo narození“ lze v angličtině formulovat jako „birthplace“ a jako „placeofbirth“. Kvůli této nejednoznačnosti prochází dotaz oběma možnostmi, aby získal spolehlivější výsledek. Pro usnadnění vyhledávání a zároveň snížení počtu synonym byl vyvinut speciální jazyk - DBpedia Mapping Language a uživatelé DBpedie mají možnost zlepšit kvalitu extrakce dat pomocí služby Mapping.

Příklad

DBpedia získává faktické informace ze stránek Wikipedie a umožňuje uživatelům najít odpovědi na otázky v situacích, kdy se požadované informace nacházejí v několika různých článcích Wikipedie. Chcete-li například najít všechna díla ilustrátora manga Tokyo Mew Mew , je možné provést následující dotaz SPARQL [2] :

PREFIX dbprop : < http : // dbpedia . org / property /> PREFIX db : < http : // dbpedia . org / zdroj /> VYBRAT ? kdo ? pracovat ? žánr WHERE { db : Tokyo_Mew_Mew dbprop : ilustrátor ? kdo . ? práce dbprop : autor ? kdo . VOLITELNÉ { ? práce dbprop : žánr ? žánr } . }

Poznámky

  1. Přepis: Sir Tim Berners-Lee mluví s Talisem o sémantickém webu Archivováno 10. května 2013.
  2. [1] Archivováno 29. července 2020 na Wayback Machine  – žádost o SPARQL do DBPedia