Cyc
Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od
verze recenzované 26. srpna 2018; kontroly vyžadují
12 úprav .
Cyc ( napsáno latinsky, vyslovováno Cyc ) je projekt na vytvoření rozsáhlé ontologické znalostní báze , která umožňuje programům řešit složité problémy z oblasti umělé inteligence na základě logického vyvozování a použití zdravého rozumu .
Přehled
Projekt zahájil Douglas Lenat v roce 1984 ve společnosti Microelectronics and Computer Technology Corporation . Název „Cyc“ (odvozený z anglické encyklopedie : „cyc“) je registrovaná ochranná známka společnosti Cycorp, Inc v Austinu , provozovaná společností Lenat a vytvořená za účelem vývoje Cyc. Znalostní báze je majetkem společnosti, ale malá část báze, určená k vytvoření společného slovníku pro programy automatického uvažování, byla vydána jako OpenCyc pod otevřenou licencí. Cyc byl později zpřístupněn výzkumníkům AI na základě speciální výzkumné licence od ResearchCyc .
Typické příklady znalostí v databázi jsou: „Každý strom je rostlina“ a „Rostliny jsou smrtelné“. Pokud se zeptáte "umírají stromy?", inferenční stroj může vyvodit zřejmý závěr a dát správnou odpověď. Znalostní báze ( anglicky Knowledge Base nebo KB) obsahuje více než milion prohlášení, pravidel a běžně používaných nápadů, které tam lidé zadávají. Jsou formulovány v jazyce CycL , který je založen na predikátovém počtu a má syntaxi podobnou Lisp . Anglicky mluvící uživatelé vtipkují, že jsou „cyklisté“ (z anglického cyklista – cyklista).
Většina dnešní práce v projektu Cyc je stále o znalostním inženýrství – ručním popisu faktů o světě kolem nás a implementaci účinných mechanismů odvození založených na těchto znalostech. Pracuje se však na tom, aby systém Cyc mohl nezávisle komunikovat s uživateli v přirozeném jazyce a na urychlení procesu doplňování základny pomocí strojového učení .
Popis znalostní báze, terminologie
Pojmy v Cyc se nazývají konstanty . Názvy konstant začínají nepovinnými znaky "#$" a rozlišují velká a malá písmena. Existují konstanty pro:
- jednotlivé prvky nazývané individual , například #$BillClinton nebo #$France.
- kolekce ( Collections ), jako je #$Tree-ThePlant (který obsahuje všechny stromy) nebo #$EquivalenceRelation (který obsahuje všechny vztahy ekvivalence ). Člen kolekce se nazývá instance této kolekce.
- Pravda Funkce , které lze aplikovat na jeden nebo více konceptů a vracejí true nebo false . Například #$siblings je sourozenecký vztah, který je pravdivý pouze v případě, že dva z jeho argumentů jsou sourozenci. Podle konvence začínají konstanty pravdivostní funkce malým písmenem. Pravdivé funkce lze rozdělit na logické spojky (jako #$and, #$or, #$not, #$implies), kvantifikátory (#$forAll, #$existuje atd.) a predikáty .
- Funkce , které tvoří nové termíny z dat. Pokud například předáte typ (nebo kolekci) rostlin jako argument funkci #$FruitFn, vrátí kolekci jejich plodů. Podle konvence začínají názvy konstant funkcí velkým písmenem a končí řetězcem "Fn".
Nejdůležitější predikáty jsou #$isa a #$genls. Prvním je prohlášení, že prvek je instancí kolekce, a druhým, že kolekce je podkolekcí jiné kolekce. Fakta o konceptech jsou deklarována pomocí speciálních příkazů CycL . Predikáty se píší v závorkách před jejich argumenty:
(#$isa #$BillClinton #$UnitedStatesPresident)
znamená, že „Bill Clinton je jedním z prezidentů Spojených států“ a prohlášení
(#$genls #$Strom-ThePlant #$Plant)
zní "Všechny stromy jsou rostliny."
(#$capitalCity #$Francie #$Paříž)
znamená „Paříž je hlavní město Francie“.
Příkazy mohou také obsahovat proměnné, řádky začínající "?". Tato prohlášení se nazývají „pravidla“. Jedno z nejdůležitějších pravidel týkajících se predikátu #$isa zní:
(#$ znamená
(#$a
(#$isa ?OBJ ?SUBSET)
(#$genls ?SUBSET ?SUPERSET))
(#$isa ?OBJ ?SUPERSET))
což znamená "pokud je OBJ instancí kolekce SUBSET a SUBSET je zase podkolekcí SUPERSET, pak OBJ je také instancí kolekce SUPERSET." Další typický příklad:
(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)
což znamená, že jakákoli instance kolekce #$ChordataPhylum (tj. jakýkoli strunatec ) je spojena se zvířecí samicí (instance #$FemaleAnimal), která je její matkou (jak je popsáno predikátem #$BiologicalMother).
Znalostní báze Cyc je rozdělena na mikroteorie (Mt), sbírky pojmů a faktů patřících do jedné konkrétní oblasti znalostí. Na rozdíl od úplné znalostní báze musí být jakákoli mikroteorie bez rozporů. Každá mikroteorie má jméno, které je obyčejnou konstantou; podle konvence obsahují konstanty mikroteorie řetězec "Mt". Příkladem je #$MathMt, mikroteorie obsahující matematické znalosti. Mikroteorie mohou být zděděny jedna od druhé a jsou organizovány v hierarchii: jednou ze specializací #$MathMt je #$GeometryGMt - mikroteorie o geometrii.
opencyc
Nejnovější verze OpenCyc, 1.0, byla vydána v červenci 2006. OpenCyc 1.0 obsahuje kompletní Cyc ontologii obsahující statisíce výrazů, miliony výrazů, které mezi sebou spojují výrazy. Znalostní báze obsahuje 47 000 konceptů a 306 000 faktů a lze si ji prohlédnout na webu OpenCyc. První verze OpenCyc byla vydána v květnu 2001 s pouhými 6 000 koncepty a 60 000 fakty. Znalostní báze je vydána pod licencí Apache . Cycorp má v úmyslu uvolnit OpenCyc pod paralelními, méně omezujícími licencemi, aby vyhovoval potřebám svých uživatelů. Interpret CycL a SubL (program, který umožňuje prohlížet a upravovat databázi a vyvozovat závěry) je uvolněn zdarma, ale pouze v binární podobě, bez zdrojového kódu. Běží jak pod GNU/Linux , tak pod Microsoft Windows .
ResearchCyc
V červenci 2006 vydala společnost Cycorp ResearchCyc 1.0, bezplatnou (ale uzavřenou zdrojovou) verzi Cyc zaměřenou na výzkumnou komunitu. (ResearchCyc byl v průběhu roku 2004 ve verzi beta a do beta testování byl vydán v únoru 2005.) Kromě taxonomických informací z OpenCyc obsahuje ResearchCyc výrazně více sémantických znalostí (tj. dalších faktů) o konceptech ve své znalostní bázi a zahrnuje velký lexikon, nástroje pro analýzu a generování angličtiny , napsaný v rozhraních Java pro editaci znalostí a vytváření dotazů do databáze.
Cycorp veřejně vyjádřil svůj záměr uvolnit všechny termíny a taxonomické vztahy obsažené v ResearchCyc jako součást OpenCyc, a to bylo provedeno ve verzi 1.0. Jedním z uvedených cílů je vytvořit zcela volný a neomezený sémantický slovník pro použití na sémantickém webu . Taxonomie OpenCyc je k dispozici ve formátu Owl na webu projektu OpenCyc.
Kritika projektu Cyc
Cyc byl popsán jako „jeden z nejkontroverznějších počinů v historii umělé inteligence“ (Bertino et al., str. 275), takže se nevyhnutelně dočkal spravedlivé části kritiky.
- Přílišná složitost systému – nepochybně nutná kvůli encyklopedickým ambicím – a v souladu s tím i složitost (ručního) přidávání dat do systému;
- Problémy se škálovatelností z rozšířené reifikace, zejména jako konstanty;
- Neuspokojivé použití pojmu hmoty as tím související rozdíl mezi vnitřními a vnějšími vlastnostmi;
- Nedostatek rozumných měření výkonu nebo srovnání účinnosti Cyc inferenčního motoru;
- Současná neúplnost systému jak do šířky, tak do hloubky a s tím spojené potíže při měření jeho úplnosti;
- Nedostatek dokumentace;
- Nedostatek aktuálních online školicích materiálů ztěžuje nováčkům naučit se systém;
- Navzdory svému názvu není systém OpenCyc zcela otevřený: data mohou uživatelé upravovat, ale kód není pro vývojáře rozšiřitelný. [jeden]
O těchto otázkách se od zahájení projektu diskutovalo na různých místech. Doug Lenat a další publikovali mnoho argumentů na obranu svého projektu.
Viz také
Bibliografie
- Elisa Bertino, Gian Piero Zarri, Barbara Catania, Gian Pierro Zarri. Inteligentní databázové systémy (neopr.) . — Addison-Wesley Professional , 2001.
- Matuszek, Cynthia, M. Witbrock , R. Kahlert, J. Cabral, D. Schneider, P. Shah a D. Lenat . Hledání zdravého rozumu: Vyplňování Cyc z webu . In Proceedings of the Twentieth National Conference on Artificial Intelligence, Pittsburgh, Pennsylvania, červenec 2005. [1]
- Shepard, Blake, C. Matuszek, C. B. Fraser, W. Wechtenhiser, D. Crabbe, Z. Gungordu, J. Jantos, T. Hughes, L. Lefkowitz, M. Witbrock, D. Lenat, E. Larson. Znalostní přístup k zabezpečení sítě: Aplikace Cyc v doméně hodnocení síťového rizika . In Proceedings of the Seventeenth Innovative Applications of Artificial Intelligence Conference, Pittsburgh, Pennsylvania, červenec 2005. [2]
- Ramachandran, Deepak, P. Reagan, K. Goolsbey. Prvotřídní ResearchCyc: Expresivita a efektivita v ontologii zdravého rozumu . In Papers from the AAAI Workshop on Contexts and Ontologies: Theory, Practice and Applications. Pittsburgh, Pennsylvania, červenec 2005. [3]
- Cabral, John, R. C. Kahlert, C. Matuszek, M. Witbrock, B. Summers. Převod sémantických metaznalostí na induktivní zkreslení . In Proceedings of the 15th International Conference on Inductive Logic Programming, Bonn, Německo, srpen 2005. [4]
- Schneider, Dave, C. Matuszek, P. Shah, R. Kahlert, D. Baxter, J. Cabral, M. Witbrock, D. Lenat. Shromažďování a správa faktů pro analýzu zpravodajství . In Proceedings of the 2005 International Conference on Intelligence Analysis, McLean, Virginia, květen 2005. [5]
- Forbus, Kenneth, L. Birnbaum, E. Wagner, J. Baker & M. Witbrock . Kombinace analogie, inteligentního vyhledávání informací a integrace znalostí pro analýzu: Předběžná zpráva . In Proceedings of the 2005 International Conference on Intelligence Analysis, McLean, Virginia, květen 2005. [6]
- Deaton, Chris, B. Shepard, C. Klein, C. Mayans, B. Summers, A. Brusseau, M. Witbrock . Komplexní znalostní báze o terorismu v Cyc. In Proceedings of the 2005 International Conference on Intelligence Analysis, McLean, Virginia, květen 2005. [7]
- Rode, Benjamine. Směrem k modelu obnovy vzoru v relačních datech . In Proceedings of the 2005 International Conference on Intelligence Analysis, McLean, Virginia, květen 2005. [8]
- Siegel, Nick, B. Shepard, J. Cabral, M. Witbrock. Generování hypotéz a shromáždění důkazů pro analýzu zpravodajství: Aplikace Cycorp's Nooscape . In Proceedings of the 2005 International Conference on Intelligence Analysis, McLean, Virginia, květen 2005. [9]
- Curtis, Jon, G. Matthews, D. Baxter. O efektivním použití Cyc v systému odpovědí na otázky v dokumentech z IJCAI Workshop on Knowledge and Reasoning for Answering Questions, Edinburgh, Skotsko: 2005. [10]
- Witbrock, Michael, C. Matuszek, A. Brusseau, R. C. Kahlert, C. B. Fraser, D. Lenat. Knowledge Begets Knowledge: Steps to Assisted Knowledge Acquisition in Cyc in papers from 2005 AAAI Spring Symposium on Knowledge Collection from Volunteer Contributors (KCVC), pp. 99–105. Stanford, Kalifornie, březen 2005. [11]
- Belasco, Alan, J. Curtis, R. C. Kahlert, C. Klein, C. Mayans, R. Reagan. Efektivní reprezentace mezer ve znalostech . In D. Karagiannis, U. Reimer (Eds.): Praktické aspekty managementu znalostí, Proceedings of PAKM 2004, Vídeň, Rakousko, 2.-3. prosince 2004, Springer-Verlag, Berlín Heidelberg. [12]
- Siegel, Nick, G. Matthews, J. Masters, R. Kahlert, M. Witbrock a K. Pittman. Agent Architectures: Combined the Strengths of Software Engineering and Cognitive Systems in papers from AAAI Workshop on Intelligent Agent Architectures: Combining the Strengths of Software Engineering and Cognitive Systems, Technical Report WS-04-07, pp. 74–79. Menlo Park, Kalifornie: AAAI Press, 2004. [13]
- Witbrock, Michael, K. Panton, S. L. Reed, D. Schneider, B. Aldag, M. Reimers a S. Bertolo. Automatizovaná anotace OWL za pomoci velké znalostní báze v poznámkách z workshopu z roku 2004 na workshopu o značkování znalostí a sémantické anotaci na 3. mezinárodní konferenci sémantického webu ISWC2004, Hirošima, Japonsko, listopad 2004, str. 71–80. [čtrnáct]
- Masters, James a Z. Gungordu. Integrace strukturovaných zdrojů znalostí: Zpráva o pokroku . In Integration of Knowledge Intensive Multiagent Systems, Cambridge, Massachusetts, USA, 2003. [15]
- O'Hara, Tom, N. Salay, M. Witbrock a kol. Zavedení kritérií pro lexikální mapování hromadných podstatných jmen pomocí Cyc Knowledge Base a jejího rozšíření na WordNet . In Proceedings of the Fifth International Workshop on Computational Semantics, Tilburg, 2003. [16]
- Witbrock, Michael, D. Baxter, J. Curtis a kol. Interaktivní dialogový systém pro získávání znalostí v Cyc . In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, Acapulco, Mexico, 2003. [17]
- Panton, Kathy, P. Miraglia, N. Salay a kol. Tvorba znalostí a dialog pomocí sady nástrojů KRAKEN . V osmnácté národní konferenci o umělé inteligenci, Edmonton, Kanada, 2002. [18]
- Mistři, Jamesi. Integrace strukturovaných zdrojů znalostí a její aplikace na fúzi informací . In Proceedings of the Fifth International Conference on Information Fusion, Annapolis, MD, červenec 2002. [19]
- Reed, Stephen a D. Lenat. Mapování ontologií do Cyc . V AAAI 2002 Conference Workshop ontologies For The Semantic Web, Edmonton, Kanada, červenec 2002. [20]
- D. Lenat a R. V. Guha. Budování velkých znalostních systémů: Reprezentace a vyvozování v projektu Cyc . — Addison-Wesley , 1990.
- Fiktivní myslící stroj SAL 9000 výslovně odkazuje na encyklopedickou databázi, aby pochopil, proč jeho tvůrce použil jméno „Phoenix“ pro diagnostickou simulaci, která by pomohla restartovat jeho dvojče, HAL 9000 , v sáze z roku 2001 .
- Fiktivní myslící stroj KARR (Knight Rider) explicitně přistupuje k databázi během testu základních lidských tužeb (epizoda „Důvěra nerezaví“).
Poznámky
- ↑ Volkel M., Krotzsch M., Vrandecic D., Haller H., Studer R. Sémantická Wikipedie Archivováno 31. prosince 2019 na Wayback Machine . In Sborník příspěvků z 15. mezinárodní konference o World Wide Web. WWW '06. ACM Press, New York, NY. Edinburgh, Skotsko, 23.-26. května 2006. - str. 585-594
Odkazy
Slovníky a encyklopedie |
|
---|