Analýza plagiátů (definice plagiátu, detekce plagiátu) jsou počítačové metody pro vyhledávání a odhalování plagiátů [1] .
Plagiátorství ( anglicky plagiarism ) je použití, parafrázování a shrnutí díla v jakékoli podobě bez potvrzení odkazy na zdroje a jeho uvádění jako vlastního díla [2] .
Plagiátorství je půjčování cizího díla, ať už úmyslně či neúmyslně, jako by bylo vlastní, ve svůj prospěch [3] .
V současné době existuje poměrně velké množství služeb a programů , které vám umožní nějakým způsobem odhalit plagiát . Existuje také řada počítačových metod odhalování plagiátů .
Plagiátorství se stalo vážným problémem s příchodem internetu . Jakmile jsou znalosti na internetu, stávají se majetkem všech, je stále obtížnější a dokonce nemožné respektovat autorská práva [4] . Postupně je obtížnější identifikovat původního autora.
Rychlý rozvoj internetu spolu se zvyšující se počítačovou gramotností přispívá k pronikání plagiátorství do různých oblastí lidské činnosti: plagiátorství je akutním problémem ve školství, průmyslu i vědecké komunitě [5] .
Plagiátorství je zločin. To uvádí čtenáře v omyl, poškozuje autora a poskytuje plagiátorovi nezasloužené výhody [6] .
Široký přístup k domácí i zahraniční literatuře, mnohonásobný nárůst počtu odborných publikací, publikací na internetu – to vše prakticky ruší jakékoli redakční aspirace na „ověření“ či „ustavení“ pravosti a originality argumentů a faktů použitých v rukopisy navržené k publikaci [7] .
Ilustrace ukazuje klasifikaci metod odhalování počítačových plagiátů z technického hlediska.
Metody jsou charakterizovány typem hodnocení podobnosti.Globální hodnocení používá velké části textu nebo dokumentu k nalezení celkové podobnosti, zatímco místní metody zadávání kontrolují omezený segment textu.
V současné době je nejrozšířenějším způsobem snímání otisků prstů :Z řady dokumentů je vybrána sada několika podřetězců, což jsou „otisky prstů“. Dotyčný dokument bude porovnán s otisky prstů u všech dokumentů ve sbírce. Nalezené shody s jinými dokumenty označují společné segmenty textu [8] .
Kontrola dokumentu s doslovným překrýváním textu je klasické porovnávání řetězců.Skenování podezřelých dokumentů v této situaci vyžaduje výpočet a efektivní ukládání srovnatelných reprezentací všech dokumentů v referenční kolekci, které jsou porovnávány po párech. Obvykle se používají modely, jako je strom přípon nebo pole přípon , které byly přizpůsobeny k provádění tohoto úkolu v kontextu detekce počítačového plagiátu. Porovnávání podřetězců však není schůdným řešením pro kontrolu velkých sbírek dokumentů (algoritmus provádí průměrně 2h porovnávání, kde h je délka prohledaného řetězce) [9] .
Analýza "mnoho slov"je zjednodušením reprezentace používané při zpracování přirozeného jazyka a vyhledávání informací. V tomto modelu je text reprezentován jako neuspořádaná množina slov. Dokumenty jsou reprezentovány jako jeden nebo více vektorů, které se používají pro výpočet párové podobnosti [10] [11] [12] .
Citace je počítačová metoda detekce plagiátů navržená pro použití ve vědeckých pracích, která umožňuje použití citací a referenčních materiálů. Identifikuje společné citace dvou vědeckých prací.Citační vzor je podsekvence obsahující nejen společné citace dvou dokumentů, ale také podobné pořadí a podobnost citací v textu, což jsou hlavní kritéria pro určení citačního vzoru [13] [14] [15] [16] .
Stylometrie neboli studium jazykových stylů je statistická metoda pro identifikaci autorství anonymních dokumentů a pro počítačovou kontrolu plagiátorství.Stylometrické modely jsou stavěny pro různé fragmenty textu , pasáže, které jsou stylově odlišné od ostatních. A porovnáním modelů lze odhalit plagiát [17] .
Například analýza založená na sekvencích slovních druhů . Zvažuje se metoda rozdělení textu na fragmenty homogenity. Jako rozdělovací parametry se berou různé sekvence slovních druhů. Dalším krokem je analýza fragmentů. V důsledku toho jsou pro text nalezeny sekvence, které extrahují fragmenty z textů, to znamená, že algoritmus vybírá fragmenty heterogenity z textu, které mají různé frekvence výskytu vybrané sekvence slovních druhů, což naznačuje možnou plagiátorství na tomto místě [18] .
V současné době existuje poměrně velké množství služeb a programů, které umožňují nějakým způsobem identifikovat výpůjčky. [19] Mezi ně patří: Antiplagiarism systém , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .
Systém proti plagiátorstvíSystém byl vyvinut společností Forexis [20] . Systém provádí online vyhledávání ve velkém množství dokumentů uložených ve vlastní databázi systému, prostřednictvím partnerských databází, včetně: Ruské státní knihovny, Vědecké elektronické knihovny ELibrary.ru, Lexpro, a také prostřednictvím databáze uživatele. „Antiplagiátorství“ prohledává internet pomocí vlastních prostředků, a proto je méně efektivní než systémy využívající Yandex. xml. V bezplatné verzi systému je k dispozici pouze zkrácená forma přehledu.
Program Advego PlagiatusProgram provádí online ověření pomocí vyhledávačů [21] . Na rozdíl od podobných systémů Advego Plagiatus nepoužívá Yandex.XML (bezplatná služba, která vám umožňuje provádět automatické vyhledávací dotazy pro Yandex a publikovat jeho výstup na vašem zdroji).
Program udává procento shody textu a zobrazuje nalezené zdroje. Program nepřevádí písmena, to znamená, že nedochází k převodu velkých a malých písmen , žádnému zpracování a změně latinských písmen v ruských slovech na podobná písmena ruské abecedy pro texty v ruštině.
Nechybí ani podpora vyhledávání ve vlastní databázi; vzhledem k povaze práce nastávají situace, kdy se výsledky kontroly čas od času liší.
Odhlásit službuSlužba Unplag Kontrola plagiátů [22] dokáže kontrolovat plagiát jak v reálném čase online, tak dokument porovnávat s uloženou databází dokumentů v knihovně uživatele. Podporuje práci s různými typy dokumentů. Existují osobní a firemní programy. Pracuje také se systémem pro správu kurzů Moodle , Canvas, Blackboard, Sakai .
Služba www.miratools.ruSlužba umožňuje online kontrolu textu na plagiát [23] . Systém využívá výsledky vydávání vyhledávačů. Je možné nahradit anglická písmena ruskými. Je také možné změnit délku a rozteč použitého šindele pro ověření. Na základě výsledků kontroly je uvedeno procento shod a nalezené zdroje. Systém nepracuje s vlastní databází, je zde limit na délku textu 3000 znaků a limit na počet kontrol za den.
Služba www.istio.comSlužba kontroluje text na přítomnost vypůjčeného obsahu pomocí vyhledávačů Yandex.XML a Yahoo.com . [24] . Na základě výsledků kontroly se zobrazí zpráva o tom, zda je text jedinečný či nikoli, a zobrazí se seznam podobných stránek webu. Služba poskytuje další nástroje pro analýzu textu, jako je kontrola pravopisu, analýza nejčastějších slov atd. Systém nemá konverzi písmen a vyhledávání ve vlastní databázi.
Praide Unique Content Analyzer IIProgram kontroluje texty pomocí vyhledávačů [25] . Je možné vybrat použité vyhledávače, obsahuje prostředky pro přidávání nových vyhledávačů. Kontrola se provádí šindelem, jehož délku lze měnit. Můžete nastavit počet slov překrývajících se šindelem. Zobrazí se podrobná zpráva o kontrole v každém vyhledávači. Program nenahrazuje písmena, nezpracovává zastavovací slova a nepodporuje práci s vlastní databází.
Plagiatinformační systémSystém kontroluje dokumenty na výpůjčky jak v lokální databázi, tak na internetu [26] . Systém je schopen odhalit plagiát ve formě dokumentů složených ze „smíšených“ kusů textu z více zdrojů. Kontrolu lze provést pomocí rychlého nebo hlubokého vyhledávání. Výsledky testu jsou prezentovány ve formě vizuální zprávy. Neexistuje žádná konverze písmen. Neexistuje žádná možnost bezplatného používání nebo testování systému.
Služba copyscapeSystém Copyscape umožňuje vyhledávat kopie webových stránek na internetu [27] . Systém vrátí seznam webových stránek, které mají text podobný obsahu. Služba kontroluje vypůjčený obsah pomocí Google a Yahoo!
Kontroluje se pouze obsah webové stránky, to znamená, že pro určení jedinečnosti textu je nutné text zveřejnit na webu a zadat adresu stránky do systému. Bez registrace je limit na počet kontrol za měsíc a na počet zobrazených výsledků – 10 stránek. Pro registrované uživatele není omezen počet kontrol a výstupních výsledků, ale každá žádost stojí 5 centů.
Odhalování plagiátorství (zejména parafrázovaného) je aktivně studovaným technickým a vědeckým problémem. Soutěže na automatické odhalování plagiátů se pravidelně konají pod záštitou iniciativy PAN [28] . První soutěž na identifikaci plagiátů v ruskojazyčných dokumentech se konala v roce 2017 v rámci konference Dialogue on computational linguistics [29] .