Odhalování plagiátů

Analýza plagiátů (definice plagiátu, detekce plagiátu) jsou počítačové metody pro vyhledávání a odhalování plagiátů [1] .

Plagiátorství ( anglicky  plagiarism ) je použití, parafrázování a shrnutí díla v jakékoli podobě bez potvrzení odkazy na zdroje a jeho uvádění jako vlastního díla [2] .

Plagiátorství  je půjčování cizího díla, ať už úmyslně či neúmyslně, jako by bylo vlastní, ve svůj prospěch [3] .

V současné době existuje poměrně velké množství služeb a programů , které vám umožní nějakým způsobem odhalit plagiát . Existuje také řada počítačových metod odhalování plagiátů .

Problém plagiátorství

Plagiátorství se stalo vážným problémem s příchodem internetu . Jakmile jsou znalosti na internetu, stávají se majetkem všech, je stále obtížnější a dokonce nemožné respektovat autorská práva [4] . Postupně je obtížnější identifikovat původního autora.

Rychlý rozvoj internetu spolu se zvyšující se počítačovou gramotností přispívá k pronikání plagiátorství do různých oblastí lidské činnosti: plagiátorství je akutním problémem ve školství, průmyslu i vědecké komunitě [5] .

Plagiátorství je zločin. To uvádí čtenáře v omyl, poškozuje autora a poskytuje plagiátorovi nezasloužené výhody [6] .

Široký přístup k domácí i zahraniční literatuře, mnohonásobný nárůst počtu odborných publikací, publikací na internetu – to vše prakticky ruší jakékoli redakční aspirace na „ověření“ či „ustavení“ pravosti a originality argumentů a faktů použitých v rukopisy navržené k publikaci [7] .

Metody odhalování plagiátů

Ilustrace ukazuje klasifikaci metod odhalování počítačových plagiátů z technického hlediska.

Metody jsou charakterizovány typem hodnocení podobnosti.

Globální hodnocení používá velké části textu nebo dokumentu k nalezení celkové podobnosti, zatímco místní metody zadávání kontrolují omezený segment textu.

V současné době je nejrozšířenějším způsobem snímání otisků prstů :

Z řady dokumentů je vybrána sada několika podřetězců, což jsou „otisky prstů“. Dotyčný dokument bude porovnán s otisky prstů u všech dokumentů ve sbírce. Nalezené shody s jinými dokumenty označují společné segmenty textu [8] .

Kontrola dokumentu s doslovným překrýváním textu je klasické porovnávání řetězců.

Skenování podezřelých dokumentů v této situaci vyžaduje výpočet a efektivní ukládání srovnatelných reprezentací všech dokumentů v referenční kolekci, které jsou porovnávány po párech. Obvykle se používají modely, jako je strom přípon nebo pole přípon , které byly přizpůsobeny k provádění tohoto úkolu v kontextu detekce počítačového plagiátu. Porovnávání podřetězců však není schůdným řešením pro kontrolu velkých sbírek dokumentů (algoritmus provádí průměrně 2h porovnávání, kde h je délka prohledaného řetězce) [9] .

Analýza "mnoho slov"je zjednodušením reprezentace používané při zpracování přirozeného jazyka a vyhledávání informací. V tomto modelu je text reprezentován jako neuspořádaná množina slov. Dokumenty jsou reprezentovány jako jeden nebo více vektorů, které se používají pro výpočet párové podobnosti [10] [11] [12] .

Citace  je počítačová metoda detekce plagiátů navržená pro použití ve vědeckých pracích, která umožňuje použití citací a referenčních materiálů. Identifikuje společné citace dvou vědeckých prací.

Citační vzor je podsekvence obsahující nejen společné citace dvou dokumentů, ale také podobné pořadí a podobnost citací v textu, což jsou hlavní kritéria pro určení citačního vzoru [13] [14] [15] [16] .

Stylometrie neboli studium jazykových stylů  je statistická metoda pro identifikaci autorství anonymních dokumentů a pro počítačovou kontrolu plagiátorství.

Stylometrické modely jsou stavěny pro různé fragmenty textu , pasáže, které jsou stylově odlišné od ostatních. A porovnáním modelů lze odhalit plagiát [17] .

Například analýza založená na sekvencích slovních druhů . Zvažuje se metoda rozdělení textu na fragmenty homogenity. Jako rozdělovací parametry se berou různé sekvence slovních druhů. Dalším krokem je analýza fragmentů. V důsledku toho jsou pro text nalezeny sekvence, které extrahují fragmenty z textů, to znamená, že algoritmus vybírá fragmenty heterogenity z textu, které mají různé frekvence výskytu vybrané sekvence slovních druhů, což naznačuje možnou plagiátorství na tomto místě [18] .

Přehled stávajících systémů

V současné době existuje poměrně velké množství služeb a programů, které umožňují nějakým způsobem identifikovat výpůjčky. [19] Mezi ně patří: Antiplagiarism systém , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .

Systém proti plagiátorství

Systém byl vyvinut společností Forexis [20] . Systém provádí online vyhledávání ve velkém množství dokumentů uložených ve vlastní databázi systému, prostřednictvím partnerských databází, včetně: Ruské státní knihovny, Vědecké elektronické knihovny ELibrary.ru, Lexpro, a také prostřednictvím databáze uživatele. „Antiplagiátorství“ prohledává internet pomocí vlastních prostředků, a proto je méně efektivní než systémy využívající Yandex. xml. V bezplatné verzi systému je k dispozici pouze zkrácená forma přehledu.

Program Advego Plagiatus

Program provádí online ověření pomocí vyhledávačů [21] . Na rozdíl od podobných systémů Advego Plagiatus nepoužívá Yandex.XML (bezplatná služba, která vám umožňuje provádět automatické vyhledávací dotazy pro Yandex a publikovat jeho výstup na vašem zdroji).

Program udává procento shody textu a zobrazuje nalezené zdroje. Program nepřevádí písmena, to znamená, že nedochází k převodu velkých a malých písmen , žádnému zpracování a změně latinských písmen v ruských slovech na podobná písmena ruské abecedy pro texty v ruštině.

Nechybí ani podpora vyhledávání ve vlastní databázi; vzhledem k povaze práce nastávají situace, kdy se výsledky kontroly čas od času liší.

Odhlásit službu

Služba Unplag Kontrola plagiátů [22] dokáže kontrolovat plagiát jak v reálném čase online, tak dokument porovnávat s uloženou databází dokumentů v knihovně uživatele. Podporuje práci s různými typy dokumentů. Existují osobní a firemní programy. Pracuje také se systémem pro správu kurzů Moodle , Canvas, Blackboard, Sakai .

Služba www.miratools.ru

Služba umožňuje online kontrolu textu na plagiát [23] . Systém využívá výsledky vydávání vyhledávačů. Je možné nahradit anglická písmena ruskými. Je také možné změnit délku a rozteč použitého šindele pro ověření. Na základě výsledků kontroly je uvedeno procento shod a nalezené zdroje. Systém nepracuje s vlastní databází, je zde limit na délku textu 3000 znaků a limit na počet kontrol za den.

Služba www.istio.com

Služba kontroluje text na přítomnost vypůjčeného obsahu pomocí vyhledávačů Yandex.XML a Yahoo.com . [24] . Na základě výsledků kontroly se zobrazí zpráva o tom, zda je text jedinečný či nikoli, a zobrazí se seznam podobných stránek webu. Služba poskytuje další nástroje pro analýzu textu, jako je kontrola pravopisu, analýza nejčastějších slov atd. Systém nemá konverzi písmen a vyhledávání ve vlastní databázi.

Praide Unique Content Analyzer II

Program kontroluje texty pomocí vyhledávačů [25] . Je možné vybrat použité vyhledávače, obsahuje prostředky pro přidávání nových vyhledávačů. Kontrola se provádí šindelem, jehož délku lze měnit. Můžete nastavit počet slov překrývajících se šindelem. Zobrazí se podrobná zpráva o kontrole v každém vyhledávači. Program nenahrazuje písmena, nezpracovává zastavovací slova a nepodporuje práci s vlastní databází.

Plagiatinformační systém

Systém kontroluje dokumenty na výpůjčky jak v lokální databázi, tak na internetu [26] . Systém je schopen odhalit plagiát ve formě dokumentů složených ze „smíšených“ kusů textu z více zdrojů. Kontrolu lze provést pomocí rychlého nebo hlubokého vyhledávání. Výsledky testu jsou prezentovány ve formě vizuální zprávy. Neexistuje žádná konverze písmen. Neexistuje žádná možnost bezplatného používání nebo testování systému.

Služba copyscape

Systém Copyscape umožňuje vyhledávat kopie webových stránek na internetu [27] . Systém vrátí seznam webových stránek, které mají text podobný obsahu. Služba kontroluje vypůjčený obsah pomocí Google a Yahoo!

Kontroluje se pouze obsah webové stránky, to znamená, že pro určení jedinečnosti textu je nutné text zveřejnit na webu a zadat adresu stránky do systému. Bez registrace je limit na počet kontrol za měsíc a na počet zobrazených výsledků – 10 stránek. Pro registrované uživatele není omezen počet kontrol a výstupních výsledků, ale každá žádost stojí 5 centů.

Soutěž o plagiáty

Odhalování plagiátorství (zejména parafrázovaného) je aktivně studovaným technickým a vědeckým problémem. Soutěže na automatické odhalování plagiátů se pravidelně konají pod záštitou iniciativy PAN [28] . První soutěž na identifikaci plagiátů v ruskojazyčných dokumentech se konala v roce 2017 v rámci konference Dialogue on computational linguistics [29] .

Viz také

Poznámky

  1. Stein, Koppel, 2011 .
  2. ACT BSSS, 2011 .
  3. Johnston, 2008 .
  4. Aushra, 2006 .
  5. Diaghilev, Tskhai, Butakov, 2011 , pp. 23.
  6. Bouville, 2008 , pp. 331.
  7. Ushakin, 2001 .
  8. Brin, Davis, Garcia-Molina, 2001 , pp. 36-41.
  9. Monostori, Zaslavsky, Schmidt, 2000 , pp. 226–227.
  10. Leong, Lau, Rynson, 1997 , pp. 70-77.
  11. Dreher, 2007 , s. 601-614.
  12. Muhr, Zechner, 2009 , pp. 47-55.
  13. Gipp, Beel, 2009 , pp. 571–575.
  14. Gipp, Beel, 2010 , str. 273–274.
  15. Gipp, Meuschke, Beel, 2011 , pp. 255–258.
  16. Gipp, Meuschke, 2011 , pp. 249–258.
  17. Meyer zu Eissen, Stein, 2006 , pp. 565–569.
  18. Sedov, Rogov, 2013 .
  19. Šarapov, Šarapovová, 2011 .
  20. antiplagiat.ru - Anti-plagiarism Archivovaná kopie z 13. října 2012 na Wayback Machine
  21. advego.ru - kontrola jedinečnosti textu . Získáno 9. prosince 2012. Archivováno z originálu 11. prosince 2012.
  22. Kontrola plagiátů Unplag vám poskytuje  hlášení v reálném čase . unplag.com. Získáno 21. července 2016. Archivováno z originálu 14. července 2016.
  23. miratools.ru – Služba pro kontrolu jedinečnosti obsahu Archivováno 9. prosince 2012 na Wayback Machine
  24. istio.com - Služba pro analýzu textů a stránek . Získáno 9. prosince 2012. Archivováno z originálu 9. prosince 2012.
  25. Praide unique content analysis - Kontrola jedinečnosti textu na internetu (downlink) . Datum přístupu: 9. prosince 2012. Archivováno z originálu 20. listopadu 2012. 
  26. plagiatinform.ru - Systém pro odhalování plagiátů v dokumentech Archivováno 29. července 2012 na Wayback Machine
  27. copyscape.com - Copyscape Kontrola plagiátorství . Získáno 9. prosince 2012. Archivováno z originálu 8. prosince 2012.
  28. PAN je série vědeckých akcí a sdílených úkolů v oblasti digitální textové forenzní (downlink) . Získáno 5. září 2017. Archivováno z originálu 15. září 2017. 
  29. Soutěž o hledání výpůjček v ruských textech . Získáno 5. září 2017. Archivováno z originálu 5. září 2017.

Literatura

v Rusku v jiných jazycích