Odhalování plagiátů

Analýza plagiátů (definice plagiátu, detekce plagiátu) jsou počítačové metody pro vyhledávání a odhalování plagiátů [1] .

Plagiátorství ( anglicky plagiarism ) je použití, parafrázování a shrnutí díla v jakékoli podobě bez potvrzení odkazy na zdroje a jeho uvádění jako vlastního díla [2] .

Plagiátorství je půjčování cizího díla, ať už úmyslně či neúmyslně, jako by bylo vlastní, ve svůj prospěch [3] .

V současné době existuje poměrně velké množství služeb a programů , které vám umožní nějakým způsobem odhalit plagiát . Existuje také řada počítačových metod odhalování plagiátů .

Problém plagiátorství

Plagiátorství se stalo vážným problémem s příchodem internetu . Jakmile jsou znalosti na internetu, stávají se majetkem všech, je stále obtížnější a dokonce nemožné respektovat autorská práva [4] . Postupně je obtížnější identifikovat původního autora.

Rychlý rozvoj internetu spolu se zvyšující se počítačovou gramotností přispívá k pronikání plagiátorství do různých oblastí lidské činnosti: plagiátorství je akutním problémem ve školství, průmyslu i vědecké komunitě [5] .

Plagiátorství je zločin. To uvádí čtenáře v omyl, poškozuje autora a poskytuje plagiátorovi nezasloužené výhody [6] .

Široký přístup k domácí i zahraniční literatuře, mnohonásobný nárůst počtu odborných publikací, publikací na internetu – to vše prakticky ruší jakékoli redakční aspirace na „ověření“ či „ustavení“ pravosti a originality argumentů a faktů použitých v rukopisy navržené k publikaci [7] .

Metody odhalování plagiátů

Ilustrace ukazuje klasifikaci metod odhalování počítačových plagiátů z technického hlediska.

Metody jsou charakterizovány typem hodnocení podobnosti.

Globální hodnocení používá velké části textu nebo dokumentu k nalezení celkové podobnosti, zatímco místní metody zadávání kontrolují omezený segment textu.

V současné době je nejrozšířenějším způsobem snímání otisků prstů :

Z řady dokumentů je vybrána sada několika podřetězců, což jsou „otisky prstů“. Dotyčný dokument bude porovnán s otisky prstů u všech dokumentů ve sbírce. Nalezené shody s jinými dokumenty označují společné segmenty textu [8] .

Kontrola dokumentu s doslovným překrýváním textu je klasické porovnávání řetězců.

Skenování podezřelých dokumentů v této situaci vyžaduje výpočet a efektivní ukládání srovnatelných reprezentací všech dokumentů v referenční kolekci, které jsou porovnávány po párech. Obvykle se používají modely, jako je strom přípon nebo pole přípon , které byly přizpůsobeny k provádění tohoto úkolu v kontextu detekce počítačového plagiátu. Porovnávání podřetězců však není schůdným řešením pro kontrolu velkých sbírek dokumentů (algoritmus provádí průměrně 2h porovnávání, kde h je délka prohledaného řetězce) [9] .

Analýza "mnoho slov"je zjednodušením reprezentace používané při zpracování přirozeného jazyka a vyhledávání informací. V tomto modelu je text reprezentován jako neuspořádaná množina slov. Dokumenty jsou reprezentovány jako jeden nebo více vektorů, které se používají pro výpočet párové podobnosti [10] [11] [12] .

Citace je počítačová metoda detekce plagiátů navržená pro použití ve vědeckých pracích, která umožňuje použití citací a referenčních materiálů. Identifikuje společné citace dvou vědeckých prací.

Citační vzor je podsekvence obsahující nejen společné citace dvou dokumentů, ale také podobné pořadí a podobnost citací v textu, což jsou hlavní kritéria pro určení citačního vzoru [13] [14] [15] [16] .

Stylometrie neboli studium jazykových stylů je statistická metoda pro identifikaci autorství anonymních dokumentů a pro počítačovou kontrolu plagiátorství.

Stylometrické modely jsou stavěny pro různé fragmenty textu , pasáže, které jsou stylově odlišné od ostatních. A porovnáním modelů lze odhalit plagiát [17] .

Například analýza založená na sekvencích slovních druhů . Zvažuje se metoda rozdělení textu na fragmenty homogenity. Jako rozdělovací parametry se berou různé sekvence slovních druhů. Dalším krokem je analýza fragmentů. V důsledku toho jsou pro text nalezeny sekvence, které extrahují fragmenty z textů, to znamená, že algoritmus vybírá fragmenty heterogenity z textu, které mají různé frekvence výskytu vybrané sekvence slovních druhů, což naznačuje možnou plagiátorství na tomto místě [18] .

Přehled stávajících systémů

V současné době existuje poměrně velké množství služeb a programů, které umožňují nějakým způsobem identifikovat výpůjčky. [19] Mezi ně patří: Antiplagiarism systém , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .

Systém proti plagiátorství

Systém byl vyvinut společností Forexis [20] . Systém provádí online vyhledávání ve velkém množství dokumentů uložených ve vlastní databázi systému, prostřednictvím partnerských databází, včetně: Ruské státní knihovny, Vědecké elektronické knihovny ELibrary.ru, Lexpro, a také prostřednictvím databáze uživatele. „Antiplagiátorství“ prohledává internet pomocí vlastních prostředků, a proto je méně efektivní než systémy využívající Yandex. xml. V bezplatné verzi systému je k dispozici pouze zkrácená forma přehledu.

Program Advego Plagiatus

Program provádí online ověření pomocí vyhledávačů [21] . Na rozdíl od podobných systémů Advego Plagiatus nepoužívá Yandex.XML (bezplatná služba, která vám umožňuje provádět automatické vyhledávací dotazy pro Yandex a publikovat jeho výstup na vašem zdroji).

Program udává procento shody textu a zobrazuje nalezené zdroje. Program nepřevádí písmena, to znamená, že nedochází k převodu velkých a malých písmen , žádnému zpracování a změně latinských písmen v ruských slovech na podobná písmena ruské abecedy pro texty v ruštině.

Nechybí ani podpora vyhledávání ve vlastní databázi; vzhledem k povaze práce nastávají situace, kdy se výsledky kontroly čas od času liší.

Odhlásit službu

Služba Unplag Kontrola plagiátů [22] dokáže kontrolovat plagiát jak v reálném čase online, tak dokument porovnávat s uloženou databází dokumentů v knihovně uživatele. Podporuje práci s různými typy dokumentů. Existují osobní a firemní programy. Pracuje také se systémem pro správu kurzů Moodle , Canvas, Blackboard, Sakai .

Služba www.miratools.ru

Služba umožňuje online kontrolu textu na plagiát [23] . Systém využívá výsledky vydávání vyhledávačů. Je možné nahradit anglická písmena ruskými. Je také možné změnit délku a rozteč použitého šindele pro ověření. Na základě výsledků kontroly je uvedeno procento shod a nalezené zdroje. Systém nepracuje s vlastní databází, je zde limit na délku textu 3000 znaků a limit na počet kontrol za den.

Služba www.istio.com

Služba kontroluje text na přítomnost vypůjčeného obsahu pomocí vyhledávačů Yandex.XML a Yahoo.com . [24] . Na základě výsledků kontroly se zobrazí zpráva o tom, zda je text jedinečný či nikoli, a zobrazí se seznam podobných stránek webu. Služba poskytuje další nástroje pro analýzu textu, jako je kontrola pravopisu, analýza nejčastějších slov atd. Systém nemá konverzi písmen a vyhledávání ve vlastní databázi.

Praide Unique Content Analyzer II

Program kontroluje texty pomocí vyhledávačů [25] . Je možné vybrat použité vyhledávače, obsahuje prostředky pro přidávání nových vyhledávačů. Kontrola se provádí šindelem, jehož délku lze měnit. Můžete nastavit počet slov překrývajících se šindelem. Zobrazí se podrobná zpráva o kontrole v každém vyhledávači. Program nenahrazuje písmena, nezpracovává zastavovací slova a nepodporuje práci s vlastní databází.

Plagiatinformační systém

Systém kontroluje dokumenty na výpůjčky jak v lokální databázi, tak na internetu [26] . Systém je schopen odhalit plagiát ve formě dokumentů složených ze „smíšených“ kusů textu z více zdrojů. Kontrolu lze provést pomocí rychlého nebo hlubokého vyhledávání. Výsledky testu jsou prezentovány ve formě vizuální zprávy. Neexistuje žádná konverze písmen. Neexistuje žádná možnost bezplatného používání nebo testování systému.

Služba copyscape

Systém Copyscape umožňuje vyhledávat kopie webových stránek na internetu [27] . Systém vrátí seznam webových stránek, které mají text podobný obsahu. Služba kontroluje vypůjčený obsah pomocí Google a Yahoo!

Kontroluje se pouze obsah webové stránky, to znamená, že pro určení jedinečnosti textu je nutné text zveřejnit na webu a zadat adresu stránky do systému. Bez registrace je limit na počet kontrol za měsíc a na počet zobrazených výsledků – 10 stránek. Pro registrované uživatele není omezen počet kontrol a výstupních výsledků, ale každá žádost stojí 5 centů.

Soutěž o plagiáty

Odhalování plagiátorství (zejména parafrázovaného) je aktivně studovaným technickým a vědeckým problémem. Soutěže na automatické odhalování plagiátů se pravidelně konají pod záštitou iniciativy PAN [28] . První soutěž na identifikaci plagiátů v ruskojazyčných dokumentech se konala v roce 2017 v rámci konference Dialogue on computational linguistics [29] .

Viz také

Poznámky

↑ Stein, Koppel, 2011 .
↑ ACT BSSS, 2011 .
↑ Johnston, 2008 .
↑ Aushra, 2006 .
↑ Diaghilev, Tskhai, Butakov, 2011 , pp. 23.
↑ Bouville, 2008 , pp. 331.
↑ Ushakin, 2001 .
↑ Brin, Davis, Garcia-Molina, 2001 , pp. 36-41.
↑ Monostori, Zaslavsky, Schmidt, 2000 , pp. 226–227.
↑ Leong, Lau, Rynson, 1997 , pp. 70-77.
↑ Dreher, 2007 , s. 601-614.
↑ Muhr, Zechner, 2009 , pp. 47-55.
↑ Gipp, Beel, 2009 , pp. 571–575.
↑ Gipp, Beel, 2010 , str. 273–274.
↑ Gipp, Meuschke, Beel, 2011 , pp. 255–258.
↑ Gipp, Meuschke, 2011 , pp. 249–258.
↑ Meyer zu Eissen, Stein, 2006 , pp. 565–569.
↑ Sedov, Rogov, 2013 .
↑ Šarapov, Šarapovová, 2011 .
↑ antiplagiat.ru - Anti-plagiarism Archivovaná kopie z 13. října 2012 na Wayback Machine
↑ advego.ru - kontrola jedinečnosti textu . Získáno 9. prosince 2012. Archivováno z originálu 11. prosince 2012. (neurčitý)
↑ Kontrola plagiátů Unplag vám poskytuje hlášení v reálném čase . unplag.com. Získáno 21. července 2016. Archivováno z originálu 14. července 2016.
↑ miratools.ru – Služba pro kontrolu jedinečnosti obsahu Archivováno 9. prosince 2012 na Wayback Machine
↑ istio.com - Služba pro analýzu textů a stránek . Získáno 9. prosince 2012. Archivováno z originálu 9. prosince 2012. (neurčitý)
↑ Praide unique content analysis - Kontrola jedinečnosti textu na internetu (downlink) . Datum přístupu: 9. prosince 2012. Archivováno z originálu 20. listopadu 2012. (neurčitý)
↑ plagiatinform.ru - Systém pro odhalování plagiátů v dokumentech Archivováno 29. července 2012 na Wayback Machine
↑ copyscape.com - Copyscape Kontrola plagiátorství . Získáno 9. prosince 2012. Archivováno z originálu 8. prosince 2012. (neurčitý)
↑ PAN je série vědeckých akcí a sdílených úkolů v oblasti digitální textové forenzní (downlink) . Získáno 5. září 2017. Archivováno z originálu 15. září 2017. (neurčitý)
↑ Soutěž o hledání výpůjček v ruských textech . Získáno 5. září 2017. Archivováno z originálu 5. září 2017. (neurčitý)

Literatura

v Rusku

Aushra A. Vědecká elektronická knihovna jako prostředek boje proti plagiátorství // International Forum Educational Technology & Society 9(3). - 2006. Archivováno 20. září 2016. (Ruština)
Diaghilev V. V., Tskhai A. A., Butakov S. V. Architektura služby odhalování plagiátů, která vylučuje možnost porušení autorských práv . Vestnik NSU. Série: Informační technologie.. - 2011. (Ruština) (nepřístupný odkaz)
Ushakin S. Plagiátorství? O etice ve vědě // Společenské vědy a modernita. — 2001. (Ruština)
Sedov A. V., Rogov A. A. Analýza nehomogenit v textu na základě sekvencí slovních druhů. // Moderní problémy vědy a vzdělávání - 2013. - Vydání. 1 . (Ruština)
Shakhrai S. M. , Arister N. I. , Tedeev A. A. O plagiátorství ve vědeckých dílech (disertační práce k vědecké hodnosti): vědecká a metodologická příručka . - M. : MII, 2014. - 176 s. - 1000 výtisků. - ISBN 978-5-00077-056-6 . Archivováno25. října 2015 naWayback Machine
Sharapov R. V., Sharapova E. V. Systém pro kontrolu textů pro výpůjčky z jiných zdrojů // Všeruská vědecká konference Elektronické knihovny: pokročilé metody a technologie, elektronické sbírky .. - 2011. (Ruština)

v jiných jazycích

Brin S., Davis J., Garcia-Molina H. Mechanismy detekce kopírování pro digitální dokumenty (anglicky) // Vine.. - 2001.
Bouville M. Plagiarism: Words and ideas (anglicky) // Science and Engineering Ethics. — 2008.
Dreher H. Automatic Conceptual Analysis for Plagiarism Detection // Information and Beyond: The Journal of Issues in Informing Science and Information Technology. — 2007.
Johnston B. Pojem plagiátorství . — 2008. (nepřístupný odkaz)
Gipp B., Beel J. Citation Proximity Analysis (CPA) – Nový přístup k identifikaci související práce na základě Co-Citation Analysis (anglicky) // International Society for Scientometrics and Informetrics. - 2009. Archivováno 13. září 2012.
Gipp B., Beel J. Odhalování plagiátů založené na citacích – nový přístup k nezávislé identifikaci plagiátů v pracovním jazyce. (anglicky) // ACM. - 2010. Archivováno 25. dubna 2012.
Gipp B., Meuschke N., Beel J. Comparative Evaluation of Text- and Citation-based Detection Plagiarism Detection Approaches using GuttenPlag. (anglicky) // ACM. - 2011. Archivováno 25. dubna 2012.
Gipp B., Meuschke N. Algoritmy pro porovnávání citačních vzorů pro detekci plagiátů na základě citací: chtivé skládání citací, slučování citací a nejdelší běžná sekvence citací. (anglicky) // ACM. - 2011. Archivováno 25. dubna 2012.
Leong A., Lau H., Rynson WH Check: A Document Plagiarisment Detection System // ACM . — 1997.
Meyer zu Eissen S., Stein B. Detekce vnitřního plagiátorství. (anglicky) // Springer . - 2006. Archivováno 2. dubna 2012.
Monostori K., Zaslavsky A., Schmidt H. Systém detekce překrývání dokumentů pro distribuované digitální knihovny // ACM . - 2000. Archivováno 15. dubna 2012.
Muhr M., Zechner M. Externí a vnitřní detekce plagiátů. Použití vektorových prostorových modelů . - 2009. Archivováno 2. dubna 2012.
Stein B., Koppel M. Analýza plagiátů, identifikace autorství a detekce téměř duplicit PAN'07 (anglicky) // Fórum ACM SIGIR.. - 2011. Archivováno 2. dubna 2012.
ACT BSSS. Co je to plagiátorství? Jak se tomu můžete vyhnout. (anglicky) // ACT Board of Senior Secondary Studies .. - 2011. Archivováno 18. dubna 2013.
Jak nástroj plagiátorství funguje // Unplag Wiki. — 2015.