Интернет: источник плагиата или средство его выявления?

Александр Прохоров

Что такое плагиат

   Как избежать плагиата

   Интернет-банки рефератов (term-paper mills)

Как выявить плагиат с помощью Интернета

   Turnitin tool

   Plagiarism-Finder 1.0.9

   CopyCatch Gold

 

Учитель: «Какими компьютерными технологиями вы пользовались при написании реферата?»
Ученик: «Ctrl+C, Сtrl+V».

Один источник — это плагиат, два — компиляция, а три — диссертация.

В настоящее время все больший объем документов переводится в электронную форму и становится доступным по Сети. Благодаря этому появляются новые возможности для организации телеработы и дистанционного образования. Например, журналист может работать вне офиса своего издательства, получая большую часть информации из Интернета, а студент — написать сочинение и отправить его преподавателю виртуального университета.

Как известно, любое технологическое новшество можно обернуть как во благо, так и во вред. Легкость поиска и копирования нужного документа привела к массовому распространению плагиата. Согласно данным университета немецкого города Билефельд, 30% всех рефератов, домашних заданий и дипломных работ списаны из Интернета. Однако немцы — народ законопослушный, поэтому по данному показателю они далеко не впереди планеты всей. Например, по результатам исследования Who’s Who Among American High School Students, 80% студентов США хотя бы однажды списывали курсовые из Интернета и выдавали их за свои. Конечно, не является исключением и наша страна. Сегодня аналитики считают плагиат одной из основных причин кризиса в образовании. Прежде чем перейти к разговору о том, как бороться с этой проблемой, рассмотрим подробнее, что именно является плагиатом.

Что такое плагиат

Плагиат (от лат. plagio — похищаю) — умышленное присвоение авторства на чужое произведение литературы, науки, искусства, изобретение или рационализаторское предложение (полностью или частично), предусматривающее уголовную и гражданскую ответственность за нарушение авторских и изобретательских прав. Плагиат может выступать в форме выдачи чужого произведения за свое, незаконного опубликования чужого произведения под своим именем или нарушения правил цитирования.

Следует отметить, что правила цитирования возникли еще в древности и использовались уже при комментировании книг Священного писания. Без соблюдения правил цитирования было бы невозможно развитие науки, так как проследить преемственность научной мысли без них практически нереально.

Плагиат трактуется как разновидность нарушения авторского права — права, которое регулирует правоотношения, связанные с созданием и использованием (изданием, исполнением, показом и т.д.) произведений науки, литературы и искусства, то есть результатов творческой деятельности людей в этих областях.

Авторское право обеспечивает моральное и материальное стимулирование творческих работников к созданию и распространению в массах научных и культурных ценностей. Автору принадлежат права на опубликование, воспроизведение и распространение произведений. Без согласия автора и заключения с ним авторского договора использование произведений не допускается. Право на авторство и авторское имя обеспечивает право на неприкосновенность произведений, означающее, что только автор может вносить в свое произведение изменения или разрешать вносить их другим лицам. Кроме того, автор имеет право на получение вознаграждения за использование произведений другими лицами.

С появлением Интернета у некоторых пользователей Сети возникла иллюзия, что поскольку Сеть доступна каждому, то и ее контент никому не принадлежит, что совершенно неверно. Публикация в Интернете отличается от публикации в журнале только носителем информации. И в том и в другом случае имеется автор, который совершил определенную работу для создания произведения. Присвоение чужого труда и получение за этот счет выгоды является нарушением закона независимо от того, на каком носителе опубликована информация.

Отсутствие единоначалия и цензуры в Интернете и легкость копирования материалов в цифровой форме привели сегодня к тому, что в Сети появилось много похожих текстов, часто не имеющих ссылки на первоисточник.

Многие авторы полагают, что публикация в Интернете размывает их авторские права, однако это неверно. Имея на своей Web-страничке собственные опубликованные материалы, проще отстаивать авторское право.

В принципе, избыточность популярной информации в Сети приводит к тому, что доступ к этой информации более надежен. Если исходный сайт заблокирован, можно просмотреть информацию на другом, поэтому в случае, когда копирующие информацию сайты дают ссылку на первоисточник и делают это с согласия автора ресурса, проблем не возникает. Если же ссылок на первоисточник не делается, возникает вопрос, насколько можно доверять этой информации. Как правило, одним авторам мы доверяем меньше, другим — больше, и когда неизвестно, кто автор, то трудно понять, насколько достоверна информация.

Коммерциализация Сети несколько изменила отношение к плагиату в ней. Если на вашем сайте размещена реклама ваших же товаров, то вы, скорее всего, будете заинтересованы в том, чтобы эта информация распространялась по Сети. Более того, если ваша статья (имеющая скрытую рекламу) будет транслирована из независимого источника, то для вас (автора скрытой рекламы) будет выгодно, чтобы текст претерпел минимум изменений. Поэтому большая часть информации в Сети создается именно для того, чтобы ее копировали. Пресс-релизы, новости компаний, анонсы обновления линейки продуктов, рекламные мультики — все это информация, которую авторы-маркетологи стремятся увидеть в прессе и на сайтах новостных ресурсов, причем желательно в неизменном виде.

Если же на вашем сайте размещена информация, служащая для привлечения посетителей (справочник, словарь, техническая статья, информация развлекательного характера, эксклюзивное интервью с интересными людьми и т.п.) и генерирующая трафик на ваш сайт, то упустить ее на чужой сайт (а вместе с ней часть трафика, а следовательно, денег) нет никакого желания.

Чтобы защитить информацию от копирования с сайта, авторы часто прибегают к программным методам. В частности, добавляют тэги, которые запрещают копирование в буфер. В этом случае при попытке скопировать часть текста в буфер с целью вставки его в свой документ пользователь обнаружит, что функция не работает. Однако данные уловки рассчитаны лишь на новичков. Более-менее искушенный пользователь всегда сможет украсть текст, отображаемый на экране. Например, можно просмотреть исходник (source code) страницы в блокноте, и для восстановления текста останется только вычистить лишние тэги. Можно сохранить всю страницу на жестком диске, а потом открыть ее в Word. В крайнем случае можно выполнить команду Print Screen и распознать полученную картинку с помощью программы FineReader.

Возможно, наиболее эффективный способ защиты информации — внепрограммный. Например, в тексте вы ссылаетесь на свой сайт, вставляете свою рекламу, и даже если ваш текст перекочует к конкуренту, он по-прежнему будет работать на вас. В этом случае утечка текстов может оказаться даже выгодной.

Таким образом, в разных случаях плагиат может вызывать различную реакцию у правообладателя текстов. Однако разное отношение к плагиату не освобождает от ответственности. Многие полагают, что в Интернете плагиат менее заметен, однако это не так. Найти и доказать факт плагиата в Сети проще, чем в печатных изданиях. Поисковые системы и специальные программы позволяют сделать это, причем дают даже количественные характеристики интеллектуального пиратства в мировом масштабе.

Проблема состоит еще и в том, что многие даже не знают, что занимаются плагиатом, и не прикладывают усилий к тому, чтобы избежать данного правонарушения.

Как избежать плагиата

Для того чтобы избежать плагиата при написании текстов, достаточно соблюдать три простых правила:

  • ссылаться на источники приводимой информации (фактов, мнений, теорий, статистики, графиков, рисунков), если она не является общеизвестной;
  • приводить в кавычках высказывания или отрывки из произведений других авторов;
  • избегать недопустимого перефразирования.

Следует дать определение терминам «общеизвестная информация» и «недопустимое перефразирование».

Общеизвестная информация (сommon knowledge) — это факты, которые могут быть получены из общедоступных источников и известны большому числу людей. Нет смысла ссылаться на источник, приводя дату начала Великой Отечественной войны, а вот при предоставлении данных о сравнительном тестировании производительности компьютеров разных марок, источник указать необходимо.

Недопустимое перефразирование (unacceptable paraphrase) — это скрытое использование чужого текста путем механической перестановки местами слов и фраз, замены слов синонимами при отсутствии новых мыслей в перефразированном тексте. Формальное изменение последовательности слов в оригинале не отменяет плагиата.

Отдельно следует сказать о презентациях, которые часто создаются путем слияния нескольких документов и придания текстам другой формы (используются иные цветовые схемы, шрифты и т.п.). Изменение формы подачи материала не устраняет факт плагиата.

Следует подчеркнуть, что нарушение авторских прав в целях коммерческого использования «украденных» путем плагиата произведений влечет за собой как гражданскую, так и уголовную ответственность — вспомните борьбу с книгами, выпущенными без договора с авторами, с пиратскими дисками, видеокассетами и пр. Об этом было написано немало. Однако в данной статье мы хотели бы прежде всего обратить внимание читателей на тот способ применения плагиата, который практически ненаказуем по закону, но имеет широчайшее распространение в нашей стране и наносит огромный вред обществу, причем не только жертвам, но и тем, кто крадет чужие тексты, не приобретая при этом ни новых знаний, ни мыслей — ничего, кроме несправедливой оценки в зачетке или в классном журнале… Тем более что эта форма нарушения авторских прав в нашей стране (в отличие, например, от США и стран Западной Европы) широкими массами, особенно учащейся молодежью, как серьезное правонарушение не воспринимается. Но, видимо, не за горами то время, когда и у нас плагиат будет не только эффективно выявляться, но и более жестко наказываться.

Интернет-банки рефератов (term-paper mills)

Во все времена существовал институт частных репетиторов. Одни из них добросовестно занимались с нерадивыми учениками во внеурочное время или готовили к поступлению в вузы более способных, другие промышляли тем, что делали задания вместо учеников. Практически все, что существует в офлайне, появляется и в Сети. Так, были созданы специальные организации (на западе они называются digital term-paper mills, а в России — банками рефератов), которые продают или раздают рефераты и курсовые студентам. Как правило, такие онлайновые группы не получают непосредственной прибыли от распространения рефератов, раздавая их бесплатно, а существуют они за счет рекламы. В качестве примеров подобных сайтов можно привести http://www.CheatHouse.com/ (рис. 1) и отечественный http://www.referat.ru (рис. 2).

 

Рис. 1. Ресурс CheatHouse.com

Рис. 1. Ресурс CheatHouse.com

Рис. 2. Ресурс Referat.ru

Рис. 2. Ресурс Referat.ru

Не знаю, какую прибыль имеет наш Referat.ru, но оборот компании CheatHouse.com составляет сотни тысяч долларов.

На Западе, особенно в престижных университетах, ведется активная борьба с плагиатом в студенческих работах. Причем последствия для студентов, уличенных в мошенничестве, могут быть достаточно тяжкими. Студент может быть даже отчислен из университета. Повторное же использование собственных работ может расцениваться как рециркуляция (recycling work), то есть плагиат.

У нас пока студенты за плагиат не преследуются. Заслуживает цитирования одна фраза, принадлежащая автору реферата, выставленного для копирования: «…есть правда, ошибки, но вы меня извиняйте… Я думаю, что преподаватель Иванов со своими знаниями не докопается до этой работы»1.

 


1 Имя изменено, орфография сохранена.

 

В начало В начало

Как выявить плагиат с помощью Интернета

Для выявления подлинных источников студенческих работ всё больше преподавателей начинает прибегать к помощи специализированных программ — поисковиков плагиата.

Turnitin tool

http://www.Turnitin.com/

Turnitin tool — это ведущее на мировом рынке онлайновое средство проверки документов на наличие плагиата. Принцип работы программы показан на рис. 3.

 

Рис. 3. Пример работы программы Turnitin tool

Рис. 3. Пример работы программы Turnitin tool

Механизм работы программы следующий: документ разбивается на фрагменты, которые сравниваются с содержимым базы данных при помощи статистического алгоритма. Поиск плагиата происходит на базе сравнения исходного текста с миллионами страниц контента в Интернете и внутренних баз данных.

В базе хранятся произведения классиков, учебные и научные работы. В случае обнаружения текстовых совпадений система выдает предупреждение. Архив постоянно пополняется работами, которые были предоставлены на экспертизу по поводу плагиата. Интересно отметить следующий юридический казус: архивирование и дальнейшее использование учебных работ в системе антиплагиата само по себе не соответствует европейским правовым нормам об охране авторских прав, поэтому многие европейские университеты, являющиеся клиентами Turnitin, требуют от студентов письменного согласия с тем, что их работы будут сохранены в соответствующих электронных архивах.

Turnitin работает с большинством европейских языков, в том числе с английским, испанским, немецким, французским, итальянским. Программа является платной. Обычно лицензию покупает университет.

Plagiarism-Finder 1.0.9

http://www.m4-software.com/en-index.htm

Plagiarism-Finder (рис. 4) — это приложение, позволяющее проверить текст на предмет текстуального совпадения с документами, хранящимися в Интернете (рис. 5). Plagiarism-Finder генерирует HTML-отчет, выделяет в тексте подозрительные абзацы и выдает ссылки на Web-странички, где содержатся похожие абзацы.

 

Рис. 4. Интерфейс программы Plagiarism-Finder

Рис. 4. Интерфейс программы Plagiarism-Finder

Рис. 5. Схема работы программы Plagiarism-Finder

Рис. 5. Схема работы программы Plagiarism-Finder

Программа работает под управлением Windows 98 SE/Windows 2000/XP; рекомендовано CPU не ниже 600 МГц и как минимум 64 Mбайт RAM. Желательно широкополосное подключение.

Длительность анализа зависит от требуемой точности, мощности ПК и качества канала выхода в Интернет.

Анализ курсовой, содержащей 35 страниц (20 тыс. слов, 125 тыс. знаков), с широкополосным доступом DSL займет примерно 2 мин (выборочный контроль), 6 мин понадобится для так называемого среднего контроля (используется по умолчанию) и 40 мин — для проведения тщательной проверки.

Документ должен быть представлен в цифровой форме. Plagiarism-Finder импортирует документы в форматах PDF (Acrobat Reader), DOC (Microsoft Word), HTML, TXT (Plain Text) или RTF (Rich TextFormat). Практически любой текстовый процессор позволяет представить документ в одном из данных форматов. При этом пользователь ПК может даже не иметь программы Microsoft Word.

Программа ищет похожие тексты и выдает ссылки, однако вывод о том, плагиат это или нет, рекомендуется делать при визуальном сравнении текстов экспертом.

CopyCatch Gold

http://www.copycatchgold.com

CopyCatch Gold была разработана программистом британской фирмы CFL Software Дэвидом Вулсом. В этой программе контролю прежде всего подвергается сам текст.

Программа анализирует длину предложений, частоту использованных слов разного типа, частоту употребления придаточных предложений и пытается найти стилистические сбои.

CopyCatch Gold — это программа, а не сервис. Работает она с большинством популярных форматов и обеспечивает высокую степень точности при поиске материалов с общими разделами. Программа существует в двух модификациях: CopyChecker — средство самоконтроля студентов и CopyCatch Investigator — инструмент для издательского бизнеса.

CopyChecker служит для защиты от непреднамеренного плагиата. Программа позволяет проверить текст и подсказывает, как избежать плагиата (рис. 6).

 

Рис. 6. Интерфейс CopyChecker

Рис. 6. Интерфейс CopyChecker

CopyCatch Investigator предназначена для поиска плагиата в издательском бизнесе. Она сравнивает новую работу автора с его предыдущими публикациями, а также осуществляет контроль дублирования внешних публикаций.

****

В заключение следует сказать, что ПО для поиска плагиата — тоже не панацея и вряд ли сможет положить конец электронному плагиату. В Интернете хранится огромное количество рефератов в архивированном виде, и не каждая онлайновая программа, которая будет искать прототип, сможет их найти.

Тем не менее важно, что существуют программы, которые могут доказывать факт плагиата, — это требует от авторов более ответственного отношения к своей работе. Однако многое зависит и от того, какие меры принимаются по борьбе с плагиатом.

Чтобы организовать в России повсеместную сдачу ученических работ в электронном виде и их программную проверку на плагиат, требуются большие вложения, поэтому для школ и вузов это пока нереально. Кстати, в рассмотренных выше программах русский язык не поддерживается именно потому, что у нас в стране на них нет спроса.

Однако найти плагиат можно и без специализированного ПО. Пользуясь обычными поисковыми машинами, можно достичь таких же результатов, правда на поиск уйдет больше времени. Достаточно выбрать наиболее характерные фразы из студенческой работы, заложить их в ряд популярных поисковых машин, и вы, скорее всего, найдете источник, если работа списана из Сети. Если вы хотите выявить факт недобросовестного перефразирования, выберите из текста от трех до пяти существительных, которые школьники обычно не меняют, ограничиваясь подбором синонимов для глаголов и прилагательных, и проанализируйте данный набор слов в поисковике. Вполне вероятно, что вы обнаружите источник представленной на проверку работы.

Впрочем, уличить плагиатора не так сложно — проблема в том, что многие преподаватели просто закрывают глаза на то, что работы содержат явный плагиат, а к проверке с помощью поисковых машин прибегают крайне редко. Мизерная зарплата заставляет преподавателей поступать по принципу: «Они делают вид, что они нам платят, а мы делаем вид, что мы работаем».

В результате студенты, которые хорошо компьютеризированы, чаще посещают Сеть и ориентируются в ней лучше, чем преподаватели, и пишут в аннотациях к рефератам, выставленным в Сети, «что преподаватель (с его-то знаниями!) вряд ли до него докопается!».

КомпьютерПресс 10'2004