Библиотечно-музейный комплекс ТюмГУ

Что умеет «Антиплагиат» и как он этому учится?

20 июня
2019

Во время сессии один из главных вопросов «как успешно пройти проверку диплома на объем заимствований?». Мы обратились с этим вопросом к исполнительному директору компании «Антиплагиат», кандидату физико-математических наук, Юрию Викторовичу Чеховичу. По результатам исследования компании «Антиплагиат», 10% всех диссертаций в РФ, защищенных после 2000 года, практически не имеют оригинального текста. В масштабах страны получается огромная цифра. Какие задачи в связи с этим ставят перед собой разработчики?

1. Пару слов об истории создания системы «Антиплагиат».

История системы «Антиплагиат» началась в 2005 году, когда к отечественному производителю программного обеспечения – компании «Форексис» – обратился ректор МИЭМП Артемий Никитов. Он рассказал нам, что списывание студентами из Интернета достигло фантастических масштабов. Достаточно сказать, что так называемые сайты рефератов в то время были самыми популярными ресурсами. При этом, инструментов обнаружения заимствований, способных работать с текстами на русском языке, не существовало, тогда как зарубежные англоязычные сервисы функционировали уже со второй половины 90-х годов.

Чуть позже, в процессе разработки системы мы убедились в том, что проблема действительно актуальна. Мы собрали из нескольких московских вузов дипломные работы, защищенные на «отлично», и с помощью обычных поисковиков обнаружили, что большая часть работ была почти полностью скопирована из интернета, изменения коснулись лишь титульного листа. Стало понятно, что система создается не зря. В результате 4 сентября 2005 мы запустили сайт antiplagiat.ru. Правда, потребовались годы, чтобы система приобрела популярность, а вузы стали применять «Антиплагиат» в своей работе. Постепенно проблема неправомерных заимствований была осознана властью, и наше решение стало «стандартом де-факто» в России и ряде стран ближнего зарубежья.

2. Специалисты каких областей занимаются «обучением» и совершенствованием системы?

 Наша команда преимущественно состоит из математиков, программистов, инженеров. Многие из них– специалисты в области машинного обучения, в том числе, и с учеными степенями. Иногда привлекаем к проекту лингвистов, правда, в режиме аутсорсинг.

Скажу честно, что я горжусь командой, которую удалось построить в компании «Антиплагиат». Уверен, что нам по плечу самые амбициозные задачи.

3. Салтыков-Щедрин говорил: «Суровость российских законов компенсируется необязательностью их исполнения», несовершенство «Антиплагиата» не является ли возможностью смягчить суровость приказа Минобрнауки №636 от 29.06.2015 г.?

Я не назвал бы приказ № 636 в части требований к обнаружению заимствований суровым. Скорее наоборот. В нем всего лишь установлено требование обеспечить сбор и проверку ВКР на заимствования. Конкретный порядок устанавливается локальными документами вуза. При этом никто не может навязать вузу какие-либо конкретные требования к этим документам. Вуз вправе самостоятельно устанавливать порядок проверки, определять ответственных лиц, формировать те или иные требования, предъявляемые к результатам работы.

Что же касается несовершенства «Антиплагиат», то, на мой взгляд, здесь стоит поставить вопрос по-другому. Задача системы – быстро и удобно предоставить пользователю необходимую для принятия решения информацию. Однако принимать решение – это задача преподавателя, эксперта.  Мы постоянно работаем над улучшением функционала системы для того, чтобы преподаватель мог делать свою работу более качественно.

4. Система «Антиплагиат»: «меч карающий» или помощник для обучающихся?

Сразу оговорюсь, что в качестве «карающего меча» «Антиплагиат» мы не воспринимали никогда. Сначала мы создавали систему-помощника для преподавателя и эксперта. Посудите сами: совсем недавно студенту требовалось всего несколько минут и пару кликов, чтобы скопировать нужный текст из интернета и выдать его за свою работу, тогда как у преподавателя уходило гораздо больше времени на то, чтобы доказать наличие неправомерных заимствований в такой работе. Нужно было срочно создать инструмент, который бы помог преподавателю точно также быстро и качественно, фактически в пару-тройку кликов, проверить наличие или отсутствие «чужого» текста в работе. Теперь студент понимает, что простота копирования компенсируется простотой обнаружения скопированного. Однако в последнее время появилось понимание, что «Антиплагиат» – это не просто помощник преподавателя. Очень часто студенты нарушают принципы академической этики в своих работах не по злому умыслу, а просто потому что не знают, как можно и нужно правильно писать любой академический текст. Поэтому наша задача на ближайшие несколько лет, оставаясь помощником преподавателя, стать еще и помощником студента.

5. Какой объем корректных заимствований/цитирований, на ваш взгляд, допустим в работе?

Оговорюсь сразу – цифр в этом ответе не будет.  Начнем с объема корректных заимствований. О некорректных речи не идет – их не должно быть вовсе в любой работе. Корректные заимствования определяются жанром работы. В научной статье доля оригинального текста должна быть достаточно высокой – конкретные цифры зависят от научной области и сложившихся в ней традиций.

Если речь идет о выпускной квалификационной работе, то здесь все очень индивидуально. На мой взгляд, можно устанавливать те или иные показатели на уровне вуза, но лишь как рубежи, в случае нарушения которых могут требоваться дополнительные разъяснения от соискателя и от научного руководителя.

Если говорить про кандидатские и докторские диссертации, то здесь корректные заимствования из собственных научных статей автора не должны ограничиваться каким-либо образом. То есть диссертация может быть составлена из собственных статей автора практически полностью.

6. Является ли гарантией фиксации авторского права размещение работы в открытом доступе? Как автору избежать парадоксальной ситуации, когда при проверке оказывается, что он неправомерно заимствовал собственный текст, ранее опубликованный, но не проиндексированный системой из чужой работы, написанной на основе его издания?

Открытый доступ действительно способен обеспечивает фиксацию авторских прав и облегчить разрешение тех или иных спорных ситуаций. Ведь отсутствие в индексе системы «Антиплагиат» и других поисковых систем чаще всего связано именно с закрытостью оригинального текста. В то время как открытый доступ позволяет зафиксировать и состояние документа, и дату попадания в открытый доступ. Вопросы приоритета в этом случае могут решаться намного проще.

7. Кыров Дмитрий Николаевич, доцент кафедры анатомии и физиологии животных и человека ИнБИО: До сих пор встречаются сбои по выявлению заимствований из удаленных (размещенных на удаленных серверах и доступных через Интернет) источников. Нельзя копировать/дублировать курсы, отправленные в архив. Каждый раз заново нужно вбивать все задания, либо устанавливать дату на 5 лет вперед, чтобы курс не попал в архив.

Наличие галочки по умолчанию с отправлением заданий в ЭБСО не имеет смысла для заданий реферативного типа, а таковыми могут являться и ВКР, тем более БМК не интегрировал систему «Антиплагиат» и отсутствует возможность хранения электронной копии ВКР (это было бы очень удобно для всех участников процесса).

Дмитрий Николаевич задал несколько вопросов, отвечу по порядку.

Про удаленные документы. Это не сбои. Если источник был удален, то он остается в нашем индексе и это абсолютно продуманное решение. Ведь проверяемый документ, если он имеет пересечение текста с каким-либо источником, не становится «более оригинальным» от того, что кто-то удалил этот источник с сервера. Поэтому все, что попадает в индекс системы «Антиплагиат», остается там навсегда. Естественно, с указанием исходного адреса и времени индексирования, то есть с момента загрузки.

Про архивные задания. Здесь вы совершенно правы. Нам необходимо доработать механизм заданий так, как вы предлагаете – это будет гораздо удобнее.

Про ЭБСО. Здесь не очень понятно. Если проверяются ВКР (даже реферативного типа), то они должны отправляться в ЭБСО. В любом случае при создании задания можно выбрать, отправлять или нет результаты в ЭБСО.

Комментарий БМК: с мая текущего года в ТюмГУ развернута платформа электронной библиотеки (https://library.utmn.ru/), где хранятся полные тексты всех ВКР, поступающих в БМК. Кроме того, туда же конвертированы тексты работ с 2016 года, всего на сегодняшний день доступно 11 449 работ, включая филиалы в городах Тобольск и Ишим.  

8. Узнает ли система парафраз и перевод иностранных текстов? И как она это делает?

В течение последних нескольких лет мы научили систему сначала обнаруживать переводные заимствования, совершенные с помощью перевода текста с английского языка на русский. Подробно о том, как работает этот модуль, какие идеи лежат в основе алгоритма и что удается в итоге обнаружить, мы рассказали в статье нашего корпоративного блога на ресурсе Habr.com: https://habr.com/ru/company/antiplagiat/blog/354142/. С момента публикации этой статьи возможности этого модуля расширились за счет подключения новых языковых пар.

Вопрос обнаружения перефразированных текстов также решен. В каком-то смысле алгоритм обнаружения парафраза стал побочным результатом модуля переводных заимствований. Парафраз – это ведь фактически тоже перевод, только в рамках одного языка. Подробности – в этой статье: https://habr.com/ru/company/antiplagiat/blog/422941/.

9. Осипова Людмила Леонидовна, главный менеджер отдела организации образовательного процесса: Хочу поблагодарить компанию «Антиплагиат» за предоставленную возможность переключения учетных записей (выбора учетных записей) для пользователей системы. В целом, за желание совершенствовать систему через взаимодействие с вузами-потребителями. Особенно за проведение вебинаров и круглых столов. 

Вопрос о проверке на заимствования работ, выполненных на иностранном языке (пока только английском). Как будет проверяться работа, по каким коллекциям, будет ли выдана справка о проценте заимствований, на каком языке?

Людмила Леонидовна, спасибо, за приятные слова. Проверка документов на английском языке уже ведется. В нашем индексе около ста пятидесяти миллионов английских документов, при этом база постоянно пополняется. Помимо английского языка, проверка ведется по нескольким десяткам других иностранных языков. Сейчас в основном это документы, представленные в открытом доступе в сети Интернет, также есть нерусскоязычные документы в коллекции Elibrary. Существенно расширяет возможности поиска иноязычных документов модуль поиска «Интернет плюс».

Что касается справки, то ее язык определяется языком интерфейса системы. Если нужна справка или отчет на английском языке, вы можете просто переключить язык интерфейса системы. На поиск это влияния не оказывает.

10. Нечаев Богдан Дмтриевич, студент гр. 27 ПОНБс 161: Какие есть способы, чтобы обойти систему, «АНТИПЛАГИАТ»?

Способов, конечно, можно придумать множество. И некоторые из них вполне действенны. Мы с коллегами даже дали шуточные рекомендации студентам на ресурсе ЛаЛаЛань: https://lala.lanbook.com/kak-obmanut-antiplagiat-7-sovetov-ot-direktora-antiplagiata

А если серьезно, то задумайтесь, зачем вам его обманывать? Чем обман поможет вам? Может быть, вместо того, чтобы выдавать чужие знания за свои, имеет смысл потратить усилия на то, чтобы самостоятельно разобраться в теме, научится писать хорошие работы и действительно стать отличным специалистом, что будет написано у вас в дипломе?

К тому же не стоит забывать, что у любого действия есть последствия. Помните, что удачный «обход антиплагиата» может в дальнейшем негативно сказаться на вашей карьере, когда обман вскроется. Особенно, если вы будете успешны и знамениты. Таких примеров масса и в России, и за рубежом.

11. Каким образом выявляются новые способы обходов системы «Антиплагиат»?

Сейчас, впрочем, как и всегда, у нас есть два основных источника – обращения пользователей и опережающий анализ от наших специалистов. То, что в документе есть обход, выявить несложно, достаточно прочитать полный отчет. Несколько сложнее научить систему выявлять обход до того, как будет выполнена проверка. У нас есть специальная группа разработчиков, которая в постоянном режиме дорабатывает этот модуль, включая в него новые способы выявления обходов.

12. Какие меры, на ваш взгляд, будут способствовать решению проблемы некорректных заимствований и «дипломного» бизнеса? Как вы оцениваете идею с проведением конкурсов на лучшие ВКР для мотивации написания качественной работы?

Я горячо поддерживаю проведение конкурсов на лучшие ВКР любых уровней – внутривузовских, узкотематических, региональных, федеральных. При этом необходимо понимать, что это, конечно, только дополнительная мера.

Мерой, которая, на мой взгляд, могла бы серьезно способствовать повышению качества работ, является обязательное бессрочное размещение выпускных квалификационных работ в открытом доступе.

Подробнее о наших предложения в этой области можно прочитать в статье в журнале Университетская книга (http://www.unkniga.ru/innovation/tehnology/8465-ob-otkrytom-dostupe-k-vypusknym-kvalifikatsionnym-rabotam.html) и материалах 7-й международной научно-практической конференции «Научное издание международного уровня – 2018: редакционная политика, открытый доступ, научные коммуникации» (https://rasep.ru/images/materials/konf2018/163-169.pdf).

13. Спасет ли российское образование практика зарубежных вузов, где распространены «кодексы чести» и списывание чревато очень суровыми последствиями?

Я бы не использовал громкие слова про спасение образования, но считаю, что внедрение таких механизмов, как «кодексы чести» или «этические кодексы», совершенно необходимо нашим вузам и системе образования в целом. В нашей образовательной среде мы слишком лояльно относимся к нарушения профессиональной этики. Ведь если вдуматься, последствия такого отношения больно ударяют по нам с вами, по нашему обществу. Люди, списавшие свои работы, то есть, по сути, не подтвердившие должным образом свою квалификацию, после окончания вуза нас лечат, стоят дома, в которых мы живем, учат наших детей и внуков. Почему мы должны закрывать на это глаза? Зачем мы сами создаем условия, в которых мы растим некачественных специалистов?

14. Если вы так яростно боретесь с плагиатом, то почему система для вузов стоит так дорого?

Не могу согласиться с посылкой. Есть зарубежные решения, которые стоят в разы дороже и не очень хорошо ищут русскоязычные заимствования, есть дешевые подделки, которые практически ничего не могут найти, есть возможность вузу самостоятельно разработать решение и убедиться, насколько это сложно и дорого. Мы разработали систему, которая действительно находит некорректные заимствования в русскоязычных текстах. На мой взгляд, несколько сотен тысяч рублей в год для вуза и несколько десятков тысяч рублей для НИИ или издательства ̶ разумные деньги за предлагаемый функционал.

Создав систему и выведя ее, как минимум, на национальный масштаб, мы при этом как раз обеспечили возможность каждой организации проверять документы недорого и максимально качественно.

15. Возможно ли судить о качестве работы по результатам проверки в системе? И почему?

«Антиплагиат» позволяет судить только об одном аспекте качества работы – составе и структуре заимствованного материала. Все остальные критерии – новизна, актуальность, полнота и т.д. – должен отслеживать преподаватель, рецензент, эксперт. К сожалению, очень часто мы сталкиваемся с тем, что «процент оригинальности» текста работы рассматривается как едва ли не единственный показатель качества работы. Это настолько же странно и настолько же неправильно, как использование любого другого технического показателя, например, «количества букв «А», «количество восклицательных знаков» или «индекс Хирша автора». Попытки ввода таких критериев ни о чем, кроме нежелания заниматься содержательным анализом работы, не говорят. Поэтому мы не перестаем повторять, что полноценную проверку работа пройдет только после того, как с ней ознакомится эксперт.

16. Ваше пожелание для студентов ТюмГУ, готовящихся к защите дипломных работ в этом году.

Желаю, как студентам, так и преподавателям меньше обращать внимания на формальные показатели, а больше на содержательную часть дипломных работ. Лучше быть, чем казаться.

И, конечно, творите собственным умом!