ВИКОРИСТАННЯ МЕТОДІВ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ ПРИ ВСТАНОВЛЕННІ АВТОРСТВА ТЕКСТУ

О.В. Залевська; В.В. Ванін; Б.І. Савчук; А. Ситник; Shiwei Zhu

doi:10.33842/2313-125X-2022-24-37-43

О.В. Залевська Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0002-3163-1695
В.В. Ванін Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0001-7008-7269
Б.І. Савчук Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0002-5399-3267
А. Ситник Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0001-8085-2163
Shiwei Zhu Information Research Institute, Qilu University of Technology (Shandong Academy of Sciences), (Jinan, China) https://orcid.org/0000-0002-2875-0706

DOI: https://doi.org/10.33842/2313-125X-2022-24-37-43

Анотація

На цей час не існує ні сервісів, ні окремих програм, алгоритмів та модулів, робота яких полягала у співставленні текстів власника на встановлення того, чи є власник автором усіх текстів, які перевіряються. Надалі буде йти мова саме про потенційний алгоритм, ідею роботи якого
викладено вище. Перевірки n-ої кількості текстів на те, чи автор у них один або декілька, є задачею для якої не обов’язково використовувати потужне устаткування та витрачати час та ресурси на навчання окремої нейронної мережі, завданням якої було б намагатися віднайти
схожі об’єкти у величезній базі даних.

У роботі описано метод швидкого аналізу тексту на предмет встановлення авторства шляхом поділу тексту на елементи та їх окремий аналіз без використання великої кількості часу на обробку даних. Розроблено програму для розрахунків та візуалізації проведеного аналізу тексту, який може внесений в програми в розповсюдженому форматі *.doc або *.docx. Досліджено результати такого аналізу на низці робіт різних авторів та різної тематики робіт. Роботи можуть бути порівняні в рамках одного автора на предмет цілісності авторських робіт або декількох авторів між собою на предмет можливого запозичення матеріалу. Алгоритм не дає гарантованої відповіді та може бути використаний лише як підстава для додаткової перевірки робіт.

На даний момент є актуальним перевірка великої кількості тексти з причини потреби встановлення його оригінальності. Є типовим вважати, що за випадком, коли текст є оригінальним, а саме його оригінальність 90% і більше, матеріал є працею автора. З іншого боку, потрібно зазначити, що перевірка матеріалу на оригінальність дуже ресурсозатратна.

Запропонований алгоритм є актуальним, оскільки здатний розширити набір можливостей існуючих сервісів для встановлення оригінальності текстів, а також зменшити навантаження на їх обчислювальну потужність, оскільки більшість вже розроблених варіантів використовую алгоритми штучного інтелекту, швидкість якого залежить як від алгоритму реалізації, так і від потужностей головної системи.

Ключові слова: аналіз тексту, антиплагіат, достовірність авторства, комп’ютерна лінгвістика.

Завантаження

Дані завантаження ще не доступні.

ВИКОРИСТАННЯ МЕТОДІВ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ ПРИ ВСТАНОВЛЕННІ АВТОРСТВА ТЕКСТУ

Анотація

Завантаження

Статті цього автора (авторів), які найбільше читають