ВИКОРИСТАННЯ МЕТОДІВ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ ПРИ ВСТАНОВЛЕННІ АВТОРСТВА ТЕКСТУ
Анотація
На цей час не існує ні сервісів, ні окремих програм, алгоритмів та модулів, робота яких полягала у співставленні текстів власника на встановлення того, чи є власник автором усіх текстів, які перевіряються. Надалі буде йти мова саме про потенційний алгоритм, ідею роботи якого
викладено вище. Перевірки n-ої кількості текстів на те, чи автор у них один або декілька, є задачею для якої не обов’язково використовувати потужне устаткування та витрачати час та ресурси на навчання окремої нейронної мережі, завданням якої було б намагатися віднайти
схожі об’єкти у величезній базі даних.
У роботі описано метод швидкого аналізу тексту на предмет встановлення авторства шляхом поділу тексту на елементи та їх окремий аналіз без використання великої кількості часу на обробку даних. Розроблено програму для розрахунків та візуалізації проведеного аналізу тексту, який може внесений в програми в розповсюдженому форматі *.doc або *.docx. Досліджено результати такого аналізу на низці робіт різних авторів та різної тематики робіт. Роботи можуть бути порівняні в рамках одного автора на предмет цілісності авторських робіт або декількох авторів між собою на предмет можливого запозичення матеріалу. Алгоритм не дає гарантованої відповіді та може бути використаний лише як підстава для додаткової перевірки робіт.
На даний момент є актуальним перевірка великої кількості тексти з причини потреби встановлення його оригінальності. Є типовим вважати, що за випадком, коли текст є оригінальним, а саме його оригінальність 90% і більше, матеріал є працею автора. З іншого боку, потрібно зазначити, що перевірка матеріалу на оригінальність дуже ресурсозатратна.
Запропонований алгоритм є актуальним, оскільки здатний розширити набір можливостей існуючих сервісів для встановлення оригінальності текстів, а також зменшити навантаження на їх обчислювальну потужність, оскільки більшість вже розроблених варіантів використовую алгоритми штучного інтелекту, швидкість якого залежить як від алгоритму реалізації, так і від потужностей головної системи.
Ключові слова: аналіз тексту, антиплагіат, достовірність авторства, комп’ютерна лінгвістика.