АЛГОРИТМИ ВСТАНОВЛЕННЯ ДАНИХ АВТОРА ТЕКСТУ

  • В.В. Ванін Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0001-7008-7269
  • О.В. Залевська Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0002-3163-1695
  • В.М. Можаровський Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0009-0002-0884-4876
  • П.М. Яблонський Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» (Україна) https://orcid.org/0000-0002-1971-5140
  • Д.В. Спірінцев Мелітопольський державний педагогічний університет імені Богдана Хмельницького (Україна) https://orcid.org/0000-0001-5728-6626

Анотація

В різних сферах діяльності людства постає питання класифікації текстів та встановлення дійсного автора тексту. Ця задача знайшла широке застосування в криміналістиці, системах перевірки робіт на плагіат, аналіз скарг, коментарів, тощо. Відповідність анкетних даних поданих автором разом з текстом, як правило, вимагає перевірки. Досить часто цими даними є національність, стать та вік автора.  Застосування сучасних методів та алгоритмів для встановлення автора тексту дозволяє автоматизувати процес.

Сучасні алгоритми базуються на використанні нейронних мереж, що що базуються на  промаркованих датасетах. Такі датасети не завжди є доступними і виникає необхідність їх створення, класифікації та маркування. Маркуванню датасетів вимагає наявності алгоритмів, за яким стає можливим виділення характерних ознак тексту, що відповідають за дані автора. Запропоновано алгоритми для знаходження та аналізу характерних ознак тексту, які базуються на його відхилені від еталону.

Для встановлення вікової групи автора створена таблиця неологізмів з вказанням вікової категорії людей, якій вони притаманні.  Маркування датасетів за національністю (першою мовою) автора будувалась на запозичених словах в англійської, іспанської і французької мов. Для аналізу статі автора тексту підраховується частота використання слів певних характеристик, а величина відхилення використовувалась як вага характеристики.

За допомогою наведених алгоритмів було промарковано датасети, що використовувались для побудови нейронної мережі. На базі наведених алгоритмів було навчено нейронну мережу, що використовує три моделі класифікації тексту. Кожна модель проводить аналіз тексту за приведеними характеристиками, що відповідають даним автора. 

Розроблена нейронна мережа здійснює автоматичне маркування текстових датасетів, а також дозволяє класифікувати тексти за категоріями анкетних даних автора, забезпечує аналіз текстових даних та їх автоматичне маркування із визначенням ймовірності належності тексту до кожного з  класів

Роботу нейронної мережі було протестовано на текстовому датасеті, що складається із англійських текстів різних авторів. Кількість правильно встановлених  анкетних даних автора, за розробленими характеристиками, становить 96 відсотків.   

Ключові слова: маркування дата сету, дані автора, алгоритми антиплагіату, нейронна мережа. 

Завантаження

Дані завантаження ще не доступні.
Опубліковано
2024-01-08
Як цитувати
Ванін, В., Залевська, О., Можаровський, В., Яблонський, П., & Спірінцев, Д. (2024). АЛГОРИТМИ ВСТАНОВЛЕННЯ ДАНИХ АВТОРА ТЕКСТУ. Сучасні проблеми моделювання, (25), 52-59. вилучено із http://magazine.mdpu.org.ua/index.php/spm/article/view/3200

Статті цього автора (авторів), які найбільше читають

1 2 > >>