Визначення автора тексту з використанням ANN

Автор:

Анотація: У даній статті розглядається застосування штучних нейронних мереж в задачах класифікації текстів та визначення автора невідомого тексту на основі стилістичних особливостей письма. Для навчання нейронної мережі були взяті твори двох українських письменників, щоб аналізувати та класифікувати стилі, кожного з авторів.

Бібліографічний опис статті:

. Визначення автора тексту з використанням ANN//Наука онлайн: Міжнародний електронний науковий журнал - 2019. - №12. - https://nauka-online.com/publications/information-technology/2019/12/viznachennya-avtora-tekstu-z-vikoristannyam-ann/

Стаття опублікована у: : Наука Онлайн No12 декабрь 2019

Інформаційні технології

 УДК 004.8

Храпов Олег Олегович

студент кафедри автоматизованих систем

обробки інформації та управління

Національний технічний університет України

«Київський політехнічний інститут імені Ігоря Сікорського»

ВИЗНАЧЕННЯ АВТОРА ТЕКСТУ З ВИКОРИСТАННЯМ ANN

Анотація. У даній статті розглядається застосування штучних нейронних мереж в задачах класифікації текстів та визначення автора невідомого тексту на основі стилістичних особливостей письма. Для навчання нейронної мережі були взяті твори двох українських письменників, щоб аналізувати та класифікувати стилі, кожного з авторів.

Ключові слова: машинне навчання, ідентифікація автора, стильометрія.

Вступ. Стильометрія вивчає кількісний аналіз деякого письмового тексту, який дає інформацію про стиль автора цього тексту [1]. Таким чином, в якості основних стильометричних завдань, що відносяться до області пошуку інформації, розглядається характеристика автора, виявлення подібності та ідентифікація автора.

Характеристика автора дозволяє зробити висновки про нього, такі як стать, освіта, соціальне походження. Виявлення подібності включає порівняння текстів кількох авторів з метою виявлення, якщо вони існують, загальних властивостей. Ідентифікація автора означає приписування невідомого тексту автору на основі певної ознаки або характеристики. Двома критичними проблемами стильометричного аналізу є:

  • вибір дескрипторів, які характеризують тексти і авторів;
  • аналітичні методи, застосовані до задачі.

Елементи, обрані в стильометричних методах, повинні складати інваріант письменника, властивість тексту, яке є інваріантом його автора, тобто вони схожі у всіх текстах цього автора і по-різному в текстах інших авторів [2].

В даній статті представлено застосування штучних нейронних мереж для визначення авторства. Для дослідження були використані літературні твори двох українських письменників, Володимира Винниченка і Миколи Хвильового, які жили і писали приблизно в один хронологічний час. Функції, вибрані для опису текстів, є лексичні та синтаксичні компоненти, які показують багатообіцяючі результати при використанні в якості інваріантів письменника, оскільки вони використовуються досить підсвідомо і відображають індивідуальний стиль письма, який важко скопіювати.

Експримент

В даній роботі, для дослідження стильометричного аналізу тексту, був використаний наступний алгоритм послідовних дій: вибір текстів для навчання, вибір текстових дескрипторів для аналізу – авторських відбитків, розрахунок характеристик для всіх дескрипторів, які використовуються для навчання нейронної мережі, специфікація мережі з її топологією і методом навчання, фактичне навчання мережі, тестування, аналіз отриманих результатів та підсумок висновків для поліпшення класифікації.

Описаний процес застосовувався кілька разів до різних вхідних даних, при цьому різні топології нейронних мереж давали підсумкові результати класифікації з точністю, яка варіювалася від декількох до 93%. Оскільки неможливо включити всі результати, в даній статі надається тільки деякий узагальнюючий вибір з обчисленими середніми значеннями результатів.

Використовувані тексти

У дослідженнях були використані тексти двох відомих українських письменників, Володимира Винниченка і Миколи Хвильового. Їх романи і короткі роботи дають досить широкий корпус текстів, щоб гарантувати, що характерні риси, виявлені на основі даних навчання, можуть дати узагальнені знання, що будуть використовуватися для підтвердження або виключення автора, що розглядається.

Очевидно, що літературні тексти можуть сильно відрізнятися по довжині, більш того, на всі стилістичні особливості можуть впливати не тільки різні часові рамки, в яких текст написаний, але і його жанр. Перша з цих проблем легко вирішується шляхом поділу довгих текстів, таких як романи, на кілька дрібніших частин приблизно однакового розміру.

Даний підхід дає додаткову перевагу в задачах класифікації, так як навіть у разі деяких неправильних результатів класифікації цих частин весь текст все ще може бути належним чином приписаний автору, присвоюючи остаточне рішення на більшості результатів.

Тексти для навчання та тренування класифікаторів взяті з бібліотеки української літератури «УкрЛіб» [3]. В навчальний набір ввійшли всі твори та оповідання наявні в електронній бібліотеці крім : “Дим”, “Голод”, “Кузь та Грицунь”, “Момент”, “Наречений”, “Бандити”, “Бараки, що за містом”, “Легенда”. Дані тексти використовувалися для результатів класифікації. Загалом навчальна вибірка містить 61 текст Володимира Винниченка та 43 тексти Миколи Хвильового.

Вибір функцій

Встановлення особливостей, які працюють як ефективні дискримінатори досліджуваних текстів, є однією з найважливіших проблем в дослідженні авторського аналізу.

У дослідженні використовувалися три групи текстових дескрипторів, лексичні і синтаксичні, перша з яких – використання функціональних слів, друга – використання розділових знаків, а третя – комбінація з використанням функціональних слів та розділових знаків.

Набір 1 містив дев’ять функціональних слів: «але», «і», «ні», «це», «в», «з», «так», «за», «для».

Набір 2 складався з восьми знаків пунктуації: кома, крапка з комою, крапка з комою, дужка, знак оклику, лапки, двокрапка і знак питання.

Набір 3 складається з дев’яти функціональних слів і восьми знаків пунктуації.

Архітектура

У якості структури нейронної мережі було обрано мережу зворотного поширення. Приховані шари зв’язані прямим зв’язком з сигмоїдальною функцією активації. Використовувався один або два приховані шари з якомога меншою кількістю нейронів для збереження властивостей узагальнення, а мультиплікатор швидкості навчання був не більше 0,4 для всіх розпізнаних зразків.

В архітектурі нейронної мережі було використано два виходи. Насправді, було б можливо використовувати один вихід і шляхом інтерпретації його активного стану як одного класу і неактивного стану виходу як другий клас. При такій архітектурі завдання також було б вирішене, але при цьому підході текст завжди був би приписаний або одному, або іншому автору, а бінарна класифікація з невирішеним вердиктом неможлива.

Два виходи дозволяють розпізнати ситуацію, коли мережа не може легко розпізнати стиль письма будь-якого з раніше навчених авторів і не може правильно класифікувати деякі зразки тексту.

Результати

Кількість прихованих шарів і нейронів є важливим параметром продуктивності нейронної мережі, часто встановлюються в тестах, результати яких наведені в таблиці 1. Щоб мінімізувати ефект ініціації ваг, які виконуються на початку кожної фази навчання, стартова процедура була використана і кожна мережа була навчена 15 разів. Результати перераховані в двох категоріях: найгірша і найкраща точність класифікації.

Таблиця 1

Продуктивність класифікатора нейронної мережі по відношенню до структури мережі

Кількість прихованих слоїв Кількість нейронів в прихованих шарах Мінімальний результат, % Максимальний результат, %
 

1

 

17 71,1 78,5
8 72,3 79,1
4 72,3 79,5
2 17

17

71,1 83,1
17

2

72,2 83,3
13

12

72,8 81,7
12

6

72,9 84,5
9

7

72,3 83,4

З наведених результатів, можна зробити висновок, що результати відрізняються не суттєво, оскільки одна мережа класифікує краще один текст, а інша мережа отримує більш високу точність для іншого. І все ж нейронна мережа, що складається з двох прихованих шарів дає кращу загальну точність класифікації. Для експерименту було використано нейрону мережу, яка містить перший прихований шар з 12 нейронами та другий прихований шар з 6 нейронами.

Наведені результати є середніми для творів авторів,  без деталей для всіх окремих творів.

Таблиця 2

Результати класифікації за обраними наборами дескрипторів

Автор Текст Результат. Набір 1, % Результат. Набір 2, % Результат. Набір 3, %
Винниченко Володимир “Дим” 71,1 79,1 86,1
“Голод” 63,1 71,2 75,1
“Кузь та Грицунь” 77,2 81,1 85,5
“На пристані” 55 57,1 58,4
Микола Хвильовий

 

“Наречений” 74,3 76,2 89,2
“Бандити” 80 81,1 87,3
“Бараки, що за містом” 51,3 52 55,3
“Легенда” 78,1 80,2 89,9

Провівши результати наборів 1 та 2 з таблиці 2, можна зробити висновки, що найвищий коефіцієнт класифікації забезпечується використанням синтаксичних текстових ознак, а найменший коефіцієнт класифікації забезпечується використанням лексичних текстових ознак.

Також присутні твори, які не розпізнаються належним чином, незалежно від того, який набір текстових дескрипторів використовується, а результати їх класифікації знижують загальне співвідношення.

Деякі роботи неправильно класифіковані, оскільки текстові функції, що описують їх, недостатньо точні для виконання завдання. Стиль написання може бути настільки специфічним і відмітним, що вимагає використання менш типових дескрипторів, наприклад, різних функціональних слів.

Висновок. Дослідження, описане в цій статті, що стосується стильометричного аналізу, показує наскільки ефективним може бути інструмент штучних нейронних мереж при застосуванні в задачах класифікації.

Висновки по вибору текстових дескрипторів засновані, тільки на результатах приведених в даній статті і призводить до висновку, що синтаксичні атрибути більш ефективні при атрибуції авторства, будуть поспішними. І можна припустити, що при перевірці корпусу текстів інших письменників, з використанням других атрибуті, результат буде кращим.

Література

  1. Hugh C. Stylistic analysis and authorship studies / Craig Hugh // A Companion to Digital Humanities. 2004.
  2. Argamon S. Stylistic Analysis Of Text For Information Access / S. Argamon, J. Karlgren, J. Shanahan // 2005. URL:https://www.academia.edu/8153507/Stylistic_Analysis_Of_Text_For_Information_Access
  3. «УкрЛіб» – Бібліотека української літератури. URL: https://www.ukrlib.com.ua

Перегляди: 446

Коментарі закрито.

To comment on the article - you need to download the candidate degree and / or doctor of Science

Підготуйте

наукову статтю на актуальну тему, відповідно до роздлів журналу

Відправте

наукову статтю на e-mail: editor@inter-nauka.com

Читайте

Вашу статтю на сайті нашого журналу та отримайте сертифікат