Огляд задачі вилучення ключових слів за допомогою методу опорних векторів
Анотація: У роботі були розглянуті задачі вилучення ключових слів за допомогою методу опорних векторів. Ключові слова містять найважливішу інформацію, що описує зміст документа. Вилучення ключових слів є необхідним кроком для багатьох програм обробки природних мов та пошуку інформації при оптимізації пошукових систем. У статті розглянуто задачу вилучення ключових слів за допомогою методу опорних векторів
Бібліографічний опис статті:
Тамара Тєлишева та Суан Хоанг Фам. Огляд задачі вилучення ключових слів за допомогою методу опорних векторів//Наука онлайн: Міжнародний електронний науковий журнал - 2021. - №5. - https://nauka-online.com/publications/information-technology/2021/5/11-6/
Інформаційні технології
УДК 004
Тєлишева Тамара Олексіївна
доцент кафедри автоматизованих
систем обробки інформації та управління
Національний технічний університет України
«Київський політехнічний інститут імені Ігоря Сікорського»
Фам Суан Хоанг
студент
Національного технічного університету України
«Київський політехнічний інститут імені Ігоря Сікорського»
ОГЛЯД ЗАДАЧІ ВИЛУЧЕННЯ КЛЮЧОВИХ СЛІВ ЗА ДОПОМОГОЮ МЕТОДУ ОПОРНИХ ВЕКТОРІВ
Анотація. У роботі були розглянуті задачі вилучення ключових слів за допомогою методу опорних векторів. Ключові слова містять найважливішу інформацію, що описує зміст документа. Вилучення ключових слів є необхідним кроком для багатьох програм обробки природних мов та пошуку інформації при оптимізації пошукових систем. У статті розглянуто задачу вилучення ключових слів за допомогою методу опорних векторів
Ключові слова: вилучення ключових слів, метод опорних векторів, обробка природної мови, класифікація, модель навчання.
Вступ. Інтернет дуже полегшив пошук необхідної інформації, створення контенту та обмін ним із іншими. Щодня мільйони людей використовують пошукові системи. для пошуку в Інтернеті в пошуках інформації. Ключові слова – це терміни, які найкраще описують документи та їх зміст. В пошуковій оптимізації веб-сайтів вони корисні не тільки для покращення пошукового рейтингу, але також для користувачів веб-сайтів. Ручне вилучення ключових слів займає багато часу і може бути ефективним якщо виконавці мають досвід в цьому процесі. Автоматичне вилучення ключових слів – це процес виявлення репрезентативних слів, що описують зміст документа з мінімальною взаємодією людей.
Постановка задачі. Задача полягає в тому, щоб розробити систему вилучення ключових слів документа за допомогою методу опорних векторів. Системи подібного роду були реалізовані з використанням інших методів, таких як статистичний аналіз, метод n-gram, моделей машинного навчання [1].
Аналіз останніх публікацій. Навчання без вчителя (Unsupervised learning method) з застосуванням самоорганізаційної карти Кохонена (SOM – Self-Organizing Map) до документів арабською мовою викладений в роботі [3]. Цей підхід поєднує лінгвістичні та статистичні особливості для вилучення ключових слів з окремого документа. Даний метод був протестований на двох наборах даних, найкращими результатами були 42,84% точності, 46,79% відкликання, а F1-міра – 44,72%.
В статті [2] автори комбінують методи статистичного аналізу та лінгвістики для вилучення ключових слів із документів. Документи були токенізовані за допомогою морфологічного аналізу та інших засобів обробки природної мови. Лексеми з однаковим стовбуром або лексеми з однаковими синонімами були згруповані разом. Потім розраховується вага кожного слова за допомогою N-грама, після чого документи стали готовими до процесу вилучення ключових слів. Цей експеримент був проведений лише на трьох документах. Автор намагався виділити різну кількість ключових слів у кожному дослідженні. Експериментальні дослідження показують такі результати 0,4 для виділення 5-ти ключових слів, 0,48 для вилучення 10-ти ключових слів і 0,53 для вилучення 15-ти ключових слів.
В роботі [4] розроблено некерований алгоритм вилучення ключових слів під назвою AKEA (Arabic Keyphrase Extraction Algorithm). Для вилучення ключових слів дослідники використовували лінгвістичні схеми, засновані на позначенні POS-тегами (Part of Speech), на статистичних параметрах та вживанні слів. Вони також використовували арабську Вікіпедію як третю сторону, щоб дати ключовому слову-кандидату оцінку довіри, якщо кандидат індексується як поняття в арабській Вікіпедії. Цей алгоритм був протестований на чотирьох різних наборах даних. Найкращим результатом був показник F1 – 0.289.
Автори статті [5] використовують лінгвістичні знання як додаток до статистичних особливостей та синтаксичних правил, використовуючи позначення POS. У роботі використано лінійний дискримінантний аналіз, але кожне слово використовується таким, яке воно є, замість того, щоб взяти основу. F1-міра становила 0,38 для вилучення 5-ти ключових слів і 0,49 для вилучення 10-ти ключових слів.
В роботі [6] запропоновано автоматизований метод вилучення ключових слів з використанням локальної граматики для розробки системи індексування, яка автоматично витягує ключові слова з ліванських офіційних журналів, використовуючи їх заголовки. Автори зосередилися на першому слові кожного заголовка, щоб визначити, яку локальну граматику слід застосовувати, щоб запропонувати більше потенційних ключових слів на основі набору ознак, розрахованих для кожного вузла заголовка. Це дослідження було проведено з використанням 5747 назв, у яких 76% вилучених вручну ключових слів було вилучено автоматично.
Попередня обробка даних. При вирішенні поставленої в статті задачі проводилася попередня обробка вхідних документів, яка вважається критичним кроком у завданнях обробки природної мови, оскільки спосіб перетворення вхідного документа у функції має великий вплив на кінцеві результати.
Документи складаються з групи речень. Єдине, що потрібно для вилучення ключових слів – це слова всередині кожного документа. Тому потрібно позбутися будь-якої зайвої інформації в кожному документі, розділивши речення на його складові: слова, цифри та розділові знаки. Послідовність дії попередньої обробки даних показано на рисунку 1.
Рис. 1. Послідовність дій попередньої обробки даних
Виділення ознаки (feature). Після завершення попередньої обробки було виконано вилучення об’єктів в наборі даних. Вилучення ознак (feature) – це процес перетворення вмісту вхідних даних у числові ознаки. Автоматизовані машини не можуть обробляти текст безпосередньо, якщо властивості тексту не перетворюються на числові значення.
Тому вилучити лише найбільш пов’язані ознаки з ключовими словами. В експериментах кожне слово представлено двома ознаками:
- TF-IDF є добутком частоти ознак (TF – Term Frequency) та зворотної частоти документа (IDF – Inverse Document Frequency), де TF повторює частоту кожного слова в документі. Оскільки документи різняться за довжиною, частота кожного слова розділена за довжиною документа:
де – частота слова х;
– загальна кількість слів документа;
де – кількість документів;
– кількість документів, яка містить слово x.
- First Occurrence: ця функція визначає скільки слів з’явилося до поточного слова, яке обробляється. Обчислюється шляхом ділення кількості слів до поточного слова на загальну кількість слів у документі:
де – кількість слів існує перед словом x;
– кількість слов в документі.
Класифікатор. SVM (Support Vector Machine) намагається знайти найкращу гіперплощину, яка б розділила класи з найбільшим полем між гіперплощиною та точками даних, але спосіб розподілу даних SVM просто класифікує в дамп, враховуючи всі слова як неключові слова, а кількість неключових слів набагато більша за кількість ключових слів. Такий тип даних називається незбалансованими даними. У такій ситуації класифікатор SVM не намагатиметься вивчати різницю у значеннях між ключовими словами та неключовими словами. Щоб вирішити цю проблему, спробували збалансувати дані, зробивши кількість неключових слів ближче до числа ключових слів. Для цього використано метод зменшення вибірки, який випадковим чином бере зразки з класу з більшою кількістю записів, у нашому випадку це клас, що не стосується ключових слів. Класифікатор, який навчався на 80% набору даних і тестувався на решті, співвідношення ключових слів до не ключових слів однакове як у навчальних, так і в тестових наборах. Тестовий набір значень: true positive, true negative, false positive та false negative – ці значення необхідні для обчислення оціночних показників.
Порівняння з існуючими інструментами. Watson або IBM Watson – це комп’ютерна система штучного інтелекту, що здатна відповісти на питання, задані природною мовою. Watson допомагає організаціями прогнозувати майбутній результати, автоматизувати складні процеси та оптимізувати час роботи співробітника.
Cortical.io надає рішення для розуміння природної мови (NLU – Natural Language Understanding), які дозволяють великим підприємствам автоматизувати процес вилучення, моніторинг та аналіз ключової інформації з будь-якого виду текстових даних. Програмне забезпечення Cortical.io Retina скорочує час та зусилля, які необхідні для завершення важливих бізнес процесів пошуку та перегляду даних.
В таблиці 1 наведено порівняння характеристики між Watson IBM, Cortical.io та вилучення ключових слів за допомогою методу опорних векторів.
Таблиця 1
Порівняння характеристики даного методу з існуючими інструментами
Характеристика | Watson IBM | Cortical.io | Вилучення ключових слів за допомогою методу опорних векторів |
Де використовується? | Великі компанії з великим об’ємом даних | Компанії, які хочуть швидкого впровадження | В певній організації, як відділ мобільності ERASMUS |
Тип вхідних даних | Текст (структурований і не структурований) і текст у вигляді аудіо | Текст (структурований і не структурований) | Структурований текст |
Метод вирішення задачі? | Natural Language Classifier (NLC) – класифікатор природної мови | Semantic folding | Метод Support Vector Machine – метод опорних векторів |
Опис методу | Опис метод даного інструменту показано на офіційному веб-сайті компанії [8]. NLC поєднує в собі різні передові методи машинного навчання для забезпечення максимально можливої точності, не вимагаючи великої кількості навчальних даних. | В публікації [7] показано інструмент Cortical.io. Метод створює «семантичний відбиток пальця», що представляє значення тексту в цілому. Семантичні відбитки пальців візуалізують дані, показують кластери ключових слів та їх взаємозв’язок. | Для реалізації, спочатку потрібно виконати процес попередня обробка даних. Після цього, всі слова кандидатів необхідно представити у вигляді значення двох ознаків: частота ознак (TF), зворотна частота документа (IDF). Після цього процесу дані передають в класифікатор для обчислення оціночних показників |
Недоліки | Watson IBM вилучає ключових слів з високою точністю. Недоліків немає | Cortical.io також вилучає ключові слова з високою точністю. Єдиний недолік виникає при обробці великого об’єму даних, бо тоді процес обробки займає багато часу. | Метод ще в процесу вдосконалення. Недоліки: результати і точність роботи ще залежно від структури вхідних даних. Точність ще не висока як Watson IBM і Cortical.io. При обробці даних з великим об’ємом, процес обробки займає багато часу. |
Висновки. Для вирішення поставленої задачі, було проаналізовано декілька останніх публікацій і згідно з всіма попередніми експерименти, результат точності не є високим. Для початку задачі вилучення ключових слів за допомогою методом опорних векторів, кожен документ повинен проходити декілька необхідних методів попередньої обробки, що потрібні для вилучення ознак кожного слова в кожному документі та полегшення класифікатору обробки даних. Після цього кожне слово в цих документах позначалося як ключове або неключове слово на основі тегів, пов’язаних з кожним документом, тоді для класифікації ключових слів використовувався класифікатор Support Vector Machine. За допомогою методу зменшення вибірки для збалансування даних, класифікатор SVM стає більш здатним відрізнити ключові слова від неключових у даному введенні, що додає більшої точності до остаточного результату. Порівняно даний метод з існуючими інструментами, і визначено, що даний метод все ще має декілька недоліків таких як: точність залежить від структури вхідних даних, час обробки для даних з великим об’ємом.
Література
- Bharti S., Babu K. et al, Automatic Keyword Extractionfor Text Summarization: A Survey, National Institute of Tech-nology, 2017. 1-12.
- Awajan A., Suleiman D., Bag-of-Concept Based Key-word Extraction from Arabic Documents. International Con-ference on Information Technology (ICIT), 2017. 863-869.
- Omoush E.,Samawi V., Arabic Keyword Extraction us-ing SOM Neural Network, International Journal of AdvancedStudies In Computer Science and Engineering, 2016. Volume 5. Issue 11. 7-12.
- Amer E., Foad K., AKEA : An Arabic KeyphraseExtraction Algorithm, Springer, 2017. 137-146.
- El-shishtawy T.A., Al-sammak A.K., Arabic KeyphraseExtraction using Linguistic Knowledge and Machine Learningtechniques, arxlv, 2012.
- Rammal M., Bahsoun N. et al, Keyword extractionfrom Arabic legal texts, Interactive Technology and SmartEducation, 2015. 12. Issue 1. P. 62-71.
- The 6 Best Keyword Extraction Tools & How to Use Them. MonkeyLearn Blog. URL: https://monkeylearn.com/blog/keyword-extraction-tools/ (дата звернення 20.09.2020).
- Watson Natural Language Classifier | IBM. (n.d.). IBM Watson. URL: https://www.ibm.com/watson/services/natural-language-classifier/#:%7E:text=Watson%20Natural%20Language%20Classifier%20(NLC,into%20custom%20categories%2C%20at%20scale.&text=Behind%20the%20scenes%2C%20NLC%20utilizes,to%20achieve%20its%20accuracy%20levels (дата звернення 27.05.2020).
Коментарі закрито.
To comment on the article - you need to download the candidate degree and / or doctor of Science