Дослідження ефективності критеріїв селекції ознак в задачі класифікації норма-патологія печінки

Автор: та

Анотація: Актуальність теми. Діагностика захворювань печінки на ранніх стадіях допоможе більш якісно оцінити стан пацієнта та обрати якомога кращу лікувальну стратегію.. Мета дослідження. Знаходження оптимального варіанту селекції ознак, для ефективного виконання задачі бінарної класифікації «норма -патологія» при дифузних захворюваннях печінки. Об’єкт дослідження. Зображення УЗД печінки. Предмет дослідження. Ефективність критеріїв відбору у алгоритмі первинної селекції ознак в задачі класифікації патології печінки. Методи дослідження. Методи селекції за критеріями внутрішньокласової дисперсії, міжкласової дисперсії, відношення внутрішньокласової і міжкласової дисперсій, кореляційний відбір ознак. Інструменти дослідження. Python, Anaconda, Jupyter Notebook.

Бібліографічний опис статті:

та . Дослідження ефективності критеріїв селекції ознак в задачі класифікації норма-патологія печінки//Наука онлайн: Міжнародний електронний науковий журнал - 2021. - №12. - https://nauka-online.com/publications/technical-sciences/2021/12/03-5/

Стаття опублікована у: : Наука Онлайн No12 декабрь 2021

Технічні науки

Кожара Катерина Миколаївна

студентка

Національного технічного університету України

«Київський політехнічний інститут імені Ігоря Сікорського»

Корнієнко Галина Альбертівна

старший викладач

Національний технічний університет України

 «Київський політехнічний інститут імені Ігоря Сікорського»

ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ КРИТЕРІЇВ СЕЛЕКЦІЇ ОЗНАК В ЗАДАЧІ КЛАСИФІКАЦІЇ НОРМА-ПАТОЛОГІЯ ПЕЧІНКИ

Аннотація. Актуальність теми. Діагностика захворювань печінки на ранніх стадіях допоможе більш якісно оцінити стан пацієнта та обрати якомога кращу лікувальну стратегію..

Мета дослідження. Знаходження оптимального варіанту селекції ознак, для ефективного виконання задачі бінарної класифікації «норма -патологія» при дифузних захворюваннях печінки.

Об’єкт дослідження. Зображення УЗД печінки.

Предмет дослідження. Ефективність критеріїв відбору у алгоритмі первинної селекції ознак в задачі класифікації патології печінки.

Методи дослідження. Методи селекції за критеріями внутрішньокласової дисперсії, міжкласової дисперсії, відношення внутрішньокласової і міжкласової дисперсій, кореляційний відбір ознак.

Інструменти дослідження. Python, Anaconda, Jupyter Notebook.

Ключові слова: алгоритми класифікації, методи селекції, ознаки, генетичний алгоритм, ультразвукова діагностика, Python.

Основною задачею даної праці є виконання оптимальної селекції ознак для успішної реалізації загальної задачі класифікації патології печінки за знімками ультразвукового дослідження (УЗД). Подібна задача виникла під час роботи кафедри біомедичної кібернетики (БМК) КПІ над проектом, основна мета якого є розробка системи підтримки прийняття рішень під час діагностики печінки, замовником якої виступає ДУ «Інститут ядерної медицини та променевої діагностики НАМН України». Спеціалістами саме цієї державної установи і були надані ультразвукові знімки для проведення досліджень.

Справа в тім, що під час розробки системи деякі автори із кафедри БМК, а саме: Владислав Круглий [5], Олександр Трофименко [8], Дмитро Грішко [3], Максим Гончарук [2], Аліна Іванченко [4] та Віталій Бабенко [1], розробили власні підходи до отримування інформативних текстурних ознак, які необхідні для виконання класифікації патології печінки. Детально зупинятись на подібних ознаках не має сенсу, оскільки вони доволі розбірливо описані у роботах [1-10]. Для того, щоб більш глибоко зрозуміти поставлену задачу, опишемо дані, які були надані для виконання роботи за заданою темою. Основна задача проекту полягає у бінарній класифікації «Норма:Патологія» областей інтересу (які були помічені спеціалістами державної установи) зображень УЗД печінки. Спеціаліастами УЗД було взято трьома різними датчиками:

  • конвексним;
  • лінійним у стандартному режимі;
  • лінійним у посиленому режимі.

Відповідно до цього були сформовані 3 різні підвибірки даних зображень, кількість областей інтересу по кожній із яких вказана в табл. 1.

Порахувавши для кожної із підвибірок текстурні ознаки авторів кафедри БМК [1-10], отримано наступне: 352 ознаки для класифікації зображень конвексного датчику; 354 ознаки для класифікації зображень лінійного датчику (стандартний режим); 342 ознаки для класифікації зображень лінійного датчику (посилений режим). Із цього випливає тема дослідження, а власне знаходження оптимального варіанту селекції ознак, щоб можно було ефективно виконати задачу бінарної класифікації «Норма:Патологія».

Таблиця 1

Опис загальної вибірки даних зображень

Датчик Назва підвибірки Кількість областей інтересу (Норма:Патологія)
Конвексний Convex 304 (197:107)
Лінійний у стандартному режимі Linear 154 (80:74)
Лінійний у посиленому режимі Reinforced 124 (35:89)

Для знаходження оптимального варіанту селекції ознак було запропоновано наступні 6 критеріїв:

  1. Внутрішньокласова дисперсія (треба знайти мінімум)

де: xip – це p­-та координата i-ой точки (їх усього nq штук) в q-ом кластері (їх усього K штук), i = 1, …, nq, p = 1, …, m.

  1. Міжкласова дисперсія (треба знайти максимум).
  1. Відношення внутрішньокласової і міжкласової дисперсій (треба знайти мінімум).
  1. Послідовний вибір ознак (SFE – Sequential Feature Selection).

Він додає (прямий відбір, forward selection) або видаляє (зворотний відбір, backward selection) ознаки для формування підмножини ознак в жадібному порядку (жадібний алгоритм). На кожному етапі цей оцінювач вибирає найкращу ознаку для додавання або видалення на основі результату крос-валідації оцінювача. У разі навчання без контролю цей послідовний селектор ознак розглядає тільки ознаки (X), а не бажані результати (y).

  1. Рекурсивне виключення ознак з крос-валідацією (RFECV – Recursive Feature Elimination with Cross-Validation).

Ранжування ознак за допомогою рекурсивного виключення ознак. При наявності зовнішнього оцінювача, який присвоює ваги ознаками (наприклад, коефіцієнтами лінійної моделі), мета рекурсивного виключення ознак (RFE) полягає у виборі ознак шляхом рекурсивного розгляду все менших і менших наборів ознак. Спочатку оцінна система навчається на початковому наборі ознак, і важливість кожної ознаки визначається або через якийсь конкретний атрибут, або через викликану ознаку. Потім з поточного набору ознак відсікаються найменш важливі. Ця процедура рекурсивно повторюється на обрізаному наборі до тих пір, поки не буде досягнуто бажану кількість обираних ознак.

  1. Критерій якості ансамблю ознак (QCFE – Quality Criterion of Features’ Ensemble).

де: K – коефіцієнт кореляції, y – клас об’єкту класифікації, xi – ознака об’єкту,  k – розмір ансамблю ознак, α – вага залежності ознак, C – кількість комбінацій (із комбінаторики).

Оптимальні значення перших критеріїв пп. 1-3, 6 знаходяться за допомогою генетичного алгоритму, усі інші – є прерогативою мови програмування Python , і може використовуватись без додаткових рішень. На даному етапі дослідження роботи було прийнято рішення використати усі ці 6 критеріїв лише на одній підвибірці, а саме на підвибірці конвексного датчику. Результати представленні в таблиці 2.

Таблиця 2

Результати класифікації

Критерій Точність Чутливість Специфічність
                                      Валідаційна вибірка (20%)
Внутрішньокласова дисперсія 0.89 0.88 0.89
Міжкласова дисперсія 0.87 0.86 0.89
В/К 0.87 0.9 0.82
SFE 0.9 0.87 1
RFECV 0.9 0.88 0.94
QCFE 0.9 0.88 0.94
                                         Тестова вибірка (20%)
Внутрішньокласова дисперсія 0.8 0.82 0.76
Міжкласова дисперсія 0.77 0.78 0.73
В/К 0.79 0.81 0.72
SFE 0.77 0.78 0.73
RFECV 0.82 0.82 0.81
QCFE 0.82 0.82 0.81

Якщо уточнювати отримані результати, то перш ніж проводити класифікацію, підвибірку даних конвексного датчику було розбито на 3: навчальну (60%), валідаційну (20%) і тестову (20%). В якості алгоритму класифікації було використано Випадковий ліс. Критерієм оцінки моделі була точність на тестовій вибірці, і як показав результат, RFECV і QCFE найбільше виділяються серед усіх інших. Проте це поки що проміжковий результат, який буде покращено у майбутньому.

Література

  1. Бабенко В. Класифікація ультразвукових зображень методом генетичного лісу дерев оптимальної складності (дипломна робота магістра). 2021. С. 1–125.
  2. Гончарук М. Оптимізація параметрів перетворення УЗ зображень в задачі класифікації патологія-норма при дифузних захворюваннях печінки. 2020. С. 1–69.
  3. Грішко Д. Рішення задачі реконструкції та класифікації УЗ зображень печінки у просторі параметрів моделі ковзного вікна. 2021. С. 1–114.
  4. Іванченко А. Система диференціальної діагностики захворювань – аутоімунного гепатиту та хвороби Вільсона. 2021. С. 1–63.
  5. Круглий В. Система підтримки прийняття рішень при діагностуванні фібротичних змін печінки. 2021. С. 1–110.
  6. Настенко Є., Павлов В., Носовець О., Круглий В., Гончарук М., Карлюк А., Грішко Д., Трофименко О., Бабенко В. Застосування текстурного аналізу у вирішенні задачі класифікації медичних зображень. Біомедична інженерія і технологія. 2020. Вип. 0, № 4. С. 69–82.
  7. Настенко Є., Дикан І., Тарасюк Б., Павлов В., Носовець О., Бабенко В., Круглий В., Диба М., Солодущенко В. Класифікація станів печінки при дифузних захворюваннях на основі статистичних показників текстури ультразвукових зображень та МГУА. Індуктивне моделювання складних систем. 2019. Вип. 11. С. 54–66.
  8. Трофименко О. Рішення задачі реконструкції та класифікації УЗ зображень печінки у просторі параметрів моделі просторової розгортки. 2021. С. 1–107.
  9. Nastenko I., Maksymenko V., Dykan I., Nosovets O., Tarasiuk B., Pavlov V., Babenko V., Kruhlyi V., Soloduschenko V., Dyba M., Umanets V. Liver Pathological States Identification in Diffuse Diseases with Self-Organization Models Based on Ultrasound Images Texture Features. Zbarazh, Ukraine: 2020.
  10. Nastenko I., Maksymenko V., Galkin A., Pavlov V., Nosovets O., Dykan I., Tarasiuk B., Babenko V., Umanets V., Petrunina O., Klymenko D. Liver Pathological States Identification with Self-organization Models Based on Ultrasound Images Texture Features. Advances in Intelligent Systems and Computing V. Ред. Shakhovska N., Medykovskyy M. O. Cham:Springer International Publishing, 2021. pp. 401–418.

Перегляди: 357

Коментарі закрито.

To comment on the article - you need to download the candidate degree and / or doctor of Science

Підготуйте

наукову статтю на актуальну тему, відповідно до роздлів журналу

Відправте

наукову статтю на e-mail: editor@inter-nauka.com

Читайте

Вашу статтю на сайті нашого журналу та отримайте сертифікат