Класифікація аудіоподій за допомогою згорткових нейронних мереж

Автор:

Анотація: Згорткові нейронні мережі (CNN) виявилися дуже ефективними в задачі класифікації зображень та являються перспективними для класифікації аудіо. Були розглянуті різні архітектури CNN, щоб класифікувати аудіоподії з набору даних UrbanSound8K [5], який має 8732 аудіофайлів розмічених на 10 класів. Розглянуто такі популярні CNN мережі, як AlexNet [1], VGG [2], ResNet [3] і DenseNet [4]. Було досліджено, що моделі CNN, що використовуються в класифікації зображень, добре відповідають завданням класифікації звуку.

Бібліографічний опис статті:

. Класифікація аудіоподій за допомогою згорткових нейронних мереж//Наука онлайн: Міжнародний електронний науковий журнал - 2019. - №5. - https://nauka-online.com/publications/information-technology/2019/5/klasifikatsiya-audiopodij-za-dopomogoyu-zgortkovih-nejronnih-merezh/

Стаття опублікована у: : Наука Онлайн No5 май 2019

Інформаційні технології

УДК 004.8

Іванов Олександр Андрійович

студент

Національного технічного університету України

«Київський політехнічний інститут імені Ігоря Сікорського»

КЛАСИФІКАЦІЯ АУДІОПОДІЙ ЗА ДОПОМОГОЮ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ

Анотація. Згорткові нейронні мережі (CNN) виявилися дуже ефективними в задачі класифікації зображень та являються перспективними для класифікації аудіо. Були розглянуті різні архітектури CNN, щоб класифікувати аудіоподії з набору даних UrbanSound8K [5], який має 8732 аудіофайлів розмічених на 10 класів. Розглянуто такі популярні CNN мережі, як AlexNet [1], VGG [2], ResNet [3] і DenseNet [4]. Було досліджено, що моделі CNN, що використовуються в класифікації зображень, добре відповідають завданням класифікації звуку.

Ключові слова: виявлення аудіоподій, класифікація аудіоподій, згорткові нейронні мережі, глибокі нейронні мережі.

Вступ. Продуктивність класифікації зображень значно покращилася з появою великих наборів даних, таких як ImageNet [6] з використанням архітектур загорткових нейронних мереж (CNN – Convolutional Neural Network), таких як AlexNet [1], VGG [2], ResNet [3] та DenseNet [4]. Цікаво побачити, чи можуть подібні великі масиви даних і CNN показати хороші результати в класифікації звуку. У цій роботі описується проведене дослідження: наскільки популярні архітектури DNN, а саме CNN, впораються з класифікацією аудіоподій; як ефективність варіюється в залежності від різних навчальних параметрів; і чи можуть ці навчені моделі бути корисними для класифікації аудіоподій (AED – Acoustic Event Detection).

Шон Херші та інші проводять подібну порівняльну роботу на своєму наборі даних YouTube-100M [6]. На відміну від них у цій роботі використовується набагато менший набір даних, що вносить певні складнощі до задачі класифікації такі як, наприклад, перенавчання моделі.

Всі експерименти проводяться на наборі даних UrbanSound8K [5].

Навчання моделей. Усі моделі навчалися на графічному процесорі Nvidia Tesla K80 за алгоритмом, який описанується у статті «Алгоритм навчання згорткових нейронних мереж для розпізнавання аудіоподій» [7].

AlexNet. Вихідна архітектура AlexNet була розроблена для входу 224×224×3 з початковим згортковим шаром 11×11 з кроком 4. Останній шар на 1000 нейронів замінено на два повнозв’язних шари з 512 та 10 нейронами відповідно. Модель має 2.7М параметрів, з яких на перших чотирьох епохах навчаються тільки 269.8К.

VGG. Було випробувано дві варіації моделей VGG: VGG16 та VGG19. Останні класифікуючи шари замінені на два повнозв’язні шари (512 та 10 нейронів). Модель має 15.2М та 20.5М параметрів, з яких на перших чотирьох епохах навчаються тільки 541К та 544К параметрів відповідно.

ResNet. Було використано декілька варіантів нейронної мережі ResNet:

  • ResNet18 (11.8М параметрів, 542.6К);
  • ResNet34 (21.8М параметрів, 550К);
  • ResNet50 (25.6М параметрів, 2.1М);
  • ResNet101 (44.6М параметрів, 2.2М);
  • ResNet152 (60.2М параметрів, 2.2М);

SqueezeNet. Було випробувано два варіанта моделей: SqueezeNet1.0 та SqueezeNet1.1. Останні класифікуючи шари замінені на два повнозв’язні шари (512 та 10 нейронів). Обидві моделі мають 1.2М параметрів, з яких на перших чотирьох епохах навчаються тільки 533К параметрів.

DenseNet. Було використано декілька варіантів нейронної мережі DenseNet:

  • DenseNet121 (8М параметрів, 1.1M);
  • DenseNet161 (28.7М параметрів, 2.4M);
  • DenseNet169 (14.2М параметрів, 1.8М);
  • DenseNet201 (20М параметрів, 2.2М).

Оцінка результатів. В таблиці 1 показано результати оцінки випробуваних моделей. Можна побачити, що найкращі результати досягнуто на досить складних моделях нейронної мережі DenseNet (161, 201, 169) та ResNet50. Ці мережі досить швидко досягають оптимальної роботи; вони забезпечують високу пропускну здатність моделі, та їх згорткові одиниці можуть ефективно захоплювати загальні структури, які можуть зустрічатися в різних областях вхідного масиву.

Однак для використання моделей у вбудованих системах також важливим параметром є розмір моделі. Нейронні мережі, які показали найвищі результати мають досить великі розміри, їх ваги займають багато місця, це обмежує використання цих моделей у вбудованих системах. Ваги найбільш компактних моделей SqueezeNet займають лише 4.8 Мб, але не здатні досягти таких високих результатів, як більш складні моделі.

Виходячи з цього, для подальшого розглядання було обрано три моделі: DenseNet161, яка показала найвищу точність, серед протестованих моделей нейронних мереж, DenseNet169, яка є самою маленькою за розміром серед моделей, які досягли точності 0.96; та модель, яка займає найменше місця SqueezeNet.

Таблиця 1

Порівняння результатів навчання нейронних мереж

Назва моделі Accuracy F-score Розмір моделі Час навчання
DenseNet161 0.963190 0.964772 110 Мб 16:17
ResNet50 0.961963 0.964010 98 Мб 10:49
DenseNet201 0.961963 0.962933 77 Мб 13:54
DenseNet169 0.960123 0.961883 55 Мб 11:49
ResNet152 0.959509 0.959239 230 Мб 16:49
Resnet101 0.955828 0.957394 170 Мб 13:41
ResNet34 0.953374 0.955312 83.3 Мб 8:37
VGG16 0.954601 0.955136 58.2 Мб 13:22
DenseNet121 0.949693 0.951136 31 Мб 10:40
ResNet18 0.949080 0.949430 44.7 Мб 7:52
VGG19 0.944785 0.945975 78.5 Мб 14:03
AlexNet 0.912883 0.918523 10 Мб 6:49
SqueezeNet1.0 0.893252 0.895425 4.8 Мб 7:38
SqueezeNet1.1 0.896933 0.900120 4.8 Мб 7:38

Моделі навчаються за тим ж самим алгоритмом, але кількість епох на кожному етапі збільшена до 30. Наприкінці етапу загружаються ваги з епохи з найвищою точністю.

Фінальні результати тренування моделей наведені у таблиці 2. Також на рисунку 1 приведено матрицю помилок моделі, яка досягла найвищого результату для валідаційної вибірки – DenseNet169.

Рис. 1. Матриця помилок натренованої моделі DenseNet161

Таблиця 2

Результати навчання моделей

Назва моделі Accuracy Precision Recall F beta Time
DenseNet161 0.977914 0.976350 0.978332 0.973900 2:16:08
DenseNet169 0.983436 0.983198 0.982411 0.982521 1:43:49
SqueezeNet1.1 0.957669 0.957595 0.960133 0.959351 0:59:25

У таблиці 3 наведено порівняння з попередньо опублікованими результатами методів класифікації аудіоподій, які були натреновані на тому ж самому наборі даних.

Таблиця 3

Порівняння результатів роботи навчених моделей з іншими моделями

Метод Accuracy
SKM [8] 0.74
PiczakCNN [9] 0.73
SalamonCNN [10] 0.79
SalamonCNN + data augmentation [10] 0.79
QuCNN [11] 0.78
ConvNet [12] 0.83
Randomly Weighted CNN [13] 0.71
Convolutional Recurrent Neural Networks [14] 0.79
DenseNet161 0.97
DenseNet169 0.98
SqueezeNet1.1 0.95

З таблиці добре видно, що запропонований метод показує досить високі результати у порівнянні з іншими підходами.

Нейронні мережі DenseNet показують дуже високу точність. І навіть нейронна мережа с малою кількістю параметрів SqueezeNet показує точність у 95%, що значно вище, ніж у інших підходів. Це дозволяє використовувати модель у вбудованих системах без значної втрати у якості класифікації.

Висновки. Здатність глибоких згорткових нейронних мереж вивчати дискримінаційні спектрально-часові структури робить їх добре придатними для класифікації звуків навколишнього середовища. Навіть на невеликому наборі даних мережі здатні показати високу точність класифікації. Навчені за використаним алгоритмом моделі мають високу точність класифікації аудіоподій. Точність класифікації досягає 98% після 60 епох навчання, що показує високу ефективність у порівнянні з попередньо опублікованими роботами. При цьому нейронна мережа не досягла рівня перенавчання, та у випадку подальшого навчання нейронної мережі можливо досягти ще більшої точності.

Література

  1. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.
  2. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
  3. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv preprint arXiv:1512.03385, 2015.
  4. Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger, “Densely Connected Convolutional Networks,” arXiv preprint arXiv:1608.06993, 2016
  5. Justin Salamon, Christopher Jacoby, and Juan Pablo Bello, “A dataset and taxonomy for urban sound research,” in Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014, pp. 1041–1044.
  6. Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal, Devin Platt, Rif A. Saurous, Bryan Seybold, Malcolm Slaney, Ron J. Weiss, Kevin Wilson, “CNN Architectures for Large-Scale Audio Classification,” arXiv preprint arXiv:1609.09430, 2016.
  7. Олександр Іванов, “Алгоритм навчання згорткових нейронних мереж для розпізнавання аудіоподій,” 2019.
  8. Justin Salamon and Juan Pablo Bello, “Unsupervised feature learning for urban sound classification,” ICASSP, Apr.2015.
  9. Karol J. Piczak, “Environmental sound classification with convolutional neural networks,” International Workshop on Machine Learning for Signal Processing, Boston, USA, Sep.2015, pp.17-20.
  10. Justin Salamon and Juan Pablo Bello, “Deep convolutional neural networks and data augmentation for environmental sound classification,” IEEE Signal Processing Letters, Nov.2016.
  11. Shuhui Qu, Juncheng Li, Wei Dai, Samarjit Das, “Understanding audio pattern using convolutional neural network from raw waveforms,” arXiv preprint arXiv:1611.09524, 2016.
  12. Jaron,”ConvNet,” Github, 2016 – Режим доступу: https://gist.github.com/jaron/4495f2c97ae6605c32c8b8c61bd34a74.
  13. Jordi Pons, Xavier Serra, “Randomly weighted CNNs for (music) audio classification,” ICASSP, May, 2018.
  14. Jonghee Sang, Soomyung Park, Junwoo Lee, “Convolutional Recurrent Neural Networks for Urban Sound Classification using Raw Waveforms”, EUSIPCO, September, 2018.

Перегляди: 979

Коментарі закрито.

To comment on the article - you need to download the candidate degree and / or doctor of Science

Підготуйте

наукову статтю на актуальну тему, відповідно до роздлів журналу

Відправте

наукову статтю на e-mail: editor@inter-nauka.com

Читайте

Вашу статтю на сайті нашого журналу та отримайте сертифікат