ПОПЕРЕДНЯ ОБРОБКА АУДІО СИГНАЛУ В ЗАДАЧІ РОЗПІЗНАВАННЯ МОВЛЕННЯ
DOI:
https://doi.org/10.31319/2519-8106.2(51)2024.317425Ключові слова:
розпізнавання мовлення, попередня обробка аудіо сигналу, швидке перетворення Фур’є, Mel-Frequency Cepstral Coefficients, алгоритм динамічного трансформування часової шкали, рекурентна нейронна мережаАнотація
Мова є найбільш природною формою людського спілкування, тому реалізація інтерфейсу, який базується на аналізі мовленнєвої інформації є перспективним напрямком розвитку інтелектуальних систем управління. Система автоматичного розпізнавання мовлення – це інформаційна система, що перетворює вхідний мовленнєвий сигнал на розпізнане повідомлення. Процес розпізнавання мовлення є складним і ресурсоємним завданням через високу варіативність промови, яка залежить від віку, статі та фізіологічних характеристик мовця. У статті представлено узагальнений опис задачі розпізнавання мовлення, що складається з етапів: передискретизація, кадрування та застосування вікон, виділення ознак, нормалізація довжини голосового тракту та шумопригнічення. Попередня обробка мовленнєвого сигналу є першим і ключовим етапом у процесі автоматичного розпізнавання мови, оскільки якість вхідного сигналу суттєво впливає на якість розпізнавання і кінцевий результат цього процесу. Попередня обробка мови складається з очищення вхідного сигналу від зовнішніх і небажаних шумів, виявлення мовленнєвої активності та нормалізації довжини голосового тракту. Метою попередньої обробки мовленнєвого сигналу є підвищення обчислювальної ефективності систем розпізнавання мови та систем керування із природньомовним інтерфейсом.
У статті запропоновано використання швидкого перетворення Фур’є для описування вхідного аудіо сигналу; вікна Hamming для створення сегментів аудіосигналу з подальшим визначенням ознак засобами Mel-Frequency Cepstral Coefficients. Описано використання алгоритму динамічного трансформування часової шкали для нормалізації довжини голосового тракту та рекурентної нейронної мережі для шумопригнічення. Наведено результати експерименту щодо попередньої обробки аудіо сигналу голосових команд для керування застосунками мобільного телефону з оперативною системою Android.
Посилання
Pahwa, R.,Tanwar, H., & Sharma, S. (2020). Speech recognition system: a review. International Journal of Future Generation Communication and Networking, 13, 2547—2559.
О`Shaughnessy, D. (2024). Trends and developments in automatic speech recognition research. Computer speech and language, 83, 1—15. doi: 10.1016/j.csl.2023.101538.
Al-Fraihat, D.,Sharrab, Y., Alzyoud, F., Qahmash, A., & Maaita, A. (2024). Speech recognition utilizing deep learning: a systematic review of the latest developments. Human-centric Computing and Information Sciences, 15. doi: 10.22967/HCIS.2024.14.015.
Zhang, L., & Sun, X. (2021). Study on speech recognition method of artificial intelligence deep learning. Journal of Physics: Conference Series,1754. doi: 10.1088/1742-6596/1754/1/012183.
Barkovska, O., Havrashenko, A. (2023). Analysis of the influence of selected audio pre-processing stages on accuracy of speaker language recognition. Innovative Technologies and Scientific Solutions for Industries, 4 (26), 16—23. doi: https://doi.org/10.30837/ITSSI.2023.26.016.
Keerio, A., Mitra, B., Birch, P., Young, R. & Chatwin, C. (2008). On preprocessing of speech signals. World Academy of Science, Engineering and Technology, 47, 317—323.
Top 10 Speech Recognition Software and Platforms in 2022. Retrieved from: https://www.spiceworks.com/tech/artificial-intelligence/articles/speech-recognition-software/.
Rajaratnam, K., Shah, K., Kalita, J. (2018). Isolated and ensemble audio preprocessing methods for detecting adversarial examples against automatic speech recognition. Proceedings of the 30th Conference on Computational Linguistics and Speech Processing (ROCLING’18), pp. 16—30, Hsinchu, Taiwan.
Labied, M., Belangour, A., Banane, M., & Erraissi, A. (2022). An overview of automatic speech recognition preprocessing techniques. Proceedings of the International Conference on Decision Aid Sciences and Applications (DASA’22), pp. 804—809, Chiangrai, Thailand.
Lee, S.-J., &Kwon, H.-Y.(2020). A preprocessing strategy for denoising of speech data based on speech segment detection. Applicated science, 10(20), 7385. doi: 10.3390/app10207385.
Raj, V. A., & Dhas, M. D. K. (2022). Analysis of audio signal using various transforms foren-hanced audio processing. International Journal of Health Sciences, 6(S2), 12989—13001.doi:https://doi.org/10.53730/ijhs.v6nS2.8890.
Vreca, J., Pilipovic, R., &Biasizzo, A. (2024). Hardware-software co-design of an audio feature extraction pipeline for machine learning applications. Electronics, 13(5), 875. doi:https://doi.org/10.3390/electronics13050875.
Durairaj, P. & Sriuppili, S. (2021). Speech processing: MFCC based feature extraction tech-niques- an investigation. Journal of Physics: Conference Series, 1717. doi:10.1088/1742-6596/1717/1/012009.
Shaohua, J., & Zheng, C. (2023). Application of dynamic time warping optimization algorithm in speech recognition of machine translation. Heliyon, 9(11), 1—10. doi: 10.1016/j.heliyon.2023.e21625.
Boyko, N., & Hrynyshyn, A. (2021). Using recurrent neural network to noise absorption from audio files. Proceedings of the 2nd International Workshop on Computational & Information Technologies for Risk-Informed Systems (CITRisk’2021), pp.1—19, Kherson, Ukraine.
Pahwa R., Tanwar H., Sharma S. Speech recognition system: a review. International Journal of Future Generation Communication and Networking. 2020. Vol. 13. P. 2547–2559.
O`Shaughnessy D. Trends and developments in automatic speech recognition research. Com-puter speech and language. 2024. Vol. 83. P. 1–15. DOI: 10.1016/j.csl.2023.101538.
Al-Fraihat D., Sharrab Y., Alzyoud F., Qahmash A., Maaita A. Speech recognitionutilizing deep learning: a systematic review of the latest developments. Human-centric Computing and Information Sciences. 2024. Vol.15. DOI: 10.22967/HCIS.2024.14.015.
Zhang L., Sun X. Study on speech recognition method of artificial intelligence deep learning. Journal of Physics: Conference Series. 2021. Vol. 1754. DOI: 10.1088/1742-6596/1754/1/012183.
Barkovska O., Havrashenko A. Analysis of the influence of selected audio pre-processing stages on accuracy of speaker language recognition. Innovative Technologies and Scientific Solutions for Industries. 2023.No. 4, I. 26, P. 16–23. DOI: https://doi.org/10.30837/ITSSI.2023.26.016.
Keerio A., Mitra B., Birch P., Young R., Chatwin C. On preprocessing of speech signals. World Academy of Science, Engineering and Technology. 2008.Vol. 47. P. 317—323.
Top 10 Speech Recognition Software and Platforms in 2022. URL: https://www.spiceworks.com/tech/artificial-intelligence/articles/speech-recognition-software/ (дата звернення: 07.06.2024).
Rajaratnam K., Shah K., Kalita J. Isolated and ensemble audio preprocessing methods for detecting adversarial examples against automatic speech recognition. Proceedings of the 30th Conference on Computational Linguistics and Speech Processing, Hsinchu, Taiwan, 2018. pp. 16–30.
Labied M., Belangour A., Banane M., Erraissi A. An overview of automatic speech recognition preprocessing techniques. Proceedings of the International Conference on Decision Aid Sciences and Applications, Chiangrai, Thailand, 2022. pp. 804–809.
Lee S.-J., Kwon H.-Y. A preprocessing strategy for denoising of speech data based on speech segment detection. Applicated science. 2020. Vol. 10, I. 20.P. 7385. DOI: 10.3390/app10207385.
Raj V. A., Dhas M. D. K. Analysis of audio signal using various transforms for enhanced audio processing. International Journal of Health Sciences.2022. Vol. 6, I. 2. P. 12989–13001. DOI:https://doi.org/10.53730/ijhs.v6nS2.8890.
Vreca J., Pilipovic R., Biasizzo A. Hardware-software co-design of an audio feature extraction pipeline for machine learning applications. Electronics. 2024. Vol. 13, I. 5. P. 875. DOI:https://doi.org/10.3390/electronics13050875.
Durairaj P., Sriuppili S. Speech processing: MFCC based feature extraction techniques —an in-vestigation. Journal of Physics: Conference Series. 2021. 1717. DOI:10.1088/1742-6596/1717/1/012009.
Shaohua J., Zheng C. Application of dynamic time warping optimization algorithm in speech recognition of machine translation. Heliyon. 2023. Vol. 9, I. 11. P. 1–10. DOI: 10.1016/j.heliyon.2023.e21625.
Boyko N., Hrynyshyn A. Using recurrent neural network to noise absorption from audio files. Proceedings of the 2nd International Workshop on Computational & Information Technologies for Risk-Informed Systems (CITRisk’2021), Kherson, Ukraine, 2021. pp. 1–19.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
a. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
b. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
c. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).