ЗАСТОСУВАННЯ НЕЙРОННИХ МЕРЕЖ В ЗАДАЧІ РОЗПІЗНАВАННЯ МОВЛЕННЯ

Автор(и)

  • К.М. Ялова Дніпровський державний технічний університет, м. Кам'янське, Україна https://orcid.org/0000-0002-2687-5863
  • М.В. Бабенко Дніпровський державний технічний університет, м. Кам'янське, Україна https://orcid.org/0000-0003-1013-9383
  • К.Ю. Шелюг Дніпровський державний технічний університет, м. Кам'янське, Україна

DOI:

https://doi.org/10.31319/2519-8106.1(52)2025.325954

Ключові слова:

розпізнавання мовлення, нейронна мережа, рекурентні нейронні мережі, згорткові нейронні мережі, нейронні мережі типу «трансформер»

Анотація

Статтю присвячено опису узагальненого нейромережевого підходу до розв’язання завдання розпізнавання мовлення. Наведений у статті алгоритм використання нейронних мереж для перетворення вхідного аудіосигналу на розпізнаний текст описує основні кроки моделювання та програмної реалізації мовної нейромережевої моделі, такі як: збір даних, їх попередня обробка, виділення ознак, вибір та навчання моделі, декодування та впровадження у практичні системи.

У роботі представлено математичний опис та архітектури трьох найбільш ефективних типів нейронних мереж, які можуть бути використанні під час розробки системи автоматичного розпізнавання мовлення: рекурентні і згорткові нейронні мережі та мережі типу «трансформер», для яких представлено опис кроків їх впровадження в задачі розпізнавання мовлення із математичною формалізацією цього опису. Наведені графічні представлення архітектур нейронних мереж дають змогу наочно оцінити складність їх структури та ілюструють схему перетворення вхідної послідовності до результуючої за допомогою специфічних програмних механізмів.

Для кожного типу нейронних мереж визначено переваги і недоліки їх використання та наведено порівняльна характеристика очікуваних результатів розпізнавання мовлення: точність, обчислювальна складність, вимога пам’яті, критерії WER, CER, BLEU. Визначено, що рекурентні нейронні мережі вимагають менше обчислювальних ресурсів, що робить їх оптимальними для застосування на невеликих наборах даних та у задачах з низькою складністю. Згорткові нейронні мережі є потужним інструментом для витягування акустичних ознак, забезпечуючи високу швидкість обчислень завдяки паралелізації, однак для врахування часової динаміки їх зазвичай комбінують з іншими нейронними мережами. У свою чергу, трансформерні архітектури демонструють найвищу точність розпізнавання мовлення завдяки здатності ефективно обробляти довгі послідовності, проте вони мають високу обчислювальну складність та великі вимоги до ресурсів і розміру вхідної послідовності.

Представлені результати дослідження можуть бути застосовані для обґрунтованого вибору типу нейронної мережі під час реалізації системи автоматичного розпізнавання мовлення.

Посилання

Penaloza, M. (2024). Analysis of progress in speech recognition models. URL: https://forum.effectivealtruism.org/posts/2i4SyjScgsQ4qbfDH/analysis-of-progress-in-speech-recognition-models-2?utm_source=chatgpt.com

Ahlawat, H., Aggarwal, N., & Gupta, D. (2025). Automatic speech recognition: a survey of deep learning techniques and approaches. International Journal of Cognitive Computing in Engineering, 6, 201—237. doi: 10.1016/j.ijcce.2024.12.007.

Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2016). Listen, attend and spell: a neural network for large vocabulary conversational speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP`16), Shanghai, China.

Chiu, C.-C., Sainath, T. N., Wu, Y., Prabhavalkar, R., Nguyen, P., & Chen, Z. (2018). State of the art speech recognition with sequence-to-sequence models. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP`18), Calgary, Alberta, Canada.

Kons, Z., Aronowitz, H., Morais, E., Damasceno, M., Kuo, H., Thomas, S., & Saon, G. (2022). Extending RNN-T-based speech recognition systems with emotion and language classification. IBM Research AI, 7, 1—4. doi: org/10.48550/arXiv.2207.13965.

Zhang, Z., & Wu, Y. (2020). BiLSTM-CRF model for sequence labeling: a comparative analy-sis. Journal of Artificial Intelligence Research, 67, 731—755.

Feng, Y. (2023). Intelligent speech recognition algorithm in multimedia visual interaction via BiLSTM and attention mechanism. Neural Computing and Applications, 36, 2371—2383. doi: 10.1007/s00521-023-08959-2.

Hamzah, A., Abdelaziz, A., Hegazy, I., & Fayed, Z. (2021) Arabic speech recognition using end-to-end deep learning. IET Signal, 15(8), 521—534. doi: 10.1049/sil2.12057.

Samin, A., Kobir, H., Kibria, S., & Rahman, S. (2021). Deep learning based large vocabulary continuous speech recognition of an under-resourced language Bangladeshi Bangla. Acoustical Science and Technology, 42(5), 252—260. doi: 10.1250/ast.42.252.

Bekarystankyzy, A., Mamyrbayev, O., & Anarbekova, T. ACM transactions on Asian and low-resource language. Information Processing, 23(6), 1—17. doi:10.1145/366356.

Sarhan, A., Elshennawy, N., & Ibrahim, D. (2021). HLR-Net: a hybrid lip-reading model based on deep convolutional neural networks. Computers, Materials & Continua, 68(2), 1531—1549. doi: 10.32604/cmc.2021.016509.

Thejha, B., Yogeswari, S., & Jeyalakshmi, J. (2023). Speech recognition using quantum convolutional neural network. VIII International Conference on Science Technology Engineering and Mathematics (ICONSTEM`23), TamilNadu, India.

Gulati, A., Qin, J., Chiu, C., Parmar, N., Zhang, Y., Yu, J., Han, W., Wang, S., Zhang, Z., Wu, Y., & Pang, R. (2020). Conformer: convolution-augmented transformer for speech recogni-tion. URL: https://arxiv.org/abs/2005.08100.

Baevski, A., Zhou, P., & Auli, M. (2020). Wav2Vec 2.0: a framework for self-supervised learn-ing of speech representations. URL: https://arxiv.org/abs/2006.11477.

Graham, C., & Roll, N. (2024). Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits. The Journal of the Acoustical Society of America, 4(2), ID 025206. doi: 10.1121/10.0024876.

Yalova, K., Babenko, M., Sheliuh, K. (2024). Audio signal Pre-processing within speech recognition task. Mathematical modelling, 2(51), 9—18. doi: 10.31319/2519-8106.2(51)2024.317425.

Yalova, K., Yashyna, K., Babenko, M. (2023). Automatic speech recognition system with dy-namic time warping and Mel-Frequiency Cepstral coefficients. CEUR, 3396, 141—151.

Sruthi, V. T., Sidharth, K., Srivibhushanaa, S., Sanoj, C.S. (2020). Automatic speech recogni-tion using Recurrent Neural Network. International Journal of Engineering Research & Tech-nology, 9, 777—781. doi: 10.17577/IJERTV9IS080343.

Magalhaes, R. P., Vasconcelos, D., Fernandes, G., Cruz, L., Sampaio, M., Fernandes de Mace-do, J. & Coelho da Silva, T. (2022). Evaluation of automatic speech recognition approaches. Journal of Information and Data Management, 13(3), 366—377.

Penaloza M. Analysis of progress in speech recognition models. URL: https://forum.effectivealtruism.org/posts/2i4SyjScgsQ4qbfDH/analysis-of-progress-in-speech-recognition-models-2?utm_source=chatgpt.com (дата звернення 01.02.2025).

Ahlawat H., Aggarwal N., Gupta D. Automatic speech recognition: a survey of deep learning techniques and approaches. International Journal of Cognitive Computing in Engineering. 2025. Vol. 6. P. 201—237. DOI: 10.1016/j.ijcce.2024.12.007.

Chan W., Jaitly N., Le Q. V., Vinyals O. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, China, 2016, pp. 4960—4964.

Chiu C.-C., Sainath T. N., Wu Y., Prabhavalkar R., Nguyen P., Chen Z. State of the art speech recognition with sequence-to-sequence models. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, Alberta, Canada, 2018, pp. 4774—4778.

Kons Z., Aronowitz H., Morais E., Damasceno M., Kuo H., Thomas S., Saon G. Extending RNN-T-based speech recognition systems with emotion and language classification. IBM Research AI. 2022. Vol. 7. P. 1—4. DOI: org/10.48550/arXiv.2207.13965.

Zhang Z., Wu Y. BiLSTM-CRF model for sequence labeling: a comparative analysis. Journal of Artificial Intelligence Research. 2020. Vol. 67. P. 731—755.

Feng Y. Intelligent speech recognition algorithm in multimedia visual interaction via BiLSTM and attention mechanism. Neural Computing and Applications. 2023. Vol. 36. P. 2371—2383. DOI: 10.1007/s00521-023-08959-2.

Hamzah A., Abdelaziz A., Hegazy I., Fayed Z. Arabic speech recognition using end-to-end deep learning. IET Signal. 2021. Vol. 15. I. 8. P. 521—534. DOI: 10.1049/sil2.12057.

Samin A., Kobir H., Kibria S., Rahman S. Deep learning based large vocabulary continuous speech recognition of an under-resourced language Bangladeshi Bangla. Acoustical Science and Technology. 2021. Vol. 42. I. 5. P. 252—260. DOI: 10.1250/ast.42.252.

Bekarystankyzy A., Mamyrbayev O., Anarbekova T. ACM transactions on Asian and low-resource language. Information Processing. Vol. 23. I. 6. P. 1—17. DOI:10.1145/366356.

Sarhan A., Elshennawy N., Ibrahim D. HLR-Net: a hybrid lip-reading model based on deep convolutional neural networks. Computers, Materials & Continua. 2021. Vol. 68. I. 2. P. 1531—1549. DOI: 10.32604/cmc.2021.016509.

Thejha B., Yogeswari S., Jeyalakshmi J. Speech recognition using quantum convolutional neural network. Proceeding of the VIII International Conference on Science Technology Engineering and Mathematics, TamilNadu, India, 2023, pp. 1—7.

Gulati A., Qin J., Chiu C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. Conformer: convolution-augmented transformer for speech recognition. URL: https://arxiv.org/abs/2005.08100 (дата звернення 20.02.2025).

Baevski A., Zhou P., Auli M. Wav2Vec 2.0: a framework for self-supervised learning of speech representations. URL: https://arxiv.org/abs/2006.11477 (дата звернення 01.03.2025).

Graham C., Roll N. Evaluating OpenAI's Whisper ASR: Performance analysis across diverse ac-cents and speaker traits. The Journal of the Acoustical Society of America. 2024. Vol. 4. I. 2. ID 025206. DOI: 10.1121/10.0024876.

Yalova K., Babenko M., Sheliuh K. Audio signal Pre-processing within speech recognition task. Mathematical modelling. 2024. Vol. 2(51). P. 9—18. DOI: 10.31319/2519-8106.2(51)2024.317425.

Yalova K., Yashyna K., Babenko M. Automatic speech recognition system with dynamic time warping and Mel-Frequiency Cepstral coefficients. CEUR. 2023. Vol. 3396. P. 141—151.

Sruthi V. T., Sidharth K., Srivibhushanaa S., Sanoj C.S. Automatic speech recognition using Recurrent Neural Network. International Journal of Engineering Research & Technology. 2020. Vol. 9. P. 777—781. DOI: 10.17577/IJERTV9IS080343.

Magalhaes R. P., Vasconcelos D., Fernandes G., Cruz L., Sampaio M., Fernandes de Macedo J. Coelho da Silva T. Evaluation of automatic speech recognition approaches. Journal of Information and Data Management. 2022. Vol. 13. I. 3. P. 366—377.

##submission.downloads##

Опубліковано

2025-06-10

Номер

Розділ

Статті