ЧИСЕЛЬНЕ ОЦІНЮВАННЯ ШВИДКОДІЇ МОДЕЛЕЙ ДАНИХ В АНАЛІЗІ БАГАТОВИМІРНИХ ДАНИХ
DOI:
https://doi.org/10.31319/2519-8106.1(52)2025.325957Ключові слова:
багатовимірний аналіз даних, гіперкуб, модель даних «зірка», модель даних «сніжинка», аналітичні операціїАнотація
Статтю присвячено чисельному оцінюванню ефективності двох моделей даних, що застосовуються в аналітичних системах управління даними: «зірка» та «сніжинка». Представлено результати проєктування цих моделей із детальним описом їхньої структури, включаючи виміри, факти та значення. Для досягнення мети дослідження виконано такі завдання: проєктування моделей даних у межах вибраної предметної області; їхнє розгортання у вигляді OLAP-гіперкуба; реалізація основних аналітичних операцій багатовимірного аналізу даних із фіксацією швидкодії; проведення порівняльного аналізу отриманих результатів і формулювання висновків щодо ефективності кожної моделі.
Для проведення чисельного дослідження використовувався масив результатів складання Національного мультипредметного тесту України за 2022—2024 роки, оскільки ці дані мають багатовимірну природу, поєднуючи атрибути з різних незалежних сутностей предметної області. Для чисельного оцінювання застосовувалися такі метрики: швидкодія виконання запитів, надмірність даних та ефективність використання пам’яті.
У роботі оцінено швидкодію виконання базових аналітичних операцій — зрізу, створення підкубу, агрегації, деталізації, та обертання — шляхом автоматизованого вимірювання часу обробки запитів у середовищі SQL Server Profiler. Для кожної операції надано результати тестування та приклади трьох виконаних запитів. Аналіз даних щодо швидкодії моделей показав, що операція зрізу виконувалася на 2,86 % повільніше на моделі «сніжинка», тоді як створення підкубів і обертання — на 37 % та 16,37 % відповідно. Найбільша різниця у швидкодії у 70,47 % зафіксована для операції деталізації. Єдина операція, де модель «сніжинка» переважала за швидкодією, — агрегація (2,39 % швидше), що пояснюється її нормалізованою структурою та меншою надмірністю даних. Отримані результати представлено у вигляді гістограм.
Надмірність даних визначалася за метрикою Data Storage Overhead. Попри збільшення кількості таблиць у 1,83 рази, модель «сніжинка» містила лише на 0,5 % більше записів завдяки її нормалізованій структурі. Водночас значення DSO для модель «зірка» склала 33 %, що пояснюється значним дублюванням даних у ненормалізованих таблицях вимірів.
Посилання
Mohammed, K.I. (2019). Data Warehouse Design and Implementation Based on Star Schema vs. Snowflake Schema. International Journal of Academic Research in Business and Social Sciences, 7(5), 25—38. doi: 10.6007/IJARBSS/v9-i14/6502.
Rorimpandey, G. C., Sangkop, F. I., Rantung, V. P., Zwart, J. P., Liando, O. E. S., Meweng-kang, A. (2018). Data model performance in data warehousing. Materials Science and Engineering, 306, 012044. doi: 10.1088/1757-899X/306/1/012044.
Kossman, J., Papenbrock, T., Maumann, F. (2021). Data dependiecies for query optimization: a survey. The International Journal of Very Large Data Bases, 31 (1), 1—22. doi: 10.1007/s00778-021-00676-3.
Taipalus, T. (2025). On the effects of logical database design on database size, query complexi-ty, query performance, and energy consumption. URL: https://arxiv.org/abs/2501.07449v1
Ribeiro, A., Silva, A., Rodrigues da Silva, A. (2015). Data Modeling and Data Analytics: A Sur-vey from a Big Data Perspective. Journal of Software Engineering and Applications, 8(12),
—18. doi: 10.4236/jsea.2015.812058.
Li, X., Shen, Q., Yang, T. (2024). Design and optimization of multidimensional data models for enhanced OLAP query performance and data analysis. Applied and Computational Engineering, 1, 161—166. doi: 10.54254/2755-2721/69/20241503.
Forresi, C., Gallinucci, E., Golfarelli, M. (2021). A dataspace-based framework for OLAP analyses in a high-variety multistore. The VLDB Journal, 30, 1017—1040. doi:10.1007/s00778-021-00682-5.
Abbasi, M., Bernardo, M., Vaz, P., Silva, J., Martins, P. (2024). Revisiting Database Indexing for Parallel and Accelerated Computing: A Comprehensive Study and Novel Approaches. Infor-maion, 15(8), 429. doi: 10.3390/info15080429.
Yalova, K., Babenko, M., Ismailov, V. (2024). OLAP hypercubes as a tool for analyzing multi-dimensional highly structured data. Mathematical Modelling, 51, 57—65. doi: 10.31319/2519-8106.2(51)2024.317498.
Azzini, A., Ceravolo, P., Colella, M. (2019). Performances of OLAP operations in graph and relational databases. Knowledge Management in Organizations, 1027, 282—293. doi: 10.1007/978-3-030-21451-7_24.
Opendatа: Statistics on national multi-subject testing. (2025).
URL: https://zno.testportal.com.ua/opendata.
Mohammed K.I. Data Warehouse Design and Implementation Based on Star Schema vs. Snow-flake Schema. International Journal of Academic Research in Business and Social Sciences. 2019. №7(5). Р. 25—38. doi: 10.6007/IJARBSS/v9-i14/6502.
Rorimpandey G. C., Sangkop F. I., Rantung V. P., Zwart J. P., Liando O. E. S., Mewengkang A. Data model performance in data warehousing. Materials Science and Engineering. 2018. №306. ID 012044. doi: 10.1088/1757-899X/306/1/012044.
Kossman J., Papenbrock T., Maumann F. Data dependiecies for query optimization: a survey. The International Journal of Very Large Data Bases. 2021. №31(1), Р. 1—22. doi: 10.1007/s00778-021-00676-3.
Taipalus T. On the effects of logical database design on database size, query complexity, query performance, and energy consumption. URL: https://arxiv.org/abs/2501.07449v1 (дата звернення: 10.02.2025).
Ribeiro A., Silva A., Rodrigues da Silva A. Data Modeling and Data Analytics: A Survey from a Big Data Perspective. Journal of Software Engineering and Applications. 2015. № 8(12). Р. 1—18. doi: 10.4236/jsea.2015.812058.
Li X., Shen Q., Yang T. Design and optimization of multidimensional data models for enhanced OLAP query performance and data analysis. Applied and Computational Engineering. 2024. №1. Р. 161—166. doi: 10.54254/2755-2721/69/20241503.
Forresi C., Gallinucci E., Golfarelli M. A dataspace-based framework for OLAP analyses in a high-variety multistore. The VLDB Journal. 2024. №30. Р. 1017—1040. doi:10.1007/s00778-021-00682-5.
Abbasi M., Bernardo M., Vaz P., Silva J., Martins P. Revisiting Database Indexing for Parallel and Accelerated Computing: A Comprehensive Study and Novel Approaches. Information. 2024. №15(8). ID 429. doi: 10.3390/info15080429.
Yalova K., Babenko M., Ismailov V. OLAP hypercubes as a tool for analyzing multidimensional highly structured data. Mathematical Modelling. 2024. Vol. 51. P. 57—65. doi: 10.31319/2519-8106.2(51)2024.317498.
Azzini A., Ceravolo P., Colella M. Performances of OLAP operations in graph and relational data-bases. Knowledge Management in Organizations. 2019. Vol. 1027. P. 282—293. doi: 10.1007/978-3-030-21451-7_24.
Opendatа: Statistics on national multi-subject testing. URL: https://zno.testportal.com.ua/opendata (дата звернення: 01.02.2025).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
a. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
b. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
c. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).