МЕТОДИ ВРАХУВАННЯ НЕВИЗНАЧЕНОСТІ В БАГАТОВИМІРНОМУ АНАЛІЗІ ДАНИХ РЕЛЯЦІЙНИХ БАЗ ДАНИХ
DOI:
https://doi.org/10.31319/2519-8106.1(54)2026.350837Ключові слова:
невизначеність, багатовимірний аналіз даних, реляційна база данихАнотація
У статті розглянуто проблему обробки невизначеності під час багатовимірного аналізу даних реляційних баз даних, яка є актуальним науково-практичним завданням. Поява невизначеності в даних, розташованих в реляційних базах даних зумовлена зростанням обсягів, складності та гетерогенності сучасних даних. У роботі здійснено постановку задачі багатовимірного аналізу в умовах невизначеності та систематизовано основні типи невизначеності, що виникають у даних реляційних баз даних, зокрема пропуски, суперечності, нечіткі значення та семантичну неоднозначність операцій з’єднання. Запропонований формальний опис цих типів дозволяє розглядати невизначеність як невід’ємну властивість даних, що впливає на коректність аналітичних результатів.
Традиційні методи багатовимірного аналізу базуються на точному порівнянні значень або статистичних припущеннях про коректність даних, що робить їх недостатньо ефективними у присутності пропусків, суперечностей та альтернативних представлень одного об’єкта. У межах дослідження представлено та проаналізовано сучасні методи врахування невизначеності, серед яких теорія грубих множин, Баєсівські мережі довіри, теорія Демпстера–Шафера, алгоритм максимальної апроксимації очікувань та ймовірнісне з’єднання. Порівняльний аналіз показав, що кожен із зазначених методів має чітко визначену область доцільного застосування, обумовлену математичним апаратом та природою невизначеності. Встановлено, що для невизначеності типу «пропуск» найбільш ефективними є ймовірнісні підходи, зокрема EM-алгоритм і Баєсівські мережі довіри, оскільки вони забезпечують імовірнісне відновлення відсутніх значень із урахуванням залежностей між атрибутами. Для обробки суперечливих даних доцільно застосовувати теорію грубих множин і теорію Демпстера–Шафера, які дозволяють локалізувати область конфлікту та кількісно оцінити ступінь невизначеності без необхідності введення жорстких імовірнісних припущень. У випадку нечітких даних найбільш адекватними є методи нечіткої логіки, що формалізують лінгвістичну та інтервальну невизначеність через функції належності. Для невизначеності з’єднання, пов’язаної з неоднозначністю зв’язків між таблицями, найкращі результати забезпечує ймовірнісне з’єднання, яке переносить невизначеність на рівень імовірнісної інтерпретації відповідностей.
Посилання
Channar, S.H., & Vighio, M.S. (2022). A relational data model for uncertain data. International Journal of Emerging Multidisciplinaries: Computer Science& Artificial Intelligence, 1(2), 46—55. doi: https://doi.org/ 10.54938/ijemdcsai.2022.01.2.141.
Pivert, O., & Prade, H. (2018). Handling uncertainty in relational databases with possibility theory — A survey of different modelings. Proceedings of the 12th International Conference on Scalable Uncertainty Management (SUM `18), Oct 2018, Milan, Italy. pp.396—404. doi: ff10.1007/978-3-030-00461-3_30ff.
Grenyer, A., Erkoyuncu, J.A., Zhao, Y., & Roy, R. (2021). A systematic review of multivariate uncertainty quantification for engineering systems. CIRP Journal of Manufacturing Science and Technology, 33, 188—208. doi: https://doi.org/10.1016/j.cirpj.2021.03.004.
Gorla, G., Taborelli, P., & Giussani, B. (2023). A multivariate analysis-driven workflow to tack-le uncertainties in miniturized NIR data. Molecules, 28(24):7999, 1—19. doi: 10.3390/molecules28247999.
Yang, Y., Liu, S. & Xie, N. (2019). Uncerainty and grey data analytics. Marine economics and management, 2(2), 73—86. doi: https://doi.org/10.1108/MAEM-08-2019-0006.
Parisi, F., & Grant, J. (2023). How many inconsistencies are in your database? CEUR Work-shop Proceeding, 3478, 1—11.
Liao, M., Shen, D., & Lv, P. (2023). A unified model of data uncertainty and data relation un-certainty. Knowledge-Based Systems, 278. doi: https://doi.org/10.1016/j.knosys.2023.110811.
Zhu, J., Zhao, X., Sun, Y., Song, S., & Yuan, X. (2025). Relational data cleaning meets artifi-cial intelligence: a survey. Data Science and Engineering, 10, 147—174. doi: https://doi.org/10.1007/s41019-024-00266-7
Chacon-Gomez, F., Cornejo, M.E., Medina, J., & Ramirez-Poussa, E. (2023). Rough set deci-sion algorithms for modeling with uncertainty. Journal of Computational and Applied Mathemat-ics 437(3):115413. doi: 10.1016/j.cam.2023.115413.
Yang, S., Lin, L., Liu, C., Zhang, M., & Yang, H. (2025). Prediction of implicit relationships using uncertain knowledge graph embedding and Bayesian networks. Neural Processing Letters, 1, 57—72. doi: https://doi.org/10.1007/s11063-025-11794-2.
Fei, L., Li, T., & Ding, W. (2024). Dempster-Shafer theory-based information fucion for natural disaster emergency menagement: A systematic literature review, 112, 102585. doi: https://doi.org/10.1016/j.inffus.2024.102585.
Zhao, K., Yu, X. J., Rong, Y., Liao, M. & Huang J. (2021). Towards Expectation-Maximization by SQL in RDBMS. arXiv:2101.09094. doi: https://doi.org/10.48550/arXiv.2101.09094.
Nguen, H., & Tran, T.N. (2024). A relational database model with probability intervals for un-certain set-valued attributes. Malaysian Journal of Science and Advanced Technology, 4(4), 456—463. doi: https://doi.org/10.56532/mjsat.v4i4.329.
Channar S.H., Vighio M.S. A relational data model for uncertain data. International Journal of Emerging Multidisciplinaries: Computer Science & Artificial Intelligence. 2022. № 1(2). P. 46—55. doi: https://doi.org/ 10.54938/ijemdcsai.2022.01.2.141.
Pivert O., Prade H. Handling uncertainty in relational databases with possibility theory — A survey of different modelings. Proceedings of the 12th International Conference on Scalable Uncertainty Management (SUM `18), Oct 2018, Milan, Italy. pp. 396 — 404. doi: ff10.1007/978-3-030-00461-3_30ff.
Grenyer A., Erkoyuncu J.A., Zhao Y., Roy R. A systematic review of multivariate uncertainty quantification for engineering systems. CIRP Journal of Manufacturing Science and Technology. 2021. №33. Р. 188—208. doi: https://doi.org/10.1016/j.cirpj.2021.03.004.
Gorla G., Taborelli P., Giussani B. A multivariate analysis-driven workflow to tackle uncertain-ties in miniturized NIR data. Molecules. 2023. № 28(24):7999. Р. 1—19. doi: 10.3390/molecules28247999.
Yang Y., Liu S. Xie N. Uncerainty and grey data analytics. Marine economics and management. 2019. № 2(2). Р. 73—86. doi: https://doi.org/10.1108/MAEM-08-2019-0006.
Parisi F., Grant J. How many inconsistencies are in your database? CEUR Workshop Proceed-ing. 2023. № 3478. Р. 1—11.
Liao M., Shen D., Lv P. A unified model of data uncertainty and data relation uncertainty. Knowledge-Based Systems. 2023. № 278. Р. 1—12. doi: 10.1016/j.knosys.2023. 110811.
Zhu J., Zhao X., Sun Y., Song S., Yuan X. Relational data cleaning meets artificial intelligence: a survey. Data Science and Engineering. 2025. № 10. Р. 147—174. doi: https://doi.org/10.1007/s41019-024-00266-7
Chacon-Gomez F., Cornejo M. E., Medina J., Ramirez-Poussa E. Rough set decision algorithms for modeling with uncertainty. Journal of Computational and Applied Mathematics. 2023. № 437(3):115413. doi: 10.1016/j.cam.2023.115413.
Yang S., Lin L., Liu C., Zhang M., Yang H. Prediction of implicit relationships using uncertain knowledge graph embedding and Bayesian networks. Neural Processing Letters. 2025. № 1. 57—72. doi: https://doi.org/10.1007/s11063-025-11794-2.
Fei L., Li T., Ding W. Dempster-Shafer theory-based information fucion for natural disaster emergency menagement: A systematic literature review. Information Fusion. 2024. № 112. ID 102585. doi: https://doi.org/10.1016/j.inffus.2024.102585.
Zhao K., Yu X. J., Rong Y., Liao M., Huang J. Towards Expectation-Maximization by SQL in RDBMS. arXiv. 2021. № 2101. ID 09094. doi: https://doi.org/10.48550/arXiv.2101.09094.
Nguen H., & Tran T.N. A relational database model with probability intervals for uncertain set-valued attributes. Malaysian Journal of Science and Advanced Technology. 2024. № 4(4), P. 456—463. doi: https://doi.org/10.56532/mjsat.v4i4.329.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
a. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
b. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
c. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).