АНАЛІЗ НЕСТРУКТУРОВАНИХ АДРЕСНИХ ДАНИХ ЗАСОБАМИ АЛГОРИТМІВ НЕЧІТКОЇ ЛОГІКИ
DOI:
https://doi.org/10.31319/2519-8106.2(53)2025.342946Ключові слова:
неструктуровані дані, адресні дані, нечітка логіка, алгоритм Damerau-Levenshtein, алгоритм Jaro-WinklerАнотація
У статті розглянуто проблему впорядкування та нормалізації адресних даних, що зберігаються у реляційних базах даних у неструктурованому вигляді. Така проблема є типовою для багатьох організацій, які працюють із великими обсягами інформації: різні формати введення, скорочення, помилки друку та перестановки елементів в адресних даних ускладнюють процеси пошуку й аналітики. З метою усунення зазначених недоліків запропоновано використання алгоритмів нечіткого порівняння рядків, здатних враховувати синтаксичні відмінності, зокрема, Damerau-Levenshtein та Jaro-Winkler. Метою дослідження є оцінювання ефективності застосування зазначених алгоритмів для нормалізації неструктурованих адресних даних, які зберігаються у реляційній базі даних. Основними завданнями дослідження є: розроблення алгоритмів застосування обраних метрик для аналізу адресних даних, проведення чисельного експерименту, оцінювання точності та повноти співставлення, а також визначення переваг і обмежень кожного алгоритму. Основна ідея алгоритмів Damerau-Levenshtein та Jaro-Winkler полягає у визначенні схожості між вхідними та еталонними символьними рядками. У статті запропоновано алгоритми їхнього застосування для аналізу адресних даних, що зберігаються у реляційній базі даних, з урахуванням попередньої пренормалізації — приведення рядків до єдиного регістру, очищення від зайвих символів і стандартизації скорочень.
Для проведення чисельного експерименту був сформовано словник еталонних значень та використано вибірку з 1000 записів неструктурованих адресних даних. Для автоматичного мапування адрес були встановлено порогові значення 4 для Damerau-Levenshtein та 0,88 для Jaro-Winkler, після чого були сформовано відповідні логічні правила зіставлення. Для зручності графічного порівняння значення Damerau-Levenshtein було нормалізовано до діапазону [0,1]. Результати експерименту показали, що середня точність співставлення адрес становить 0,9 для Jaro-Winkler та 0,72 для Damerau-Levenshtein. Експеримент показав, що Jaro-Winkler частіше дає високі значення схожості, оскільки краще враховує збіг початкових частин слів (спільні префікси) і є ефективним при роботі зі скороченнями. Натомість Damerau-Levenshtein точніше відображає локальні орфографічні помилки на рівні символів. Отримані результати свідчать, що Jaro-Winkler є більш придатним для попереднього етапу нормалізації адрес, особливо у випадках, коли адреси мають подібну структуру або спільні початки, оскільки цей алгоритм враховує спільні префікси. Таким чином Jaro-Winkler доцільно застосовувати для коротких або схожих назв. Водночас алгоритм Damerau-Levenshtein продемонстрував нижчу середню точність через вищу чутливість до символьних змін, проте є більш ефективним для довших рядків або випадків, що містять перестановки та складніші відмінності у написанні.
Посилання
Goswami, M., & Purkayastha, B. S. (2020). A fuzzy based approach for empirical analysis of unstructured data. Journal of computational and theoretical nanoscience, 17(9), 4375—4379. doi: 10.1166/jctn.2020.9080.
Saatchi, R. (2024). Fuzzy logic concepts, developments and implementation. Information, 15(10), 1—24. doi: https://doi.org/10.3390/info15100656.
Kulkarni, K. N, & Lad, R. K. (2021). Fuzzy logic and its developmental advances: a review. Proceedings of The 2nd International Conference on IoT Based Control Networks & Intelligent Systems (ICICNIS`21), Kerala, India.
Lai, Y.–W., & Chen, M.–Y. (2023). Review of survey research in fuzzy approach for text mining. IEEE Access, 11, 39635—39649. doi: 10.1109/ACCESS.2023.3268165.
Sadia, M., Chowdhury, A. R., & Chen, A. (2025). A case for computing on unstructured data. arXiv, 2509, 1—6.
Addokali, B. M., & Elburase, E. A. (2022). Using Levenshtein Distance Algorithm to increase database search efficiency and accuracy. Research Gates, 10, 1—7.
Po, K. D. (2020). Similarity based information retrieval using distance algorithm. International Journal of Advances in Scientific Research and Engineering, 6(4), 6—10.
Petty, T., Hanning, J., Huszar, T., & Lyer, H. (2022). A new string edit distance and applica-tions. Algorithms, 15(7), 1—22. doi: https://doi.org/10.3390/a15070242.
Rozinek, O., & Mares, J. (2024). Fast and precise convolutional Jaro and Jaro-Winkler Simi-larity. Proceedings of The 35th Conference of Open Innovations Association (FRUCT`24), Tampere, Finland. doi: 10.23919/FRUCT61870.2024.10516360.
Malaga, K. B. K., Verdillo, K. L., Pascual, E. S. (2025). An enhancement of the Jaro-Winkler fuzzy searching algorithm applied in library search engine. Journal of Information Systems En-gineering and Mangement, 10(28), 649—660. doi: https://doi.org/10.52783/jisem.v10i28s.4369.
Coates P., & Breitinger F. Identifying document similarity using a fast estimation of the Le-venshtein Distance based on compression and signatures. Proceedings of the Digital Forensics Research Conference Europe (DFRWS EU`22), Oxford, UK.
Ramani, K., & Borrajo, D. (2024). Methods for matching English language addresses. arXiv, 2403.12092, 1—15.
Lee, K., Claridades, A. R. C., & Lee, J. (2020). Improving a street-based geocoding algorithm using machine learning techniques. Applied Science, 10(16), 5628. doi: https://doi.org/10.3390/app10165628.
Makalesi, A. (2021). Comparison of different classification algorithms for extraction infor-mation from invoice images using an N-gram approach. European Journal of Science and Technology, 31(1), 991—1003. doi: 10.31590/ejosat.844862.
Kandregula, R. P. (2021). Comparison of Apache SOLR search, spellcheck string distance measure — Levenshtein, Jaro–Winkler, and N–Gram. International Journal of Computer Trends and Technology, 69(3), 1—4. doi: https://doi.org/10.14445/22312803/ IJCTT-V69I3P101.
Goswami M., Purkayastha B. S. A fuzzy based approach for empirical analysis of unstructured data. Journal of computational and theoretical nanoscience. 2020. №17(9). P. 4375—4379. doi: 10.1166/jctn.2020.9080.
Saatchi R. Fuzzy logic concepts, developments and implementation. Information. 2024. №15(10). 1—24. doi: https://doi.org/10.3390/info15100656
Kulkarni K. N, Lad R. K. Fuzzy logic and its developmental advances: a review. Proceedings of the International Conference on IoT Based Control Networks & Intelligent Systems — ICICNIS 2021. PP. 1—4
Lai Y–W., Chen M.–Y. Review of survey research in fuzzy approach for text mining. IEEE Ac-cess. 2023. №11. P. 39635—39649. doi: 10.1109/ACCESS.2023.3268165
Sadia M., Chowdhury A. R., Chen A. A case for computing on unstructured data. arXiv. 2025. № 2509. P. 1—6.
Addokali B. M., Elburase E. A. Using Levenshtein Distance Algorithm to increase database search efficiency and accuracy. Research Gates. 2022. №10. P. 1—7.
Po K. D. Similarity based information retrieval using distance algorithm. International Journal of Advances in Scientific Research and Engineering. 2020. 6(4). P. 6—10.
Petty T., Hanning J., Huszar T., Lyer H. A new string edit distance and applications. Algo-rithms. 2022. №15(7). P. 1—22.doi: https://doi.org/10.3390/a15070242
Rozinek O., Mares J. Fast and precise convolutional Jaro and Jaro–Winkler Similarity. 2024. 35th Conference of Open Innovations Association (FRUCT), Tampere, Finland. pp. 604—613, doi: 10.23919/FRUCT61870.2024.10516360.
Malaga K. B. K., Verdillo K. L., Pascual E. S. An enhancement of the Jaro–Winkler fuzzy searching algorithm applied in library search engine. Journal of Information Systems Engineer-ing and Mangement. 2025. №10(28). P. 649—660. doi: https://doi.org/10.52783/jisem.v10i28s.4369
Coates P., Breitinger F. Identifying document similarity using a fast estimation of the Le-venshtein Distance based on compression and signatures. Proceedings of the Digital Forensics Research Conference Europe (DFRWS EU), March 29—April 1, 2022. P. 1—11.
Ramani K., Borrajo D. Methods for matching English language addresses. arXiv. 2024. 2403.12092. P.1—15
Lee K., Claridades A.R.C., Lee J. Improving a street-based geocoding algorithm using machine learning techniques. Applied Science. 2020. 10(16). 5628; https://doi.org/10.3390/app10165628
Makalesi A. Comparisom of different classification algorithms for extraction information from invoice images using an N–gram approach. European Journal of Science and Texhnology. 2021. 31(1). P. 991—1003. doi: 10.31590/ejosat.844862
Kandregula R.P. Comparison of Apache SOLR search, spellcheck string distance measure — Levenshtein, Jaro–Winkler, and N–Gram. International Journal of Computer Trends and Tech-nology. 2021. Vol. 69., no. 3. P. 1—4. doi: https://doi.org/10.14445/22312803/ IJCTT-V69I3P101
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
a. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
b. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
c. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).