ANALYSIS OF UNSTRUCTURED ADDRESS DATA USING FUZZY LOGIC ALGO-RITHMS

К.М. Ялова; В.В. Ісмаілов; К.Ю. Шелюг

doi:10.31319/2519-8106.2(53)2025.342946

Автор(и)

К.М. Ялова Дніпровський державний технічний університет, м. Кам’янське, Україна https://orcid.org/0000-0002-2687-5863
В.В. Ісмаілов Дніпровський державний технічний університет, м. Кам’янське, Україна
К.Ю. Шелюг Дніпровський державний технічний університет, м. Кам’янське, Україна

DOI:

https://doi.org/10.31319/2519-8106.2(53)2025.342946

Ключові слова:

неструктуровані дані, адресні дані, нечітка логіка, алгоритм Damerau-Levenshtein, алгоритм Jaro-Winkler

Анотація

У статті розглянуто проблему впорядкування та нормалізації адресних даних, що зберігаються у реляційних базах даних у неструктурованому вигляді. Така проблема є типовою для багатьох організацій, які працюють із великими обсягами інформації: різні формати введення, скорочення, помилки друку та перестановки елементів в адресних даних ускладнюють процеси пошуку й аналітики. З метою усунення зазначених недоліків запропоновано використання алгоритмів нечіткого порівняння рядків, здатних враховувати синтаксичні відмінності, зокрема, Damerau-Levenshtein та Jaro-Winkler. Метою дослідження є оцінювання ефективності застосування зазначених алгоритмів для нормалізації неструктурованих адресних даних, які зберігаються у реляційній базі даних. Основними завданнями дослідження є: розроблення алгоритмів застосування обраних метрик для аналізу адресних даних, проведення чисельного експерименту, оцінювання точності та повноти співставлення, а також визначення переваг і обмежень кожного алгоритму. Основна ідея алгоритмів Damerau-Levenshtein та Jaro-Winkler полягає у визначенні схожості між вхідними та еталонними символьними рядками. У статті запропоновано алгоритми їхнього застосування для аналізу адресних даних, що зберігаються у реляційній базі даних, з урахуванням попередньої пренормалізації — приведення рядків до єдиного регістру, очищення від зайвих символів і стандартизації скорочень.

Для проведення чисельного експерименту був сформовано словник еталонних значень та використано вибірку з 1000 записів неструктурованих адресних даних. Для автоматичного мапування адрес були встановлено порогові значення 4 для Damerau-Levenshtein та 0,88 для Jaro-Winkler, після чого були сформовано відповідні логічні правила зіставлення. Для зручності графічного порівняння значення Damerau-Levenshtein було нормалізовано до діапазону [0,1]. Результати експерименту показали, що середня точність співставлення адрес становить 0,9 для Jaro-Winkler та 0,72 для Damerau-Levenshtein. Експеримент показав, що Jaro-Winkler частіше дає високі значення схожості, оскільки краще враховує збіг початкових частин слів (спільні префікси) і є ефективним при роботі зі скороченнями. Натомість Damerau-Levenshtein точніше відображає локальні орфографічні помилки на рівні символів. Отримані результати свідчать, що Jaro-Winkler є більш придатним для попереднього етапу нормалізації адрес, особливо у випадках, коли адреси мають подібну структуру або спільні початки, оскільки цей алгоритм враховує спільні префікси. Таким чином Jaro-Winkler доцільно застосовувати для коротких або схожих назв. Водночас алгоритм Damerau-Levenshtein продемонстрував нижчу середню точність через вищу чутливість до символьних змін, проте є більш ефективним для довших рядків або випадків, що містять перестановки та складніші відмінності у написанні.

Посилання

Goswami, M., & Purkayastha, B. S. (2020). A fuzzy based approach for empirical analysis of unstructured data. Journal of computational and theoretical nanoscience, 17(9), 4375—4379. doi: 10.1166/jctn.2020.9080.

Saatchi, R. (2024). Fuzzy logic concepts, developments and implementation. Information, 15(10), 1—24. doi: https://doi.org/10.3390/info15100656.

Kulkarni, K. N, & Lad, R. K. (2021). Fuzzy logic and its developmental advances: a review. Proceedings of The 2nd International Conference on IoT Based Control Networks & Intelligent Systems (ICICNIS`21), Kerala, India.

Lai, Y.–W., & Chen, M.–Y. (2023). Review of survey research in fuzzy approach for text mining. IEEE Access, 11, 39635—39649. doi: 10.1109/ACCESS.2023.3268165.

Sadia, M., Chowdhury, A. R., & Chen, A. (2025). A case for computing on unstructured data. arXiv, 2509, 1—6.

Addokali, B. M., & Elburase, E. A. (2022). Using Levenshtein Distance Algorithm to increase database search efficiency and accuracy. Research Gates, 10, 1—7.

Po, K. D. (2020). Similarity based information retrieval using distance algorithm. International Journal of Advances in Scientific Research and Engineering, 6(4), 6—10.

Petty, T., Hanning, J., Huszar, T., & Lyer, H. (2022). A new string edit distance and applica-tions. Algorithms, 15(7), 1—22. doi: https://doi.org/10.3390/a15070242.

Rozinek, O., & Mares, J. (2024). Fast and precise convolutional Jaro and Jaro-Winkler Simi-larity. Proceedings of The 35th Conference of Open Innovations Association (FRUCT`24), Tampere, Finland. doi: 10.23919/FRUCT61870.2024.10516360.

Malaga, K. B. K., Verdillo, K. L., Pascual, E. S. (2025). An enhancement of the Jaro-Winkler fuzzy searching algorithm applied in library search engine. Journal of Information Systems En-gineering and Mangement, 10(28), 649—660. doi: https://doi.org/10.52783/jisem.v10i28s.4369.

Coates P., & Breitinger F. Identifying document similarity using a fast estimation of the Le-venshtein Distance based on compression and signatures. Proceedings of the Digital Forensics Research Conference Europe (DFRWS EU`22), Oxford, UK.

Ramani, K., & Borrajo, D. (2024). Methods for matching English language addresses. arXiv, 2403.12092, 1—15.

Lee, K., Claridades, A. R. C., & Lee, J. (2020). Improving a street-based geocoding algorithm using machine learning techniques. Applied Science, 10(16), 5628. doi: https://doi.org/10.3390/app10165628.

Makalesi, A. (2021). Comparison of different classification algorithms for extraction infor-mation from invoice images using an N-gram approach. European Journal of Science and Technology, 31(1), 991—1003. doi: 10.31590/ejosat.844862.

Kandregula, R. P. (2021). Comparison of Apache SOLR search, spellcheck string distance measure — Levenshtein, Jaro–Winkler, and N–Gram. International Journal of Computer Trends and Technology, 69(3), 1—4. doi: https://doi.org/10.14445/22312803/ IJCTT-V69I3P101.

Goswami M., Purkayastha B. S. A fuzzy based approach for empirical analysis of unstructured data. Journal of computational and theoretical nanoscience. 2020. №17(9). P. 4375—4379. doi: 10.1166/jctn.2020.9080.

Saatchi R. Fuzzy logic concepts, developments and implementation. Information. 2024. №15(10). 1—24. doi: https://doi.org/10.3390/info15100656

Kulkarni K. N, Lad R. K. Fuzzy logic and its developmental advances: a review. Proceedings of the International Conference on IoT Based Control Networks & Intelligent Systems — ICICNIS 2021. PP. 1—4

Lai Y–W., Chen M.–Y. Review of survey research in fuzzy approach for text mining. IEEE Ac-cess. 2023. №11. P. 39635—39649. doi: 10.1109/ACCESS.2023.3268165

Sadia M., Chowdhury A. R., Chen A. A case for computing on unstructured data. arXiv. 2025. № 2509. P. 1—6.

Addokali B. M., Elburase E. A. Using Levenshtein Distance Algorithm to increase database search efficiency and accuracy. Research Gates. 2022. №10. P. 1—7.

Po K. D. Similarity based information retrieval using distance algorithm. International Journal of Advances in Scientific Research and Engineering. 2020. 6(4). P. 6—10.

Petty T., Hanning J., Huszar T., Lyer H. A new string edit distance and applications. Algo-rithms. 2022. №15(7). P. 1—22.doi: https://doi.org/10.3390/a15070242

Rozinek O., Mares J. Fast and precise convolutional Jaro and Jaro–Winkler Similarity. 2024. 35th Conference of Open Innovations Association (FRUCT), Tampere, Finland. pp. 604—613, doi: 10.23919/FRUCT61870.2024.10516360.

Malaga K. B. K., Verdillo K. L., Pascual E. S. An enhancement of the Jaro–Winkler fuzzy searching algorithm applied in library search engine. Journal of Information Systems Engineer-ing and Mangement. 2025. №10(28). P. 649—660. doi: https://doi.org/10.52783/jisem.v10i28s.4369

Coates P., Breitinger F. Identifying document similarity using a fast estimation of the Le-venshtein Distance based on compression and signatures. Proceedings of the Digital Forensics Research Conference Europe (DFRWS EU), March 29—April 1, 2022. P. 1—11.

Ramani K., Borrajo D. Methods for matching English language addresses. arXiv. 2024. 2403.12092. P.1—15

Lee K., Claridades A.R.C., Lee J. Improving a street-based geocoding algorithm using machine learning techniques. Applied Science. 2020. 10(16). 5628; https://doi.org/10.3390/app10165628

Makalesi A. Comparisom of different classification algorithms for extraction information from invoice images using an N–gram approach. European Journal of Science and Texhnology. 2021. 31(1). P. 991—1003. doi: 10.31590/ejosat.844862

Kandregula R.P. Comparison of Apache SOLR search, spellcheck string distance measure — Levenshtein, Jaro–Winkler, and N–Gram. International Journal of Computer Trends and Tech-nology. 2021. Vol. 69., no. 3. P. 1—4. doi: https://doi.org/10.14445/22312803/ IJCTT-V69I3P101

АНАЛІЗ НЕСТРУКТУРОВАНИХ АДРЕСНИХ ДАНИХ ЗАСОБАМИ АЛГОРИТМІВ НЕЧІТКОЇ ЛОГІКИ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація