ВИКОРИСТАННЯ МЕТОДІВ DATA MINING ДЛЯ ОБРОБКИ МОВНОЇ ІНФОРМАЦІЇ

Автор(и)

  • О. Шумейко Дніпровський державний технічний університет, Україна
  • В.С. Сотник Дніпровський державний технічний університет, Україна
  • І.І. Жульковська Дніпровський державний технічний університет, Україна
  • О.О. Жульковський Дніпровський державний технічний університет, Україна

DOI:

https://doi.org/10.31319/2519-8106.2(45)2021.246944

Ключові слова:

мовна інформація, класифікація, баєсівський класифікатор, алгоритм обробки текстів, С#

Анотація

Зі збільшенням обсягів інформації, отриманої у результаті роботи інформаційних систем і процесів, у ході діяльності підприємств або іншої діяльності людства, обробка й аналіз даних стають значно складними. Для первинної обробки інформації з метою її структурування, виділення характерних ознак, узагальнення, сортування тощо застосовують Data Mining або інтелектуальний аналіз даних.

Важливим складником Data Mining є обробка текстової інформації. Такого роду задачі опираються на поняття класифікації й кластеризації.

Як показали отримані результати, наївний баєсівський класифікатор достатньо ефективно може використовуватися для розробки програмного забезпечення з обробки мовної інформації. Проте, у подальшому бажано як параметри розглядати також ланцюжки з декількох слів. У самому алгоритмі для запобігання втрат точності на довгих текстах потрібно використовувати замість перемножування ймовірностей (частот) додавання їх логарифмів.

Посилання

Айвазян С.А., Бежаева Э.Н., Староверов О.В. Классификация многомерных наблюдений. М., 1974. 238 с.

Дюран М.Б. Кластерный анализ. М.: Финансы и статистика, 1977. 128 с.

Классификация и кластер / под ред. Дж. Вэн Райвин; пер. с англ. под ред. Ю.И. Журавлева. М.: Мир, 1978.

Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 c.

Fraley C., Raftery A. How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal. 1998. 41. P. 578–588.

Mercer D.P. Clustering large datasets. URL: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf

Jain A.K., Murty M.N., Flynn P.J. Data clustering: a review. ACM Computing Surveys. 1999. V.31, №3. P. 264-323.

Gordon A. Classification. Chapman and Hall, London, 1999.

Райзен Дж. В. Классификация и кластер. Труды науч.семинара. М.: Мир, 1980.

Jain A.K. Data Clustering. URL: http://www.csee.umbc.edu/ nicholas/clustering/p264-jain.pdf

Mercer D.P. Clustering large datasets. URL: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf

Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 450 с.

Ферстер Э., Ренц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983. 299 с.

Ayvazyan, S.A., Bezhaeva, E.N., Staroverov, O.V. (1974). Klassifikatsiya mnogomernyih nablyudeniy [Classification of multivariate observations]. Moscow [in Russia].

Dyuran, M.B. (1977). Klasternyiy analiz [Cluster Analysis]. Moscow: Finansyi i statistika [in Russia].

Klassifikatsiya i klaster [Classification and cluster] (1978). Dzh. Ven Rayvin (Ed.). (Yu.I. Zhuravleva, Trans). Moscow: Mir [in Russia].

Mandel, I.D. (1988). Klasternyiy analiz [Cluster Analysis]. Moscow: Finansyi i statistika [in Russia].

Fraley, C. (1998). How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal, 41, 578–588 [in English].

Mercer, D.P. Clustering large datasets. Retrieved from: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf [in English].

Jain, A.K. (1999). Data clustering: a review. ACM Computing Surveys, 31 (3), 264-323 [in English].

Gordon, A. (1999). Classification. London: Chapman and Hall [in English].

Rayzen, Dzh.V. (1980). Klassifikatsiya i klaster [Classification and cluster]. Moscow: Mir [in Russia].

Jain A.K. Data Clustering. Retrieved from:

http://www.csee.umbc.edu/ nicholas/clustering/p264-jain.pdf [in English].

Mercer, D.P. Clustering large datasets. Retrieved from: (http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf) [in English].

Ayvazyan, S.A., Buhshtaber, V.M., Enyukov, I.S., Meshalkin, L.D. (1989). Prikladnaya statistika: Klassifikatsiya i snizhenie razmernosti [Applied Statistics: Classification and Dimension Reduction]. Moscow: Finansyi i statistika [in Russia].

Ferster, E., Rents, В. (1983). Metodyi korrelyatsionnogo i regressionnogo analiza [Correlation and regression analysis methods]. Moscow: Finansyi i statistika [in Russia].

##submission.downloads##

Опубліковано

2021-12-15

Номер

Розділ

Статті