ВИКОРИСТАННЯ МЕТОДІВ DATA MINING ДЛЯ ОБРОБКИ МОВНОЇ ІНФОРМАЦІЇ
DOI:
https://doi.org/10.31319/2519-8106.2(45)2021.246944Ключові слова:
мовна інформація, класифікація, баєсівський класифікатор, алгоритм обробки текстів, С#Анотація
Зі збільшенням обсягів інформації, отриманої у результаті роботи інформаційних систем і процесів, у ході діяльності підприємств або іншої діяльності людства, обробка й аналіз даних стають значно складними. Для первинної обробки інформації з метою її структурування, виділення характерних ознак, узагальнення, сортування тощо застосовують Data Mining або інтелектуальний аналіз даних.
Важливим складником Data Mining є обробка текстової інформації. Такого роду задачі опираються на поняття класифікації й кластеризації.
Як показали отримані результати, наївний баєсівський класифікатор достатньо ефективно може використовуватися для розробки програмного забезпечення з обробки мовної інформації. Проте, у подальшому бажано як параметри розглядати також ланцюжки з декількох слів. У самому алгоритмі для запобігання втрат точності на довгих текстах потрібно використовувати замість перемножування ймовірностей (частот) додавання їх логарифмів.
Посилання
Айвазян С.А., Бежаева Э.Н., Староверов О.В. Классификация многомерных наблюдений. М., 1974. 238 с.
Дюран М.Б. Кластерный анализ. М.: Финансы и статистика, 1977. 128 с.
Классификация и кластер / под ред. Дж. Вэн Райвин; пер. с англ. под ред. Ю.И. Журавлева. М.: Мир, 1978.
Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 c.
Fraley C., Raftery A. How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal. 1998. 41. P. 578–588.
Mercer D.P. Clustering large datasets. URL: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf
Jain A.K., Murty M.N., Flynn P.J. Data clustering: a review. ACM Computing Surveys. 1999. V.31, №3. P. 264-323.
Gordon A. Classification. Chapman and Hall, London, 1999.
Райзен Дж. В. Классификация и кластер. Труды науч.семинара. М.: Мир, 1980.
Jain A.K. Data Clustering. URL: http://www.csee.umbc.edu/ nicholas/clustering/p264-jain.pdf
Mercer D.P. Clustering large datasets. URL: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 450 с.
Ферстер Э., Ренц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983. 299 с.
Ayvazyan, S.A., Bezhaeva, E.N., Staroverov, O.V. (1974). Klassifikatsiya mnogomernyih nablyudeniy [Classification of multivariate observations]. Moscow [in Russia].
Dyuran, M.B. (1977). Klasternyiy analiz [Cluster Analysis]. Moscow: Finansyi i statistika [in Russia].
Klassifikatsiya i klaster [Classification and cluster] (1978). Dzh. Ven Rayvin (Ed.). (Yu.I. Zhuravleva, Trans). Moscow: Mir [in Russia].
Mandel, I.D. (1988). Klasternyiy analiz [Cluster Analysis]. Moscow: Finansyi i statistika [in Russia].
Fraley, C. (1998). How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal, 41, 578–588 [in English].
Mercer, D.P. Clustering large datasets. Retrieved from: http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf [in English].
Jain, A.K. (1999). Data clustering: a review. ACM Computing Surveys, 31 (3), 264-323 [in English].
Gordon, A. (1999). Classification. London: Chapman and Hall [in English].
Rayzen, Dzh.V. (1980). Klassifikatsiya i klaster [Classification and cluster]. Moscow: Mir [in Russia].
Jain A.K. Data Clustering. Retrieved from:
http://www.csee.umbc.edu/ nicholas/clustering/p264-jain.pdf [in English].
Mercer, D.P. Clustering large datasets. Retrieved from: (http://ldc.usb.ve/~mcuriel/Cursos/WC/Transfer.pdf) [in English].
Ayvazyan, S.A., Buhshtaber, V.M., Enyukov, I.S., Meshalkin, L.D. (1989). Prikladnaya statistika: Klassifikatsiya i snizhenie razmernosti [Applied Statistics: Classification and Dimension Reduction]. Moscow: Finansyi i statistika [in Russia].
Ferster, E., Rents, В. (1983). Metodyi korrelyatsionnogo i regressionnogo analiza [Correlation and regression analysis methods]. Moscow: Finansyi i statistika [in Russia].
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
a. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
b. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
c. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).