АЛГОРИТМЫ АГЛОМЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ АНАЛИЗА ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ

  • Ф. С. Булыга Южный федеральный университет
  • В.М. Курейчик Южный федеральный университет
Ключевые слова: Кластеризация, иерархическая кластеризация, агломеративная кластеризация, интеллектуальный анализ данных, кластеризация лингвистической экспертной информации

Аннотация

Рассмотрены и представлены основные проблемы и принципы функционирования
процесса кластеризации данных, в частности принципы и задачи кластеризации тексто-
вых массивов лингвистической экспертной информации. В ходе выполнения данной работы
были обозначены основные трудности возникающие при проектировании подобного рода
систем, например: необходимость предварительной обработки данных, сокращение раз-
мерности исходной выборки и т.п. Для эффективного выполнения представленных задач
реализованное решение должно обладать комплексным подходом учитывающим показате-
ли эффективности методов направленных на решение отдельных подзадач, а также спо-
собностью обеспечить высокие показатели эффективности реализации каждого этапа
процесса кластеризации. В представленной работе рассматриваются различные группы
алгоритмов иерархической кластеризации, в частности была рассмотрена подгруппа ал-
горитмов агломеративной кластеризации применительно к задачам кластеризации лин-
гвистической экспертной информации. В описываемой работе приведена формальная по-
становка задачи кластеризации текстов, а также определена основная группа реализо-
ванных решений основанных на принципах агломеративной кластеризации: ROCK, CURE,
CHAMELEON. Проведен детальный обзор каждого из представленных алгоритмов, а
также сформулированы основные достоинства и недостатки каждого из них. Преимуще-
ством данной работы можно считать совокупность представленных данных об алгорит-
мах, а также результаты сравнительного анализа, позволяющие в дальнейшем оценить
целесообразность и потенциальную вероятность применения указанных решения из пред-
ставленной группы алгоритмов агломеративной кластеризации. Новизна данной работы
заключается в формировании обзорного анализа существующих подходов в области иерар-
хической кластеризации для решения задач кластерного анализа лингвистической эксперт-
ной информации, а также формирование результатов проведенного сравнительного ана-
лиза рассмотренных алгоритмов

Литература

1. Volume of data/information created, captured, copied and consumed worldwide from 2021
year. Available at: https://www.statista.com/statistics/871513/worldwide-data-created/ (accessed
22 December 2021).
2. Zargaryan Yu.A., Zatylkin V.V. Klassifikatsiya i nechetkaya klasterizatsiya v zadachakh
prinyatiya resheniy [Classification and fuzzy clustering in decision-making tasks], Izvestiya
YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2010, No. 1 (102),
pp. 140-144.
3. Staab S., Hotho A. Ontology-based text document clustering // Proc. International Intelligent
Information System, Intelligent Information Processing and Web Mining Conference (IIS:
IIPWM’03), 2003, pp. 451-452.
4. Hofmann T. Probabilistic latent semantic indexing, Proc. of the 22nd Annual International
ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 1999),
1999, pp. 50-57.
5. Devlin J., Chang M., Lee K. BERT: Pretraining of deep bidirectional transformers for language
understanding, ArXiv, 2018, pp. 42-48.
6. Whissell J.S., Clarke C.L. Improving document clustering using Okapi BM25 feature
weighting, Information Retrieval, 2011, Vol. 14, No. 5, pp. 466-487.
7. Zhuravlev Yu.I. Ob algebraicheskom podkhode k resheniyu zadach raspoznavaniya ili
klassifikatsii [On an algebraic approach to solving problems of recognition or classification],
Problemy kibernetiki [Problems of Cybernetics], 1978, Vol. 33, pp. 5-68.
8. Ermochenko S.A. Kontseptsiya primeneniya Mapreduce v ierarkhicheskoy aglomerativnoy
klasterizatsii [The concept of using Mapreduce in hierarchical agglomerative clustering],
Vestnik Vitsebskaga dzyarzhaunaga universiteta [Vestnik Vitsebskaga dzyarzhaunaga
universiteta], 2019, No. 3 (104), pp. 28-37.
9. Makhruse N. Sovremennye tendentsii metodov intellektual'nogo analiza dannykh: metod
klasterizatsii [Modern trends in data mining methods: clustering method], Moskovskiy
ekonomicheskiy zhurnal [Moscow Economic Journal], 2019, No. 6, pp. 359-377.
10. Bil'gaeva L.P., Zaigraeva E.V. Otsenka kachestva aglomerativnoy klasterizatsii [Assessment
of the quality of agglomerative clustering], Prilozhenie matematiki v ekonomicheskikh i
tekhnicheskikh issledovaniyakh [Application of Mathematics in Economic and Technical Research],
2020, No. 1 (10), pp. 43-53.
11. Kirpichnikov A.P., Rizaev I.S. Takhavova E.G., and others. Razrabotka effektivnogo algoritma
ierarkhicheskoy klasterizatsii [Development of an effective hierarchical clustering algorithm],
Vestnik Tekhnologicheskogo universiteta [Bulletin of the Technological University], 2019,
Vol. 22, No. 10, pp. 117-122.
12. Uilliams U.T., Lans Dzh.N. Metody ierarkhicheskoy klassifikatsii [Methods for hierarchical
classification // Statistical methods for computers], Statisticheskie metody dlya EVM [Statistical
Methods for Computers], ed. by K. Ensleyna, E. Relstona, G.S. Uilfa. Moscow: Nauka,
1986, pp. 269-300.
13. Gladilin A.V., Gamazina V.S. Ierarkhicheskie metody klasterizatsii dannykh i ikh
kharakteristiki [Hierarchical methods of data clustering and their characteristics],
Informatsionnye tekhnologii v ekonomicheskikh i tekhnicheskikh zadachakh [Information
Technologies in Economic and Technical Problems]. Penza: Penzenskiy gosudarstvennyy
tekhnologicheskiy universitet, 2016, pp. 200-202.
14. Sudipto G., Rajeev R., Kyuseok S. CURE: an efficient clustering algorithm for large databases,
SIGMOD ’98 Pro. of the 1998 ACM SIGMOD international conference on Management of data,
1998, pp. 73-84.
15. Dubakov A.A., Vorob'ev A.M. Razrabotka algoritma ierarkhicheskoy aglomerativnoy
klasterizatsii dlya analiza tekstovykh dokumentov Vorob'ev [Development of an algorithm for
hierarchical agglomerative clustering for the analysis of text documents Vorobiev],
Matematicheskoe i informatsionnoe modelirovanie [Mathematical and Information Modeling].
Tyumen': Tyumenskiy gosudarstvennyy universitet, 2018, pp. 246-255.
16. Davydov O.A. Analiz sushchestvuyushchikh algoritmov klasterizatsii [Analysis of existing
clustering algorithms (Part 1)], Vestnik Tikhookeanskogo gosudarstvennogo universiteta [Bulletin
of the Pacific State University], 2020, No. 1 (56), pp. 27-36.
17. Mikhaylov A.S., SHabanov V.Yu. Razrabotka algoritm klasterizatsii nominal'nykh dannykh
[Development of an algorithm for clustering nominal data], Informatsionnye tekhnologii [Information
Technologies]. Novosibirsk: Novosibirskiy natsional'nyy issledovatel'skiy
gosudarstvennyy universitet, 2019, pp. 101-107.
18. Kholda O.S., Izvozchikova V.V. Razrabotka algoritma obrabotki bol'shikh massivov dannykh
[Development of an algorithm for processing large data arrays], Globalizatsiya nauki i tekhniki
v usloviyakh krizisa [Globalization of Science and Technology in a Crisis]. Rostov-on-Donu:
Izd-vo VVM», 2021, pp. 48-53.
19. Bezverkhiy O.A., Samokhvalova S.G. Klasterizatsiya bol'shogo ob"ema tekstovykh poiskovykh
zaprosov [Clustering of a large volume of text search queries], Uchenye zametki TOGU [Scientific
Notes of PNU], 2016, Vol. 7, No. 3-1, pp. 104-110.
20. Shatovskaya T.B., Zaremskaya A.A. Eksperimental'nye rezul'taty issledovaniya kachestva
klasterizatsii raznoobraznykh naborov dannykh s pomoshch'yu modifitsirovannogo algoritma
khameleona [Experimental results of studying the quality of clustering of various data sets using
a modified chameleon algorithm], ScienceRise, 2015, Vol. 3, No. 2 (8), pp. 11-16.
Опубликован
2022-01-31
Выпуск
Раздел
РАЗДЕЛ II. МЕТОДЫ, МОДЕЛИ И АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ