СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ БОЛЬШОЙ РАЗМЕРНОСТИ

Ф.С. Булыга; В. М. Курейчик

Аннотация

Представленная публикация посвящена обзору проблемы представления текстовой информации для последующего осуществления кластерного анализа в рамках обработки и управления информации большой размерности. Современные требования предъявляемые к аналитическим, поисковым и рекомендательным информационным системам демонстри- руют слабую сформированность целостного решения, способного обеспечить достаточ- ный уровень быстродействия и качества получаемых результатов в рамках функциониро- вания текущего рынка информационных технологий. Поиск решения представленной про- блемы влечет за собой необходимость в проведении объективного анализа существующих решений представления текстовой информации в векторном пространстве, с целью фор- мирования целостного представления о достоинствах и недостатках анализируемых под- ходов, а также формированием критериев, позволяющих реализовать собственный под- ход, лишенный выявленных слабостей. Представленная работа является аналитической, и позволяет получить представление о современном состоянии и проработанности выявлен- ной проблемы в рамках ограниченной предметной области. Кластеризация текстовых данных – автоматическое формирование подмножеств, элементами которых выступают экземпляры документов некоторой исследуемой, неструктурированной выборки фиксиро- ванной размерности. Данный процесс можно классифицировать как обучения без учителя, предполагающее, отсутствие эксперта, собственноручно присваивающего исходной вы- борке документов индексы классов. Однако, осуществление кластерного анализа тексто- вых данных без какой-либо предварительной обработки – невозможно. Для этого необхо- димо обеспечить стандартизацию и приведение входных данных к единому формату и виду. В рамках данного этапа осуществления кластерного анализа, в представленной пуб- ликации рассматриваются методы предварительной обработки текстовых данных. Но- визна представленной публикации заключается в формировании теоретического базиса основных методов векторизации текстовых данных, путем систематизации и объективизации выдвинутых предположений, путем проведения серии экспериментальных исследо- ваний. Основным отличием данной работы от уже опубликованных научных трудов явля- ется систематизации и анализ современных решений, а также выдвижение гипотезы об актуальности и эффективности собственного гибридизированного подхода предназначен- ного для векторизации текстовых данных

Авторы

Ф.С. Булыга Южный федеральный университет
В. М. Курейчик Южный федеральный университет

Список литературы

1. Parkhomenko D.A. Data vizualization makes sense of Big data, Big Data and Advanced
Analytics, 2021, No. 7-1, pp. 416-417.
2. Esaulenko A.S., Nikonenko N.D. Bol'shie dannye. Real'nost' i perspektivy [Big data. Reality
and prospects], Upravlenie innovatsiyami: teoriya, metodologiya, praktika [Management of
innovations: theory, methodology, practice], 2016, No. 17, pp. 74-79.
3. Grodel' Yu.V., Lagun D.A. Problema Big Data i NoSQL podkhod k ee resheniyu [The problem
of Big Data and NoSQL approach to its solution], Nauka, obrazovanie, obshchestvo: tendentsii
i perspektivy: Sb. nauchnykh trudov po materialam Mezhdunarodnoy nauchno-prakticheskoy
konferentsii [Collection of scientific papers based on the materials of the International Scientific
and Practical Conference]: in 5 part. Moscow, 2014, pp. 31-32.
4. Abashin V.G., Zholobova G.N., Gorokhova R.I., Nikitin P.V., Semenov A.M., Zaraev R.E.
Podgotovka studentov k rabote s bol'shimi dannymi s primeneniem klastera Hadoop [Preparing
students to work with big data using the Hadoop cluster], Sovremennye naukoemkie
tekhnologii [Modern high technologies], 2022, No. 6, pp. 78-82.
5. Denisenko V.V., Evteeva K.S., Savchenko I.I., Skrypnikov A.V., Berestovoy A. Raspredelennye
vychislitel'nye modeli Mapreduce i Mapreduce-algoritma [Distributed computational models
of Mapreduce and Mapreduce-algorithm], Sistemnyy analiz i modelirovanie protsessov
upravleniya kachestvom v innovatsionnom razvitii agropromyshlennogo kompleksa: Mater. V
Mezhdunarodnoy nauchno-prakticheskoy konferentsii,v ramkakh realizatsii Assotsiatsii
«Tekhnologicheskaya platforma «Tekhnologii pishchevoy» [System analysis and modeling of
quality management processes in the innovative development of agro-industrial complex: Materials
of the V International Scientific and Practical Conference, within the framework of the
Association "Technological Platform" Food Technologies”], 2021, pp. 319-326.
6. Mamedova G.A., Zeynalova L.A., Melikova R.T. Tekhnologii bol'shikh dannykh v elektronnom
obrazovanii [Big data technologies in e-education], Otkrytoe obrazovanie [Open education],
2017, Vol. 21, No. 6, pp. 41-48.
7. Trofimov I.E. Raspredelennye vychislitel'nye sistemy dlya mashinnogo obucheniya [Distributed
Computing Systems for Machine Learning], Informatsionnye tekhnologii i vychislitel'nye
sistemy [Information Technologies and Computing Systems], 2017, No. 3, pp. 56-69.
8. Zhuravlev Yu.I. Ob algebraicheskom podkhode k resheniyu zadachi raspoznavaniya ili
klassifikatsii [On the algebraic approach to solving the problem of recognition or classification],
Problemy kibernetiki [Problems of Cybernetics], 1978, Vol. 33, pp. 5-68.
9. Rabinovich Yu.I. Klasternyy analiz detalizatsii telefonnykh peregovorov [Cluster analysis of
the details of telephone conversations], Sistemy i sredstva informatiki [Systems and means of
informatics], 2007, Vol. 17, No. 1, pp. 52-78.
10. Lushnikov N.D., Ismagilova A.S. Evklidovo rasstoyanie kak osnova programmnogo kompleksa
po mnogofaktornoy biometricheskoy autentifikatsii [Euclidean distance as the basis of a software
package for multi-factor biometric authentication], Matematicheskoe modelirovanie
protsessov i sistem: Mater. XI Mezhdunarodnoy molodezhnoy nauchno-prakticheskoy
konferentsii [Mathematical modeling of processes and systems: Proceedings of the XI International
Youth Scientific and Practical Conference]. Sterlitamak, 2021, pp. 53-55.
11. Ruzibaev O.B., Eshmetov S.D. Issledovanie i analiz algoritmov na osnove nechetkogo metoda
k blizhayshikh sosedey s primeneniem razlichnykh metrik pri diagnostike raka molochnoy
zhelezy [Research and analysis of algorithms based on the fuzzy k nearest neighbors method
using various metrics in the diagnosis of breast cancer], Nauka i mir [Nauka i mir], 2016,
No. 5-1 (33), pp. 102-107.
12. Le Min' Taun, Shukurov I.S., Nguen Tkhi May. Issledovanie intensivnosti gorodskogo ostrova
tepla na osnove gorodskoy planirovki [Study of the intensity of the urban heat island based on
urban planning], Stroitel'stvo: nauka i obrazovanie [Construction: science and education],
2019, Vol. 9, No. 3, pp. 54-65.
13. Shumskaya A.O. Otsenka effektivnosti metrik rasstoyaniya Evklida i rasstoyaniya
Makhalanobisa v zadachakh identifikatsii proiskhozhdeniya teksta [Estimation of Efficiency
Metrics of Euclid Distance and Mahalanobis Distance in Problems of Identification of Text
Origin], Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki
[Reports of Tomsk State University of Control Systems and Radioelectronics], 2013, No. 3 (29),
pp. 141-145.
14. Sherstnev P.A. Issledovanie metodov vektorizatsii dokumentov na osnove vektorizatsii slov
[Investigation of document vectorization methods based on word vectorization], Aktual'nye
problemy aviatsii i kosmonavtiki: Sb. materialov VII Mezhdunarodnoy nauchno-prakticheskoy
konferentsii, posvyashchennoy Dnyu kosmonavtiki [Actual problems of aviation and astronautics:
Collection of materials of the VII International scientific and practical conference dedicated
to Cosmonautics Day]: in 3 vol. Krasnoyarsk, 2021, pp. 216-218.
15. Tian L., Huang R., Wang Y. Metric learning in codebook generation of bag-of-words for
person re-identification, ICPRAM 2019 - Proceedings of the 8th International Conference on
Pattern Recognition Applications and Methods. Prague. 2019, pp. 298-306.
16. Bulyga F.S., Kureychik V.M. Algoritmy aglomerativnoy klasterizatsii primenitel'no k
zadacham analiza lingvisticheskoy ekspertnoy informatsii [Algorithms of agglomerative clustering
in relation to the problems of analysis of linguistic expert information], Izvestiya YuFU.
Tekhnicheskie nauki [Izvestiya SFedU. Technical science], 2021, No. 6 (223), pp. 73-88.
17. Nartsev A.D. Text classification by means of word2vec model and a convolutional neural
network, Presenting Academic Achievements to the World. Natural Science: Mater. X
nauchnoy konferentsii molodykh uchenykh. Saratov, 16 aprelya 2019 goda [Presenting Academic
Achievements to the World. Natural Science: Proceedings of the X scientific conference
of young scientists, Saratov, April 16, 2019]. Saratov, 2020, Vol. 9, pp. 71-77.
18. Levchenko S.V. Razrabotka metoda klasterizatsii slov po smyslovym kharakteristikam s
ispol'zovaniem algoritmov Word2Vec [Development of a method for clustering words by semantic
characteristics using Word2Vec algorithms], Novye informatsionnye tekhnologii v
avtomatizirovannykh sistemakh [New information technologies in automated systems], 2017,
No. 20, pp. 44-46.
19. Bulyga F.S., Kureychik V.M. Klasterizatsiya korpusa tekstovykh dokumentov pri pomoshchi
algoritma k-means [Clusterization of text document corpus using the k-means algorithm],
Izvestiya vysshikh uchebnykh zavedeniy. Severo-Kavkazskiy region. Tekhnicheskie nauki
[Izvestia of higher educational institutions. North Caucasian region. Technical science], 2022,
No. 3 (215), pp. 33-40.
20. Newsgroups, Qwone. 2019. Available at: http://qwone.com/~jason/20Newsgroups/ (accessed
15 August 2022).

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ БОЛЬШОЙ РАЗМЕРНОСТИ

Аннотация

Авторы

Список литературы

Скачивания

Опубликовано:

Номер:

Раздел:

Ключевые слова:

links

journal

index