ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

  • Али Махмуд Мансур Южный федеральный университет
  • Жуман Хуссайн Мохаммад Южный федеральный университет
  • Ю. А. Кравченко Южный федеральный университет
Ключевые слова: Векторизация текста, интеллектуальный анализ данных, классификация, кластеризация, машинное обучение, концепты, семантика

Аннотация

В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
BoWC, который представляет документ в соответствии с содержащейся в нем ин-
формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
ние документа, предлагается модифицированная весовая функция для взвешивания кон-
цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
нерированные с помощью предложенного метода, характеризуются интерпретируемо-
стью, низкой размерностью, высокой точностью, а также низкими вычислительными
затратами при использовании в задачах классификации и кластеризации. Предлагаемый
метод протестирован на пяти различных наборах эталонных данных для кластеризации и
классификации текстовых документов и сравнивается с несколькими базовыми методами,
включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
лучшую точность.

Литература

1. Bengfort B., Bilbro R., Okheda T. Prikladnoy analiz tekstovykh dannykh na Python.
Mashinnoe obuchenie i sozdanie prilozheniy obrabotki estestvennogo yazyka [Applied analysis
of text data in Python. Machine learning and building natural language processing applications].
Saint Petersburg: Piter, 2019, 368 p.
2. Lapshin S.V., Lebedev I.S., Spivak A.I. Klassifikatsiya korotkikh soobshcheniy s
ispol'zovaniem vektorizatsii na osnove elmo [Classification of short messages using elmobased
vectorization], Izvestiya TulGU. Tekhnicheskie nauki [News of TulSU. Technical sciences],
2019, No. 10, pp. 410-418.
3. Kireev V.S., Fedorenko V.I. Ispol'zovanie metodov vektorizatsii tekstov na estestvennom
yazyke dlya povysheniya kachestva kontentnykh rekomendatsiy fil'mov [Using methods of
vectorization of texts in natural language to improve the quality of content recommendations
of films], Sovremennye naukoemkie tekhnologii [Modern science-intensive technologies],
2018, No. 3, pp. 102-106.
4. Lin Y., Liu Z., Sun M. Representation Learning for Natural Language Processing. Singapore:
Springer Nature, 2020, 334 p.
5. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. New York: ACM Press, 1999, 501 p.
6. Jones K.S. A Statistical Interpretation of Term Specificity and its Application in Retrieval,
Journal of Documentation, 1972, Vol. 28, No. 1, pp. 11-21.
7. Hoi S., Wu L., Yu N. Semantics-Preserving Bag-of-Words Models and Applications, IEEE
Transactions on Image Processing, 2010, Vol. 19, No. 7, pp. 1908-1920.
8. Kim H.K., Kim H.-j. Bag-of-Concepts: Comprehending Document Representation through Clustering
Words in Distributed Representation, Neurocomputing, 2017, Vol. 266, pp. 336-352.
9. Grootendorst M., Vanschoren J. Beyond Bag-of-Concepts: Vectors of Locally Aggregated
Concepts, Joint European Conference on Machine Learning and Knowledge Discovery in Databases,
2019, pp. 681-696.
10. Bandar Z., Crockett K., Li Y. et al. Sentence Similarity Based on Semantic Nets and Corpus
Statistics, IEEE Transactions on Knowledge, 2006, Vol. 18, pp. 1138-1150.
11. Liu M., Yang J. An Improvement of TFIDF Weighting in Text Categorization, International
Proceedings of Computer Science Information Technology, 2012, Vol. 47, pp. 44-47.
12. Cardoso-Cachopo, A.L., Oliveira A. Semi-Supervised Single-Label Text Categorization Using
Centroid-Based Classifiers, Proceedings of the 2007 ACM Symposium on Applied Computing,
2007, pp. 844-851.
13. Lang, K., Rennie J. The 20 Newsgroups Data Set., 2008.
14. Manning C.D., Pennington J., Socher R. Glove: Global Vectors for Word Representation,
Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing
(EMNLP), 2014, pp. 1532-1543.
15. Hirschberg J., Rosenberg A. V-measure: A Conditional Entropy-Based External Cluster Evaluation
Measure, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural
Language Processing and Computational Natural Language Learning (EMNLP-CoNLL),
2007, pp. 410-420.
16. Van Rijsbergen C.J. Information Retrieval. Butterworth-Heinemann, 1979, 224 p.
17. Bova V., Zaporozhets D., Kureichik V. Integration and Processing of Problem-Oriented
Knowledge Based on Evolutionary Procedures, Advances in Intelligent Systems and Computing,
2016, Vol. 450, pp. 239-249.
18. Kureichik V.M., Semenova A.V. Ensemble of Classifiers for Ontology Enrichment, Journal of
Physics: Conference Series, 2018, Vol. 1015, Issue 3, Article id. 032123.
19. Bova V.V., Nuzhnov E.V., Kureichik V.V. The Combined Method of Semantic Similarity Estimation
of Problem Oriented Knowledge on the Basis of Evolutionary Procedures, Advances in
Intelligent Systems and Computing, 2017, Vol. 573, pp. 74-83.
20. Pulyavina N., Taratukhin V. The Future of Project-Based Learning for Engineering and Management
Students: Towards an Advanced Design Thinking Approach, ASEE Annual Conference
and Exposition, Conference Proceedings, 2018, No. 125.
21. Becker J., Pulyavina N., Taratukhin V. Next-Gen Design Thinking. Using Project-Based and
Game-Oriented Approaches to Support Creativity and Innovation, Proceedings of the 1st International
Conference of Information Systems and Design, 2020.
Опубликован
2021-07-18
Выпуск
Раздел
РАЗДЕЛ IV. ИНФОРМАЦИОННЫЙ АНАЛИЗ И РАСПОЗНАВАНИЕ ОБРАЗОВ