ПОДСИСТЕМА АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ ТЕКСТОВ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

  • Л.А. Гладков Южный федеральный университет
  • Н.В. Гладкова Южный федеральный университет
  • В.М. Курейчик Южный федеральный университет
Ключевые слова: Реферирование текстов, суммаризация, методы реферирования и квазиреферирования, рекуррентные нейронные сети, токенизация, стемминг, нейронные сет долгой краткосрочной памяти

Аннотация

Рассматривается задача автоматического аннотирования текстов. Рассмотрена
постановка задачи. Обоснована актуальность и важность разработки эффективных ме-
тодов и программных систем для решения задачи автоматического реферирования тек-
стов в современных информационных системах. Приведены определения понятий «данные»
и знания». Описан перечень задач, относящихся в направлению Data Mining. Подробно опи-
сана задача Text Mining и существующие методы ее решения. Рассмотрена задача рефе-
рирования текстов. Выделены основные этапы решения задачи суммаризации. Описаны
основные методы автоматической обработки текста, выделены их достоинства и не-
достатки. Подробно рассмотрены методы реферирования и квазиреферирования. Прове-
ден сравнительный анализ эффективности различных методов реферирования и квазире-
ферирования, выделены их ключевые достоинства и недостатки. Приведено краткое опи-
сание архитектуры encoder-decoder с точки зрения использования данной архитектуры в
разрабатываемом алгоритме автоматического реферирования текстов. Приведено опи-
сание модели рекуррентных нейронных сетей, отмечены достоинства и недостатки по-
добных моделей. Рассмотрены архитектуры рекуррентной нейронной сети применительно
к решению задачи автоматического реферирования текстов. Приведено описание модифи-
цированной модели рекуррентной нейронной сети – нейронной сети долгой краткосрочной
памятью. Приведено описание предложенного алгоритма автоматического реферирова-
ния и значения настроек его основных параметров. Приведено описание разработанной
программной подсистемы автоматического реферирования. Выполнено компьютерное
моделирование и приведены результаты, полученные в ходе вычислительных эксперимен-
тов. Выполнена оценка качества полученных решений. Определены оптимальные парамет-
ры разработанной программной системы. Сформулированы направления продолжения
исследований.

Литература

1. Mordvinov A.V. Razrabotka i issledovanie modeli teksta dlya ego kategorizatsii: avtoref. dis.
… kand. tekhn. nauk [Development and research of a text model for its categorization: abstract
of cand. of eng. sc. diss.]: 05.13.01. Nizhniy Novgorod, 2010, 25 p.
2. Trevgoda S.A. Metody i algoritmy avtomaticheskogo referirovaniya teksta na osnove analiza
funktsional'nykh otnosheniy: avtoref. dis. … kand. tekhn. nauk [Methods and algorithms for
automatic text summarization based on the analysis of functional relationships: abstract of
cand. of eng. sc. diss.]: 05.13.01. St. Petersburg, 2009, 19 p.
3. Lukashevich N.V. Modeli i metody avtomaticheskoy obrabotki nestrukturirovannoy informatsii
na osnove bazy znaniy ontologicheskogo tipa: avtoref. diss. … kand. tekhn. nauk [Models and
methods for automatic processing of unstructured information based on an ontological
knowledge base: abstract of cand. of eng. sc. diss.]: 05.25.05. Moscow, 2014, 32 p.
4. Van Lierde H., Chow T.W.S. Query-oriented text summarization based on hypergraph transversals,
Information Processing and Management, 2019, Vol. 56, No. 4, pp. 1317-1338.
5. Greengrass E. Information Retrieval: A Survey: University of Maryland. 2000, 225 p.
6. Manning D., Raghavan C., Schütze H. Introduction to Information Retrieval: Cambridge. England.
2008.
7. Alguliev R.M., Isazade N.R., Abdi A., Idris N. COSUM: Text summarization based on clustering
and optimization, Expert Systems, 2019, Vol. 36, No. 1.
8. Kharlamov A. Tekhnologiya avtomaticheskogo smyslovogo analiza tekstov TextAnalyst
[Technology for automatic semantic analysis of texts TextAnalyst], Vestnik Moskovskogo
gosudarstvennogo lingvisticheskogo universiteta [Bulletin of the Moscow State Linguistic
University], 2014, pp. 234-244.
9. Khoay L., Tuzovskiy A.F. Semanticheskoe annotirovanie dokumentov v elektronnykh
bibliotekakh [Semantic annotation of documents in electronic libraries], Izvestiya Tomskogo
politekhnicheskogo universiteta [News of Tomsk Polytechnic University], 2013, pp. 157-164.
10. Kharlamov A. Kognitivnyy podkhod k smyslovomu analizu tekstov [Cognitive approach to
semantic analysis of texts], Vestnik Moskovskogo gosudarstvennogo lingvisticheskogo
universiteta [Bulletin of the Moscow State Linguistic University], 2013, Vol. 13, No. 673,
pp. 196-205.
11. Gupta V.. Bansal N., Sharma A. Text summarization for big data: A comprehensive survey,
Lecture Notes in Networks and Systems. Delhi, 2019, Vol. 56, pp. 503-516.
12. Anam S.A., Muntasir Rahman A.M., Sleheen N.N., Arif H. Automatic text summarization using
fuzzy C-Means clustering, 2018 Joint 7th International Conference on Informatics, Electronics
and Vision and 2nd International Conference on Imaging, Vision and Pattern Recognition.
Kitakyushu, 2018, pp. 180-184.
13. Chua S., Kulathuramaiyer N., Ranaivo-Malancon B., Iboi H. A comparative Study of Sentiment-
Based Graphs of Text Summaries, 2018 IEEE 5th International Conference on Engineering
Technologies and Applied Sciences. Sarawak, 2018.
14. Siddiqui T. Generating abstractive summaries using sequence to sequence attention model,
2018 International Conference on Frontiers of Information Technology. Proceedings. Karachi,
2018, pp. 212-217.
15. Sonawane S., Ghotkar A., Hinge S. Context-based multi-document summarization, Advances
in Intelligent Systems and Computing, 2018, Vol. 812, pp. 153-165.
16. Alwis V. Intelligent E-news summarization, 18th International Conference on Advances in ICT
for Emerging Regions. Colombo, 2018, pp. 189-195.
17. Joshi A., Mehta K., Gupta N., Valloli V.K. Data generation using sequence-to-sequence, 2018
IEEE Recent Advances in Intelligent Computational Systems. Pune, 2018, pp. 108-112.
18. Gigioli P., Sagar N., Rao A., Voyles J. Domain-Aware Abstractive Text Summarization for
Medical Documents, Proceedings 2018 IEEE International Conference on Bioinformatics and
Biomedicine. New York. 2018, pp. 2338-2343.
19. Mahajani A., Pandya V., Maria I., Sharma D. Ranking-Based Sentence Retrieval for Text
Summarization, 2018 2nd International Conference on Smart Innovations in Communications
and Computational Sciences. Mumbai, 2018, pp. 465-474.
20. Kirmani M., Manzoor Hakak N., Mohd M., Mohd M. Hybrid text summarization, 2nd International
conference of the series Soft Computing: Theories and Applications, 2017. Kuruhshetra,
2017, pp. 63-73.
21. Hochreiter S.; Schmidhuber J. Long short-term memory, Neural Computation: journal, 1997,
Vol. 9, No. 8, pp. 1735-1780. DOI: 10.1162/neco.1997.9.8.1735. PMID 9377276.
22. Gladkov L.A., Gladkova N.V., Bova V.V. Metod avtomaticheskogo annotirovaniya tekstov na
osnove gibridnykh intellektual'nykh tekhnologiy [Method for automatic annotation of texts
based on hybrid intelligent technologies], Informatizatsiya i svyaz' [Informatization and communication],
2022, No. 2, pp. 54-60.
Опубликован
2023-12-11
Выпуск
Раздел
РАЗДЕЛ II. АНАЛИЗ ДАННЫХ И МОДЕЛИРОВАНИЕ