ПОДСИСТЕМА АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ ТЕКСТОВ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
Ключевые слова:
Реферирование текстов, суммаризация, методы реферирования и квазиреферирования, рекуррентные нейронные сети, токенизация, стемминг, нейронные сет долгой краткосрочной памятиАннотация
Рассматривается задача автоматического аннотирования текстов. Рассмотрена
постановка задачи. Обоснована актуальность и важность разработки эффективных ме-
тодов и программных систем для решения задачи автоматического реферирования тек-
стов в современных информационных системах. Приведены определения понятий «данные»
и знания». Описан перечень задач, относящихся в направлению Data Mining. Подробно опи-
сана задача Text Mining и существующие методы ее решения. Рассмотрена задача рефе-
рирования текстов. Выделены основные этапы решения задачи суммаризации. Описаны
основные методы автоматической обработки текста, выделены их достоинства и не-
достатки. Подробно рассмотрены методы реферирования и квазиреферирования. Прове-
ден сравнительный анализ эффективности различных методов реферирования и квазире-
ферирования, выделены их ключевые достоинства и недостатки. Приведено краткое опи-
сание архитектуры encoder-decoder с точки зрения использования данной архитектуры в
разрабатываемом алгоритме автоматического реферирования текстов. Приведено опи-
сание модели рекуррентных нейронных сетей, отмечены достоинства и недостатки по-
добных моделей. Рассмотрены архитектуры рекуррентной нейронной сети применительно
к решению задачи автоматического реферирования текстов. Приведено описание модифи-
цированной модели рекуррентной нейронной сети – нейронной сети долгой краткосрочной
памятью. Приведено описание предложенного алгоритма автоматического реферирова-
ния и значения настроек его основных параметров. Приведено описание разработанной
программной подсистемы автоматического реферирования. Выполнено компьютерное
моделирование и приведены результаты, полученные в ходе вычислительных эксперимен-
тов. Выполнена оценка качества полученных решений. Определены оптимальные парамет-
ры разработанной программной системы. Сформулированы направления продолжения
исследований.








