Найти
Результаты поиска
-
АЛГОРИТМ ПОИСКА И ПРИОБРЕТЕНИЯ ЗНАНИЙ НА ОСНОВЕ ТЕХНОЛОГИЙ ОБРАБОТКИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Е.М. Герасименко , Ю.А. Кравченко , Д.А. Шаненко2024-11-10Аннотация ▼Статья посвящена решению актуальной научной проблемы повышения эффективности об-
работки и анализа текстовой информации при решении задач поиска и приобретения знаний. Ак-
туальность данной задачи связана с необходимостью создания эффективных средств обработки
накапливаемого огромного количества слабо структурированных данных, содержащих важные,
иногда скрытые знания, необходимые для построения эффективных систем управления сложны-
ми объектами различной природы. Предлагаемый автором алгоритм поиска и приобретения зна-
ний при обработке и анализе текстовой информации, отличается применением низкоуровневых
детерминированных правил, позволяющих провести качественное упрощение текста на основе
исключения из текстовой информации слов, инвариантных к смыслу. Алгоритм опирается на до-
менную проработку, позволяющую сформировать списки доменно-специфичных слов, что позволя-
ет обеспечить высокое качество упрощения текста. В данной задаче исходными данными явля-
ются потоки текстовой информации (описание профилей), извлеченных из онлайн платформ для
рекрутинга, выходная информация представляется предложениями, сформированными в виде
тройки «субъект-глагол-объект», отражающих гранулы знаний, полученных в процессе обработ-
ки текста. Использование данного порядка единиц, составляющих предложение, обусловлено тем
фактом, что данный порядок наиболее распространен в русском языке, хотя в самих текстах
возможны иные вариации порядка без потери общего смысла. Основная идея алгоритма заключа-
ется в разбиении большого корпуса текста на предложения с последующей фильтрацией получен-
ных предложений на основании введенных пользователем ключевых слов. В последствии предло-
жения разделяются на компоненты и упрощаются в зависимости от вида поступившей компо-
ненты (глагольная, именная). В качестве примера в данной работе использовалась сфера марке-
тинга, а ключевыми словами выступили «социальные сети». Автором разработан алгоритм поис-
ка и приобретения знаний на основе технологий обработки и анализа текстов на естественном
языке, а также была выполнена программная реализация предложенного алгоритма. В качестве
методов оценки эффективности использовался ряд метрик: индекс Флэша-Кинкейда; индекс Колман-Лиау; автоматический индекс удобочитаемости. Проведенные вычислительные эксперимен-
ты подтвердили эффективность предложенного алгоритма по сравнению с аналогами, исполь-
зующими нейронные сети для решение подобных задач








