Статья

Название статьи РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА РЕШЕНИЯ ЗАДАЧИ КЛАСТЕРИЗАЦИИ ДЛЯ ОСУЩЕСТВЛЕНИЯ ВОПРОСНО-ОТВЕТНОГО ПОИСКА В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ ПРОГНОЗИРОВАНИЯ
Автор С.Б. Картиев, В.М. Курейчик
Рубрика Раздел I. Анализ данных и управление знаниями
Месяц, год 07, 2016
Индекс УДК УДК 002.53
DOI DOI 10.18522/2311-3103-2016-7-1828
Аннотация Данная статья посвящена проблемам построения модуля вопросно-ответного поиска неструктурированной информации в информационно-аналитической системе прогнозирования относительно коллекции исходных состояний сложной технической системы. Современные информационно-поисковые системы основаны на принципах поиска по ключевым словам. Данный вид поиска предоставляет на выходе коллекцию веб-страниц, которая по вероятности может содержать нужный материал для пользователя. В статье предлагается подход приведения задачи кластеризации к оптимизационной задаче и ее решения с использованием метаэвристических методов. Дано введение в традиционные методы кластеризации, приведены их преимущества и недостатки. Кластеризация является частным случаем обучением без учителя. Отсутствие учителя предусматривает то что в системе нет эксперта, который может присваивать документам классы. Приведено описание основной модели вычислений и средств хранения данных, применяемых в разработанной системе. Предложен подход к построению подобных модулей и их математическое обеспечение, которое является решением некоторых проблем обработки естественного языка. Новизна работы заключается в использовании модифицированного генетического алгоритма для решения задачи кластеризации текстовых документов, который позволяет параллельно анализировать ряд наилучших решений.. Это позволяет повысить качество подсистемы поиска информационно-аналитической системы (ИАС) прогнозирования. Подсистема поиска ИАС применяется для извлечения информации для прогнозирования из коллекции исходных состояний сложной технической системе. Произведена разработка модифицированного генетического алгоритма кластеризации. Приведена программная реализация модуля информационного поиска ИАС прогнозирования с использованием разработанного алгоритма на языке Java для решения задачи кластеризации и применение библиотеки OpenNLP для обработки естественного языка. Также определено место разработанного модуля в системе диагностирования сложных технических систем по поддержанию работоспособности программной системы. Проведены тестовые испытания подобной системы на последней версии копии сайта Wikipedia.org. Эксперименты показали уменьшение времени выполнения алгоритма и улучшение качества полученных результатов.

Скачать в PDF

Ключевые слова Генетический алгоритм; кластеризация; информационный поис; прогнозирование.
Библиографический список 1. Simmons, Klein, McConlogue. 1964. Indexing and Dependency Logic for Answering English Questions. American Documentation 15:30, 196U204.
2. Соловьёв А.А. Синтаксические и семантические модели и алгоритмы в задаче вопросно-ответного поиска // Труды 13-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2011, Воронеж, Россия, 2011.
3. Соловьёв А.А., Пескова О.В. Построение вопросно-ответной системы для русского языка: модуль анализа вопросов // Новые информационные технологии в автоматизированных системах: материалы 13-го научно-практического семинара. – М.: Моск. гос. ин-т электроники и математики. – 2010. – С. 41-49.
4. Bishop C. Pattern Recognition and Machine Learning, Springer, 2006.
5. Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman and Angela Y.Wu. An Efficient k-means Clustering Algorithm: Analysis and Implementation.
6. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman Mining of Massive Datasets. – Cambridge University Press, 2014. – 511 p.
7. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. – М.: Вильямс, 2011. – 528 c.
8. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman Mining of Massive Datasets. – Cambridge University Press, 2014. – 511 p.
9. Миркин Б.Г. Введение в анализ данных: учебник для бакалавриата и магистратуры. – М.: Юрайт, 2014. – 174 с.
10. Романовский И.В. Дискретный анализ: учеб. пособие для студентов, специализирующихся по прикладной математике и информатике. – 4-е изд., испр. и доп. – СПб.: Невский Диалект; БХВ-Петербург, 2008. – 336 с.
11. Ландэ Д.В, Снарский А.А. Интернетика: Навигация в сложных сетях: модели и алгоритмы. – М.: Книжный дом «ЛИБРОКОМ», 2009. – 264 c.
12. Емельянов В.В., Курейчик В.В., Курейчик В.М. Теория и практика эволюционного моде-лирования. – М.: Физматлит, 2003. – 432 c.
13. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы: учеб. пособие / под ред. В.М. Курейчика. – М.: Физматлит, 2004. – 400 с.
14. Ломакина, Л.С., Губернаторов В.П. Модификация эволюционно-генетического алго-ритма для эффективного диагностирования сложных систем // Системы управления и информационные технологии. – 2013. – Т. 53, № 3. – С. 59-64.
15. Наместников А.М. Метауровень информационного обеспечения САПР: от теории к практике. – Ульяновск: УлГТУ, 2015. – 176 с.
16. Гаврилова Т.А, Кудрявцев Д.В., Муромцев Д.И. Инженерия знаний. Модели и методы: учебник. – СПб.: Изд-во Лань 2016. – 324 с.
17. Кларенс Хо, Роб Харроп. Spring 3 для профессионалов = Pro Spring 3. – М.: Вильямс, 2012. – 880 с.
18. Картиев С.Б., Курейчик В.М., Алгоритм классификации, основанный на принципах слу-чайного леса для решения задачи прогнозирования // Программные продукты и системы. – 2016. – № 2. – C. 11-15.
19. Картиев С.Б., Курейчик В.М., Мартынов А.В. Параллельный алгоритм прогнозирования коротких временных рядов // Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT’15». Научное издание в 4-х т. – M.: Физматлит, 2015. – C. 27-47.
20. Картиев С.Б., Курейчик В.М., Разработка распределенной системы анализа временных рядов на основе модели вычисления MapReduce // Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT’16». Научное издание в 4-х т. – M.: Физматлит, 2016. – C. 36-43.

Comments are closed.