Найти
Результаты поиска
-
МЕТОД ПОИСКА ПОСЛЕДОВАТЕЛЬНЫХ ПАТТЕРНОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ В ИНТЕРНЕТ-ПРОСТРАНСТВЕ
В.В. Курейчик, В.В. Бова, Ю.А. Кравченко2020-11-22Аннотация ▼Одной из важных задач интеллектуального анализа данных является выделение зако-
номерностей и обнаружение связанных событий в последовательных данных на основе
анализа последовательных паттернов. В статье исследуются возможность применения
последовательных паттернов для анализа событий поисково-познавательной деятельно-
сти пользователей при взаимодействии с Интернет-ресурсами открытой информационно-
образовательной среды. Поиск последовательных паттернов является сложной вычисли-
тельной задачей, цель которой состоит в извлечении всех частых последовательностей,
отражающих потенциальные связи внутри элементов из транзакционной базы данных
последовательностей событий поисковой активности при заданной минимальной под-
держке. Для ее решения в статье предлагается метод поиска закономерностей в последо-
вательностях событий для обнаружения скрытых закономерностей, указывающих с воз-
можные уровни уязвимости при выполнении задач информационного поиска в Интернет-
пространстве. Описана математическая модель поведения пользователей в поисковой
сессии, основанная на теории последовательных паттернов. Для повышения вычислитель-
ной эффективности метода разработан модифицированный алгоритм генерации последо-
вательных паттернов, на первом этапе которого выполняется AprioriAll, формирующий
частые последовательности-кандидаты всевозможных длин, а на втором - генетический
алгоритм оптимизации входных параметров признакового пространства сгенерированного
множества для поиска максимальных паттернов. Проведены серии вычислительных экс-
периментов на тестовых данных корпуса MSNBC, библиотеки интеллектуального анализа
данных с открытым исходным кодом SPMF. Сравнительной анализ проводился с алгорит-
мами VMSP и GSP. Результаты исследований подтвердили эффективность поиска макси-
мальных последовательных паттернов предложенным алгоритмом с точки зрения времени
выполнения и количества извлеченных паттернов. Результаты проведенных эксперимен-
тальных исследований метода показали, что для увеличения стабильности и точности
работы размер выборки, полученной в результате работы ГА, позволит сократить необ-
ходимое число сканирований базы данных паттернов, обеспечивая приемлемые вычисли-
тельные затраты, сопоставимые с алгоритмом VMSP и превосходящий по времени поиска
последовательных паттернов алгоритм GSP в среднем более чем на 150%.








