Найти
Результаты поиска
-
ОСНОВНЫЕ ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ТЕКСТОВОЙ ИНФОРМАЦИИ (ОБЗОР)
В.В. Курейчик , П. С. Герасименко2024-10-08Аннотация ▼Данная статья посвящена обзору известных и современных подходов, методов и алгорит-
мов полнотекстового поиска. Описана краткая история решения задачи поиска в неструктуриро-
ванных текстовых данных, её развитие и актуальность. Сформулирована основная задача поиска
в текстовых данных. Приведено определение индекса базы данных. В общем виде определена целе-
вая функция поисковой информационной системы и описаны возможные компромиссные вариации
её параметров при решения различных прикладных задач. Приведена обобщённая архитектура
современной поисковой информационной системы с разделением задачи поиска на две фазы: пер-
вичное извлечение релевантных записей и их последующее ранжирование для формирования окон-
чательных результатов поиска. Даны базовые описания основных алгоритмов и методов полно-
текстового поиска, таких как: поиск по термам (логический поиск), поиск с помощью деревьев и
их разновидностей (B-деревья, UB-деревья, tries), поиск на основе n-грамм (в том числе поиск на
основе частотного представления), использование векторной модели пространства (VSM), поиск
на основе инвертированного (обратного) индекса, поиск с использованием аппарата нечёткой
логики и биоинспирированных методов. Приведены основные достоинства и недостатки этих
методов, описана их применимость в различных условиях, а также рассмотрены возможные ме-
тоды оптимизации поиска текстовых данных для улучшения точности, скорости поиска и эф-
фективности использования ресурсов. Представлены возможные перспективные направления в
области решения задачи первичного извлечения информации. Приведены некоторые способы опре-
деления сходства текстовых записей для решения задачи ранжирования на основе аппарата не-
чёткой логики. Затронуты вопросы повышения релевантности первичного извлечения с помощью
методов искусственного интеллекта, нейронных сетей, аппарата нечёткой логики и биоинспири-
рованных методов, в частности методы расширения поискового запроса и/или расширения обра-
батываемых текстовых записей. Описано влияние граничных условий построения поисковой сис-
темы на повышение её эффективности. В заключение статьи подводятся итоги обзора и обсуж-
даются перспективы дальнейшего развития различных методов полнотекстового поиска. -
МЕТОД ПОИСКА ПОСЛЕДОВАТЕЛЬНЫХ ПАТТЕРНОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ В ИНТЕРНЕТ-ПРОСТРАНСТВЕ
В.В. Курейчик, В.В. Бова, Ю.А. Кравченко2020-11-22Аннотация ▼Одной из важных задач интеллектуального анализа данных является выделение зако-
номерностей и обнаружение связанных событий в последовательных данных на основе
анализа последовательных паттернов. В статье исследуются возможность применения
последовательных паттернов для анализа событий поисково-познавательной деятельно-
сти пользователей при взаимодействии с Интернет-ресурсами открытой информационно-
образовательной среды. Поиск последовательных паттернов является сложной вычисли-
тельной задачей, цель которой состоит в извлечении всех частых последовательностей,
отражающих потенциальные связи внутри элементов из транзакционной базы данных
последовательностей событий поисковой активности при заданной минимальной под-
держке. Для ее решения в статье предлагается метод поиска закономерностей в последо-
вательностях событий для обнаружения скрытых закономерностей, указывающих с воз-
можные уровни уязвимости при выполнении задач информационного поиска в Интернет-
пространстве. Описана математическая модель поведения пользователей в поисковой
сессии, основанная на теории последовательных паттернов. Для повышения вычислитель-
ной эффективности метода разработан модифицированный алгоритм генерации последо-
вательных паттернов, на первом этапе которого выполняется AprioriAll, формирующий
частые последовательности-кандидаты всевозможных длин, а на втором - генетический
алгоритм оптимизации входных параметров признакового пространства сгенерированного
множества для поиска максимальных паттернов. Проведены серии вычислительных экс-
периментов на тестовых данных корпуса MSNBC, библиотеки интеллектуального анализа
данных с открытым исходным кодом SPMF. Сравнительной анализ проводился с алгорит-
мами VMSP и GSP. Результаты исследований подтвердили эффективность поиска макси-
мальных последовательных паттернов предложенным алгоритмом с точки зрения времени
выполнения и количества извлеченных паттернов. Результаты проведенных эксперимен-
тальных исследований метода показали, что для увеличения стабильности и точности
работы размер выборки, полученной в результате работы ГА, позволит сократить необ-
ходимое число сканирований базы данных паттернов, обеспечивая приемлемые вычисли-
тельные затраты, сопоставимые с алгоритмом VMSP и превосходящий по времени поиска
последовательных паттернов алгоритм GSP в среднем более чем на 150%. -
ИДЕНТИФИКАЦИЯ НЕЯВНЫХ УГРОЗ НА ОСНОВЕ АНАЛИЗА АКТИВНОСТИ ПОЛЬЗОВАТЕЛЯ В ИНТЕРНЕТ-ПРОСТРАНСТВЕ
В. В. Бова , Д.Ю. Запорожец , Ю.А. Кравченко , Э. В. Кулиев , В.В. Курейчик , Н. А. Лызь2020-10-11Аннотация ▼Статья посвящена проблеме идентификации неявных информационных угроз п о-
исковой деятельности пользователя в Интернет-пространстве на основе анализа его
активности в процессе данного взаимодействия. Применение знаний, хранящихся в
интернет-пространстве, для реализации преступных намерений несет в себе угрозу
для всего общества. Выявление злого умысла в действиях пользователей глобаль ной
информационной сети не всегда является тривиальной задачей. Отработанные техн о-
логии анализа контекста интересов пользователя дают сбой в случае осторожных
грамотных действий злоумышленников, которые в явном виде не демонстрируют пр е-
следуемой ими цели. В работе проведен анализ угроз, связанных с определенными сц е-
нариями реализации поисковых процедур, проявляющихся в поисковой деятельности.
Описаны критерии оценки неэффективных и эффективного сценариев поиска. Среди
признаков, указывающих на возможность наличия угрозы, выделены следующие основ-
ные: уход от решения задачи в бесцельную навигацию или к привлекательным ресурсам,
поверхностный поиск, отсутствие смыслового погружения в решение поисковой зад а-
чи, хаотичные действия при поиске. Для определения налич ия неблагоприятных при-
знаков построена система показателей. Сформулированы признаки эффективного
сценария организации поиска в Интернет-пространстве, описаны варианты наличия
неявных угроз для подобной ситуации. Представлен подход идентификации описанных
угроз с учетом заданных критериев оценки различных сценариев поведения пользоват е-
ля в глобальном информационном пространстве. Разработан алгоритм машинного
обучения для идентификации проблемных сценариев путем сравнения с ключевыми
паттернами поведения. Создана программная реализация подсистемы идентификации
информационных угроз, проведены экспериментальные исследования для подтвержд ения эффективности подсистемы. Экспериментальные исследования проводились на основе обработки открытых данных из социальных сетей, а также с применением
анализа поисковой деятельности пользователей в университетской корпоративной
информационной среде.








