Найти
Результаты поиска
-
АЛГОРИТМЫ АГЛОМЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ АНАЛИЗА ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ
Ф. С. Булыга , В.М. Курейчик2022-01-31Аннотация ▼Рассмотрены и представлены основные проблемы и принципы функционирования
процесса кластеризации данных, в частности принципы и задачи кластеризации тексто-
вых массивов лингвистической экспертной информации. В ходе выполнения данной работы
были обозначены основные трудности возникающие при проектировании подобного рода
систем, например: необходимость предварительной обработки данных, сокращение раз-
мерности исходной выборки и т.п. Для эффективного выполнения представленных задач
реализованное решение должно обладать комплексным подходом учитывающим показате-
ли эффективности методов направленных на решение отдельных подзадач, а также спо-
собностью обеспечить высокие показатели эффективности реализации каждого этапа
процесса кластеризации. В представленной работе рассматриваются различные группы
алгоритмов иерархической кластеризации, в частности была рассмотрена подгруппа ал-
горитмов агломеративной кластеризации применительно к задачам кластеризации лин-
гвистической экспертной информации. В описываемой работе приведена формальная по-
становка задачи кластеризации текстов, а также определена основная группа реализо-
ванных решений основанных на принципах агломеративной кластеризации: ROCK, CURE,
CHAMELEON. Проведен детальный обзор каждого из представленных алгоритмов, а
также сформулированы основные достоинства и недостатки каждого из них. Преимуще-
ством данной работы можно считать совокупность представленных данных об алгорит-
мах, а также результаты сравнительного анализа, позволяющие в дальнейшем оценить
целесообразность и потенциальную вероятность применения указанных решения из пред-
ставленной группы алгоритмов агломеративной кластеризации. Новизна данной работы
заключается в формировании обзорного анализа существующих подходов в области иерар-
хической кластеризации для решения задач кластерного анализа лингвистической эксперт-
ной информации, а также формирование результатов проведенного сравнительного ана-
лиза рассмотренных алгоритмов -
МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)
В.В. Бова , Ю.А. Кравченко , С.И. Родзин2022-11-01Аннотация ▼Рассматривается одна из важных задач искусственного интеллекта – машинная об-
работка естественного языка. Решение данной задачи на основе кластерного анализа по-
зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
экспертной информации в условиях информационной неопределенности и слабой структу-
рированности исходных текстовых ресурсов, полученных из различных предметных облас-
тей. Кластерный анализ является мощным средством разведочного анализа текстовых
данных, позволяющий провести объективную классификацию любых объектов, которые
охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
го преобразования, используемых на различных этапах кластеризации текстовых данных,
эффективность которых проверяется экспериментальными исследованиями. В работе
обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
шения задачи повышения эффективности интеллектуальной обработки лингвистической
экспертной информации. Также в работе рассмотрены способы визуализации результатов
кластеризации для интерпретации кластерной структуры и зависимостей на множестве
элементов текстовых данных и графические средства их представления в виде дендо-
грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
начального выбора числа кластеров и распределения их центров использовать иерархиче-
ский подход, основанный на последовательном объединении и максимизации близости дан-
ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
ции. Результаты исследований показали, что для повышения вычислительной эффективно-
сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
ризации для оптимизации параметров модели обучения и поиска глобального оптимального
решения необходимо использовать метаэвристические подходы. -
МЕТОДИКА ПОСТРОЕНИЯ И ОЦЕНКИ ОНТОЛОГИЧЕСКОГО ПРОФИЛЯ ДЛЯ СИСТЕМ ПЕРСОНАЛИЗАЦИИ КОНТЕНТА
Ж.Х. Мохаммад248-2622025-12-30Аннотация ▼Данная статья посвящена разработке и апробации методики построения онтологического профиля, предназначенного для использования в системах персонализации контента. В работе детально описана модульная архитектура веб-системы персонализации, иллюстрирующая методы и алгоритмы обработки и анализа текста на каждом этапе, а также представлен пошаговый алгоритм создания онтологии. Методика включает первичную обработку данных: извлечение ключевых слов и словосочетаний, их иерархическую кластеризацию для выявления семантической структуры предметной области. Далее следует этап определения пороговых значений для отсева малозначимых связей, извлечения и формализации взаимосвязей между концептами с использованием методов обработки естественного языка, таких, как разрешение лексической неоднозначности и извлечение связей на основе семантического сходства. Для реализации этого процесса был разработан интегрированный конвейер (pipeline), объединяющий усовершенствованные алгоритмы, предложенные автором в предыдущих исследованиях, а именно: алгоритм извлечения ключевых фраз из отдельного текста на основе семантического сходства и модифицированный алгоритм разрешения лексической многозначности слов. В рамках данного конвейера также были оптимально интегрированы все необходимые инструменты обработки естественного языка, обеспечивающие эффективную работу указанных методов в процессе автоматического построения онтологии из текста. Особое внимание в исследовании уделяется комплексной оценке полученной онтологии с использованием специализированного набора критериев, позволяющих объективно оценить качество, полноту и непротиворечивость построенного профиля. Важной частью работы является проведение вычислительного эксперимента, который наглядно демонстрирует влияние каждого из этапов обработки данных на итоговое качество и эффективность онтологии. Показано, что предложенная методика позволяет построить практичную, масштабируемую и релевантную онтологию, готовую к промышленному внедрению и интеграции в системы персонализации для повышения их точности и адаптивности.
-
МЕТОД АВТОМАТИЧЕСКОЙ ОПТИМИЗАЦИИ БАЗЫ НЕЧЕТКИХ ПРАВИЛ ИНТЕЛЛЕКТУАЛЬНЫХ РЕГУЛЯТОРОВ НА ОСНОВЕ СУБТРАКТИВНОЙ КЛАСТЕРИЗАЦИИ
А.С. Игнатьева , В.В. Шадрина , В. В. Игнатьев , А.В. Максимов181-1972025-07-24Аннотация ▼Целью работы является разработка метода оптимизации базы нечетких правил интеллектуального регулятора для управления техническим объектом с использованием субтрактивной кластеризации. В статье приведен обзор и краткий анализ состояния дел в области оптимизации работы интеллектуальных систем управления. Для достижения цели исследования разработана гибридная модель, в которой управление техническим объектом реализуется с помощью классического ПИ-регулятора и нечеткого ПИ-регулятора с сгенерированной структурой системы нечеткого вывода типа Cyгено и разработанной моделью адаптивной системы нейро-нечеткого вывода. Данная конфигурация модели позволяет формировать базу нечетких правил, которая не зависит от знаний эксперта в предметной области. В статье предложен новый метод оптимизации базы правил нечеткого регулятора на основе методов кластеризации, в частности субтрактивной кластеризации, позволяющий уменьшать количество правил нечеткого логического вывода и увеличить быстродействие системы управления техническим объектом. Сначала проведено моделирование гибридной модели, синтезированной на основе значений нечеткого и классического регуляторов до применения субтрактивной кластеризации. Применение субтрактивной кластеризации по разработанному в исследовании способу для значений классического регулятора и нечеткого, позволило добиться их количественного сокращения в 1,7 и 5,25 раз соответственно. Затем проведено моделирование гибридной модели, синтезированной на основе значений нечеткого и классического регуляторов после применения субтрактивной кластеризации. Результаты, полученные в процессе моделирования показали высокую эффективность предложенного метода оптимизации базы правил нечеткого регулятора. За счет применения субтрактивной кластеризации в гибридной модели для интеллектуального регулятора удалось значительно уменьшить количество функций принадлежности, требуемых для описания входных лингвистических переменных (с пяти до четырех) и уменьшить количество правил нечеткого логического вывода (с двадцати пяти до шестнадцати). Анализ полученных графиков переходных процессов, полученных для гибридных моделей до и после применения субтрактивной кластеризации, показал, что основные показатели качества процесса управления остаются неизменными при существенном сокращении проводимых вычислений.
-
СТОХАСТИЧЕСКАЯ ДИНАМИЧЕСКАЯ МОДЕЛЬ ПОДВОДНОЙ БЕСПРОВОДНОЙ СЕНСОРНОЙ СЕТИ, ОСНОВАННАЯ НА ЛУВЕНСКОМ АЛГОРИТМЕ КЛАСТЕРИЗАЦИИ
А.М. Маевский , В.А. Рыжов , Т. А. Федорова , И. В. Кожемякин , Н.М. Буров62-812025-07-24Аннотация ▼Подводные беспроводные сенсорные сети (ПБСС) играют важную роль в мониторинге океанических процессов, подводной навигации, экологическом контроле и обеспечении безопасности. Однако особенности подводной среды, такие как высокая затухаемость сигналов, ограниченные ресурсы энергии и изменяющаяся топология сети, создают значительные сложности в организации эффективной передачи данных. Для оптимизации работы сети и продления ее срока службы используется метод кластеризации, позволяющий группировать узлы, снижать нагрузку на коммуникационные каналы и повышать энергоэффективность. Однако в условиях выхода из строя узлов сети статическая кластеризация становится неэффективной, что требует внедрения динамической рекластеризации. Процедура перераспределения ролей узлов и перестройки топологии сети позволяет сохранять устойчивость связи и минимизировать потери данных, учитывая энергетически баланс всей сети в целом. В данной работе исследуются современные подходы к кластеризации и рекластеризации в ПБСС с учетом энергетического баланса, вероятности отказов узлов и помех в среде передачи. Развитие адаптивных методов управления ПБСС является актуальной задачей, направленной на повышение надежности, энергоэффективности и долговечности подводных сетей связи. В статье представлена стохастическая кроссуровневая модель для динамических трехмерных ПБСС произвольной топологии. Модель использует: новую технику кластеризации/рекластеризации базирующуюся на лувенском алгоритме, протокол маршрутизации, построенный на методе Дейкстра и метод управления доступом к среде на основе расписания передач (TDMA). Предложенная модель функционирования ПБСС положена в основу разработанного имитационного комплекса, позволяющего проводить оценку эффективности и надежности сети с учетом нарушения связности и уязвимостей для ПБСС различного масштаба и назначения. В рамках исследований выполнен параметрический анализ систематических расчетов функциональных характеристик ПБСС. Результаты анализа показали, что предложенная имитационная модель обеспечивает увеличение времени автономной работы сети и снижение числа потерянных сообщений по сравнению с моделями других авторов.
-
МУЛЬТИМОДАЛЬНЫЙ МЕТОД ИЗВЛЕЧЕНИЯ ПРИЗНАКОВ ДАННЫХ ДЛЯ КЛАССИФИКАЦИИ СЕТЕВЫХ АТАК
А.В. Балыбердин6-162025-07-24Аннотация ▼Система обнаружения вторжений (СОВ) является важным компонентом защиты корпоративной сети передачи данных (КСПД). СОВ анализирует сетевой трафик и выявляет сетевые атаки. В зависимости от методов детектирования, СОВ можно классифицировать на следующие виды систем: система сигнатурного анализа, система обнаружения аномалий (СОА) и гибридная система, объединяющая ранее рассмотренные системы. В последнее время активно развиваются системы обнаружения аномалий (СОВ). Для систем обнаружения аномалий сетевые атаки представляют собой аномальное поведение сетевого трафика, состоящего из набора признаков или атрибутов событий. Современные СОВ опираются на методы машинного и глубокого обучения, в связи с чем обнаружение сетевых атак и аномалий формулируется как задача классификации и кластеризации. Для решения данных задач необходимы методы оптимизации признакового пространства сетевого трафика. Целью работы является разработка метода извлечения признаков на основе мультимодального подхода представления данных сетевого трафика для классификации сетевых атак. В работе рассмотрен анализ релевантных исследований по методам извлечения признаков из различных областей. Задача исследования – повысить эффективность классификации с помощью метода мультимодального представления признаков сетевого трафика. Результатом работы является метод извлечения признаков данных на основе двух модальностей: спектрального представления признаков сетевого трафика и матрицы признаков изображений. Новизна представленного метода заключается в применении метода оконного преобразования Фурье для событий сетевого трафика, с последующим вычислением спектральных признаков для дискретных сигналов, а также преобразованием признаков данных в матрицу изображений и её расширением для оптимизации пространства признаков с помощью сверточной нейронной сети (convolutional neural network, CNN). Оценка мультимодального метода показала, что данный метод повысил точность классификации для несбалансированных классов сетевых атак.
-
АНАЛИЗ ТРЕБОВАНИЙ И РАЗРАБОТКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНЫХ СЕРВИСОВ МОНИТОРИНГА
М.С. Анферова , А.М. Белевцев2022-08-09Аннотация ▼Рассмотрены проблемы стратегического анализа и выбора направлений развития инно-
вационных предприятий в условиях перехода к 6 технологическому укладу и индустрии 4.0. Оп-
ределены основные уровни анализа. Обозначены цели стратегического анализа исходя из мас-
штаба проводимого исследования. Выделены задачи анализа, решение которых позволит дос-
тичь поставленных целей. Показана сложность решения задач глобального мониторинга, ко-
торые обусловлены большим объемом разнородной и неструктурированной информации.
В этих условиях тематический поиск и аналитическая обработка информации не могут быть
выполнены без применения автоматизированных информационно-аналитических систем и соз-
дания поисковых сервисов на базе искусственного интеллекта. Предложена общая процедура
мониторинга. Определены основные этапы мониторинга технологических трендов, показаны
задачи, решаемые в рамках конкретного этапа и планируемый результат. На основе общей
процедуры мониторинга определены основные приоритетные функции, которыми должны
обладать разрабатываемые сервисы. А также проблемы их разработки и структуризация
полученной информации в виде информационных объектов и кластеризация документов. В от-
личие от известных систем глобального мониторинга, в которых поиск основан на индикато-
рах: рост использования ключевых слов, увеличение численности новых авторов, цитирование
работ из смежных областей. Предложены алгоритмы, обеспечивающие определение опорных
тем, оценку ранжирования и релевантности информации. Дано описание работы алгоритмов
на примере создания сводной информационной таблицы, с помощью которой происходит фор-
мирование взаимосвязей документов научно-технологического развития по заданному направ-
лению мониторинга и поиск конкретных документов в базе данных. Построение поисковых
сервисов на основе представленных алгоритмов обеспечит выделение опорных тем докумен-
тов, предоставит более достоверные результаты кластеризации неструктурированной ин-
формации и формирования научно-технологических трендов, в информационно-аналитических
комплексах. Для реализации алгоритма предлагается использовать язык программирования
Python. Внедрение данных алгоритмов повысит качество и эффективность информационного
поиска в условиях большого объёма неструктурированной информации. -
МОДУЛЬ КОРРЕКТИРОВКИ ПАРАМЕТРОВ АЛГОРИТМОВ АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ И СОПРОВОЖДЕНИЯ ОБЪЕКТОВ ДЛЯ ОПТИКО-ЭЛЕКТРОННЫХ СИСТЕМ
В. А. Тупиков, В. А. Павлова , А.И. Лизин , П.А. Гессен71-812022-04-20Аннотация ▼В целях создания инновационного модуля автоматической корректировки алгорит-
мов автоматического обнаружения и сопровождения объектов с обучением в реальном
времени произведено исследование мирового опыта в области автоматического сопрово-
ждения общего назначения с возможностью распознавания объекта сопровождения для
применения во встраиваемых вычислительных устройствах оптико-электронных систем
перспективных робототехнических комплексов. На основе проведенных исследований ото-
браны и протестированы методы и подходы, которые позволяют с наибольшей точно-
стью, при сохранении высокой вычислительной эффективности, обеспечивать обучение
классификаторов на лету (online learning) без априорного знания о типе объекта слежения
и обеспечивать последующую корректировку во время слежения и обнаружение исходного
объекта в случае его кратковременной потери. В число таких способов входит гисто-
грамма направленных градиентов – дескриптор ключевых признаков, основывающийся на
анализе распределения градиентов яркости изображения объекта. Его использование по-
зволяет сократить количество используемой информации без потери ключевых данных об
объекте и увеличить скорость обработки изображений. В статье обоснован выбор одного
из алгоритмов классификации в режиме реального времени, позволяющего решить задачу
бинарной классификации – метода опорных векторов. В виду высокой скорости обработки
данных и необходимости небольшого количества исходных обучающих данных для по-
строения разделяющей гиперплоскости, на основе которой и происходит классификация
объектов, данный метод выбран как наиболее подходящий для решения поставленной за-
дачи. Для осуществления online-обучения была выбрана модификация метода опорных
векторов, реализующая стохастический градиентный спуск на каждом шаге работы алго-
ритма – Pegasos. Еще одним вспомогательным способом является метод кластеризации
ключевых точек – таким образом обеспечивается ускоренный выбор объектов для обуче-
ния и классификации. Авторами исследования проведена разработка и полунатурное моде-
лирование предлагаемого модуля, проведена оценка эффективности его работы в задачах
корректировки и обнаружения объекта интереса в режиме реального времени с предвари-
тельным online-обучением в процессе слежения за объектом. Разработанный алгоритм
показал высокую эффективность при решении поставленной задачи. В заключении пред-
ставлены предложения по дальнейшему повышению точности и вероятности обнаруже-
ния объекта интереса разработанным алгоритмом, а также по повышению его произво-
дительности путем оптимизации вычислений. -
РЕШЕНИЕ ЗАДАЧИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ НА ОСНОВЕ БИОИНСПИРИРОВАННОГО АЛГОРИТМА
Э.В. Кулиев , Д. Ю. Запорожец, Ю.А. Кравченко , М.М. Семенова2022-01-31Аннотация ▼Рассматривается биоинспирированный алгоритм для решения задач интеллектуаль-
ного анализа. Интеграция биоинспирированных алгоритмов для решения задач интеллек-
туального анализа данных является перспективным направлением исследований. В качест-
ве биоинспирированного алгоритма, рассмотрен алгоритм, основанный на адаптивном
поведении муравьиной колонии. Алгоритм муравьиной колонии позволяет производить ка-
чественный поиск перспективных решений для получения оптимальных и квазиоптималь-
ных решений. Алгоритм обладает способностью выполнять поиск подходящей логических
условий. Алгоритм муравьиной колонии основан на примере поведения живых муравьев в
природе. Муравьи способны находить кратчайшее решение адаптируясь к изменениям
окружающей среды. Авторами предложен модифицированный алгоритм муравьиной коло-
нии для решения задачи интеллектуального анализа данных. В качестве задачи интеллек-
туального анализа данных выбрана задача кластеризации. Кластеризация – объединение в
группы схожих объектов – является одной из фундаментальных задач в области анализа
данных и Data Mining. Список прикладных областей, где она применяется, широк: сегмен-
тация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ тек-
стов и многие другие. Решение данной задачи приобретает особую актуальность в услови-
ях постоянно растущего объема генерируемых, передаваемых и обрабатываемых данных.
Классические методы кластеризации оптимизированы путем объединения с предложен-
ным алгоритмом биоинспирированной оптимизации – муравьиным алгоритмом. Предло-
женный метод представляет собой модель, в которой муравьи представлены в виде аген-
тов, которые случайным образом перемещаются в пространстве решений с некоторыми
ограничений (например, препятствия на их пути). Для определения эффективности разра-
ботанного модифицированного муравьиного алгоритма (АСО) с алгоритмом кластериза-
ции, авторами была проведена серия вычислительных экспериментов. Для сравнения были
взять генетический алгоритм, алгоритм обезьян и алгоритм волков. Результаты модели-
рования доказывают, что муравьиный алгоритм на основе кластеризации дает лучшие
результаты, чем другие предлагаемые алгоритмы. -
РАЗРАБОТКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО СЕРВИСА ПОИСКА И МОНИТОРИНГА ИНФОРМАЦИИ
М. С. Анферова, А.М. Белевцев2021-08-11Аннотация ▼Описана проблема стратегического анализа и выбора направлений развития инноваци-
онного предприятия в условиях перехода к 6 технологическому укладу и индустрии 4.0. В дан-
ных условиях поисково-аналитическая обработка информации не может быть полноценно
выполнена без применения автоматизированных информационно-аналитических систем, в
том числе и на базе искусственного интеллекта. В ходе анализа были определены основные
приоритетные функции, которые должны обеспечивать разрабатываемые сервисы. Обо-
значены основные трудности при разработке данных сервисов, такие как: предварительная
обработка данных и автоматизированная проверка актуальности баз данных. Для эффек-
тивного решения поставленных задач сервис интеллектуального мониторинга и поиска ин-
формации должен использовать комплексный подход с учетом эффективности применения
методов для отдельных подзадач, обеспечивать высокую эффективность реализации всех
этапов процедуры интеллектуального мониторинга. В связи с этим в данной работе описы-
вается не только разработка общего интеллектуального поискового алгоритма, но и от-
дельные блок-алгоритмы, необходимые для обеспечения приоритетных функций разрабаты-
ваемого сервиса. В работе представлены следующие алгоритмы: алгоритм информационного
поиска, необходимый для решения задачи полнотекстового поиска документов в пределах
базы информационных ресурсов информационно-аналитического комплекса; алгоритм про-
цедуры внесения новых документов; алгоритм предварительной обработки данных, выклю-
чающий в себя стемминг и удаление знаков препинания для последующего анализа текста;
алгоритм оценки ранжирования и релевантности информации, включающий в себя вектори-
зацию документов; алгоритм кластеризации результатов поиска информации на основе ней-
ронной сети Кохонена; алгоритм проверки актуальности информации -проверка соответст-
вия локальной копии документа актуальной версии на веб-ресурсе источника. Предложен и
обоснован язык программирования Python для реализации представленного алгоритма. Сис-
тема обеспечивает автоматизированный непрерывный мониторинг с высокой периодично-
стью отправки запроса без участия оператора, что повысит качество и эффективность
информационного поиска в условиях большого объёма неструктурированной информации -
ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко2021-07-18Аннотация ▼В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
BoWC, который представляет документ в соответствии с содержащейся в нем ин-
формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
ние документа, предлагается модифицированная весовая функция для взвешивания кон-
цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
нерированные с помощью предложенного метода, характеризуются интерпретируемо-
стью, низкой размерностью, высокой точностью, а также низкими вычислительными
затратами при использовании в задачах классификации и кластеризации. Предлагаемый
метод протестирован на пяти различных наборах эталонных данных для кластеризации и
классификации текстовых документов и сравнивается с несколькими базовыми методами,
включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
лучшую точность. -
ВЕРИФИКАЦИЯ ДИНАМИЧЕСКИХ БИОМЕТРИЧЕСКИХ ПАРАМЕТРОВ ЛИЧНОСТИ НА ОСНОВЕ ВЕРОЯТНОСТНОЙ НЕЙРОННОЙ СЕТИ
Ю.А. Брюхомицкий2021-01-19Аннотация ▼Биометрическая верификация личности используются преимущественно при доступе
в компьютерные и мобильные системы, а также для удаленной (голосовой) верификации.
При этом наибольшее распространение получили системы биометрической верификации
по фиксированной парольной фразе, которые достаточно просты в реализации, но очень
уязвимы для атак воспроизведения скомпрометированного короткого текста. Для устра-
нения этого недостатка верификацию личности предлагается осуществлять по произ-
вольному в отношении объема, содержания и языка тексту (текстонезависимая биомет-
рическая верификация). В данной работе предлагается обобщенный подход к решению за-
дачи верификации личности по динамическим биометрическим параметрам разной мо-
дальности (клавиатурный почерк, рукопись, голос). Представление сигналов динамической
биометрии осуществляется путем преобразования их в последовательности информаци-
онных единиц, каждая из которых содержит одинаковое количество отсчетов биометри-
ческого сигнала соответствующей модальности. Решение поставленной задачи осуществ-
ляется путем контроля степени концентрации близко расположенных информационных
единиц (кластеров) в определенных точках многомерного признакового пространства. Реа-
лизуется такой контроль на вероятностной нейронной сети, осуществляющей статисти-
ческую оценку плотности вероятности распределения информационных единиц в соответ-
ствующих кластерах с последующим определением суммарной плотности вероятности для
всего класса объектов. Преимуществами предлагаемого подхода являются: обобщение
существенно различных методов текстонезависимой верификации личности по динамиче-
ским биометрическим параметрам разной модальности; возможность принимать вери-
фикационное решение за фиксированное время поступления биометрических данных, опре-
деляемое размером используемого эталона; возможность задавать точность верифика-
ции путем изменения размерности слоя образцов вероятностной сети. Недостатком
предлагаемого подхода является необходимость программной реализации нейронной сети
большой размерности. Однако этот недостаток быстро нивелируется с повышением про-
изводительности средств вычислительной техники.








