Найти
Результаты поиска
-
МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)
В.В. Бова , Ю.А. Кравченко , С.И. Родзин2022-11-01Аннотация ▼Рассматривается одна из важных задач искусственного интеллекта – машинная об-
работка естественного языка. Решение данной задачи на основе кластерного анализа по-
зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
экспертной информации в условиях информационной неопределенности и слабой структу-
рированности исходных текстовых ресурсов, полученных из различных предметных облас-
тей. Кластерный анализ является мощным средством разведочного анализа текстовых
данных, позволяющий провести объективную классификацию любых объектов, которые
охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
го преобразования, используемых на различных этапах кластеризации текстовых данных,
эффективность которых проверяется экспериментальными исследованиями. В работе
обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
шения задачи повышения эффективности интеллектуальной обработки лингвистической
экспертной информации. Также в работе рассмотрены способы визуализации результатов
кластеризации для интерпретации кластерной структуры и зависимостей на множестве
элементов текстовых данных и графические средства их представления в виде дендо-
грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
начального выбора числа кластеров и распределения их центров использовать иерархиче-
ский подход, основанный на последовательном объединении и максимизации близости дан-
ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
ции. Результаты исследований показали, что для повышения вычислительной эффективно-
сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
ризации для оптимизации параметров модели обучения и поиска глобального оптимального
решения необходимо использовать метаэвристические подходы. -
АНАЛИЗ ТРЕБОВАНИЙ И РАЗРАБОТКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНЫХ СЕРВИСОВ МОНИТОРИНГА
М.С. Анферова , А.М. Белевцев2022-08-09Аннотация ▼Рассмотрены проблемы стратегического анализа и выбора направлений развития инно-
вационных предприятий в условиях перехода к 6 технологическому укладу и индустрии 4.0. Оп-
ределены основные уровни анализа. Обозначены цели стратегического анализа исходя из мас-
штаба проводимого исследования. Выделены задачи анализа, решение которых позволит дос-
тичь поставленных целей. Показана сложность решения задач глобального мониторинга, ко-
торые обусловлены большим объемом разнородной и неструктурированной информации.
В этих условиях тематический поиск и аналитическая обработка информации не могут быть
выполнены без применения автоматизированных информационно-аналитических систем и соз-
дания поисковых сервисов на базе искусственного интеллекта. Предложена общая процедура
мониторинга. Определены основные этапы мониторинга технологических трендов, показаны
задачи, решаемые в рамках конкретного этапа и планируемый результат. На основе общей
процедуры мониторинга определены основные приоритетные функции, которыми должны
обладать разрабатываемые сервисы. А также проблемы их разработки и структуризация
полученной информации в виде информационных объектов и кластеризация документов. В от-
личие от известных систем глобального мониторинга, в которых поиск основан на индикато-
рах: рост использования ключевых слов, увеличение численности новых авторов, цитирование
работ из смежных областей. Предложены алгоритмы, обеспечивающие определение опорных
тем, оценку ранжирования и релевантности информации. Дано описание работы алгоритмов
на примере создания сводной информационной таблицы, с помощью которой происходит фор-
мирование взаимосвязей документов научно-технологического развития по заданному направ-
лению мониторинга и поиск конкретных документов в базе данных. Построение поисковых
сервисов на основе представленных алгоритмов обеспечит выделение опорных тем докумен-
тов, предоставит более достоверные результаты кластеризации неструктурированной ин-
формации и формирования научно-технологических трендов, в информационно-аналитических
комплексах. Для реализации алгоритма предлагается использовать язык программирования
Python. Внедрение данных алгоритмов повысит качество и эффективность информационного
поиска в условиях большого объёма неструктурированной информации. -
РАЗРАБОТКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО СЕРВИСА ПОИСКА И МОНИТОРИНГА ИНФОРМАЦИИ
М. С. Анферова, А.М. Белевцев2021-08-11Аннотация ▼Описана проблема стратегического анализа и выбора направлений развития инноваци-
онного предприятия в условиях перехода к 6 технологическому укладу и индустрии 4.0. В дан-
ных условиях поисково-аналитическая обработка информации не может быть полноценно
выполнена без применения автоматизированных информационно-аналитических систем, в
том числе и на базе искусственного интеллекта. В ходе анализа были определены основные
приоритетные функции, которые должны обеспечивать разрабатываемые сервисы. Обо-
значены основные трудности при разработке данных сервисов, такие как: предварительная
обработка данных и автоматизированная проверка актуальности баз данных. Для эффек-
тивного решения поставленных задач сервис интеллектуального мониторинга и поиска ин-
формации должен использовать комплексный подход с учетом эффективности применения
методов для отдельных подзадач, обеспечивать высокую эффективность реализации всех
этапов процедуры интеллектуального мониторинга. В связи с этим в данной работе описы-
вается не только разработка общего интеллектуального поискового алгоритма, но и от-
дельные блок-алгоритмы, необходимые для обеспечения приоритетных функций разрабаты-
ваемого сервиса. В работе представлены следующие алгоритмы: алгоритм информационного
поиска, необходимый для решения задачи полнотекстового поиска документов в пределах
базы информационных ресурсов информационно-аналитического комплекса; алгоритм про-
цедуры внесения новых документов; алгоритм предварительной обработки данных, выклю-
чающий в себя стемминг и удаление знаков препинания для последующего анализа текста;
алгоритм оценки ранжирования и релевантности информации, включающий в себя вектори-
зацию документов; алгоритм кластеризации результатов поиска информации на основе ней-
ронной сети Кохонена; алгоритм проверки актуальности информации -проверка соответст-
вия локальной копии документа актуальной версии на веб-ресурсе источника. Предложен и
обоснован язык программирования Python для реализации представленного алгоритма. Сис-
тема обеспечивает автоматизированный непрерывный мониторинг с высокой периодично-
стью отправки запроса без участия оператора, что повысит качество и эффективность
информационного поиска в условиях большого объёма неструктурированной информации -
ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко2021-07-18Аннотация ▼В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
BoWC, который представляет документ в соответствии с содержащейся в нем ин-
формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
ние документа, предлагается модифицированная весовая функция для взвешивания кон-
цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
нерированные с помощью предложенного метода, характеризуются интерпретируемо-
стью, низкой размерностью, высокой точностью, а также низкими вычислительными
затратами при использовании в задачах классификации и кластеризации. Предлагаемый
метод протестирован на пяти различных наборах эталонных данных для кластеризации и
классификации текстовых документов и сравнивается с несколькими базовыми методами,
включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
лучшую точность. -
ВЕРИФИКАЦИЯ ДИНАМИЧЕСКИХ БИОМЕТРИЧЕСКИХ ПАРАМЕТРОВ ЛИЧНОСТИ НА ОСНОВЕ ВЕРОЯТНОСТНОЙ НЕЙРОННОЙ СЕТИ
Ю.А. Брюхомицкий2021-01-19Аннотация ▼Биометрическая верификация личности используются преимущественно при доступе
в компьютерные и мобильные системы, а также для удаленной (голосовой) верификации.
При этом наибольшее распространение получили системы биометрической верификации
по фиксированной парольной фразе, которые достаточно просты в реализации, но очень
уязвимы для атак воспроизведения скомпрометированного короткого текста. Для устра-
нения этого недостатка верификацию личности предлагается осуществлять по произ-
вольному в отношении объема, содержания и языка тексту (текстонезависимая биомет-
рическая верификация). В данной работе предлагается обобщенный подход к решению за-
дачи верификации личности по динамическим биометрическим параметрам разной мо-
дальности (клавиатурный почерк, рукопись, голос). Представление сигналов динамической
биометрии осуществляется путем преобразования их в последовательности информаци-
онных единиц, каждая из которых содержит одинаковое количество отсчетов биометри-
ческого сигнала соответствующей модальности. Решение поставленной задачи осуществ-
ляется путем контроля степени концентрации близко расположенных информационных
единиц (кластеров) в определенных точках многомерного признакового пространства. Реа-
лизуется такой контроль на вероятностной нейронной сети, осуществляющей статисти-
ческую оценку плотности вероятности распределения информационных единиц в соответ-
ствующих кластерах с последующим определением суммарной плотности вероятности для
всего класса объектов. Преимуществами предлагаемого подхода являются: обобщение
существенно различных методов текстонезависимой верификации личности по динамиче-
ским биометрическим параметрам разной модальности; возможность принимать вери-
фикационное решение за фиксированное время поступления биометрических данных, опре-
деляемое размером используемого эталона; возможность задавать точность верифика-
ции путем изменения размерности слоя образцов вероятностной сети. Недостатком
предлагаемого подхода является необходимость программной реализации нейронной сети
большой размерности. Однако этот недостаток быстро нивелируется с повышением про-
изводительности средств вычислительной техники.








