Найти
Результаты поиска
-
ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДА ПОИСКА АССОЦИАТИВНЫХ ПРАВИЛ ДЛЯ ЗАДАЧ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ
В.В. Бова, Э.В. Кулиев, С. Н. Щеглов2020-07-20Аннотация ▼Объемы современных баз данных имеют значительные объемы и содержат большие
массивы информации. Одним из популярных методов обнаружения знаний для задач обработки
и анализа больших данных стали алгоритмы поиска ассоциативных правил. В статье решается
задача построения баз ассоциативных правил для анализа представленной большими массива-
ми неструктурированных данных на основе поиска в них различных закономерностей с учетом
значимости их признаков. Предложен метод синтеза баз ассоциативных правил, в котором
выполняется построение транзакционной базы данных на основе вычисления пороговых значе-
ний поддержки и применением критериев оценивания косвенных ассоциаций, что позволяет
извлекать как частые, так и неявные наборы ассоциативных правил. С целью повышения вы-
числительной эффективности извлечения ассоциативных правил, применяется генетический
алгоритм оптимизации входных параметров признакового пространства поиска. Метод позво-
ляет улучшить время извлечения правил, сократить число сгенерированных обобщенных правил,
избежать затратной процедуры предобработки синтезированной базы правил. Разработан
программно-алгоритмический модуль, с помощью которого проведены экспериментальные
исследования метода синтеза ассоциативных правил на основе фильтрации входных парамет-
ров модели поиска для решения задач обработки неструктурированных данных. Проведенные
серии экспериментов на тестовых транзакционных базах данных позволили уточнить теоре-
тические оценки временной сложности метода, в котором для вычисления взвешенной под-
держки наборов правил с учетом оценки априорной информативности признаков, входящих в
данный набор применяется генетический алгоритм. Временная сложность разработанного
метода составляет О(I2). Сравнительной анализ проводился на тестовых данных корпуса
Retail Data с алгоритмами Apriori и Frequent Pattern-Growth. Результаты исследований под-
твердили эффективность метода поиска на больших наборах транзакций, позволяющего более
чем на 40 % уменьшить мощность неизбыточного множества извлеченных ассоциативных
правил по сравнению с известными алгоритмами и показали перспективность его применения
для задачи обнаружения знаний при обработке данных большого объема. -
КЛАССИФИКАЦИЯ УЗЛОВ – ОБРАБОТЧИКОВ В СИСТЕМАХ БОЛЬШИХ ДАННЫХ В СООТВЕТСТВИИ С ПОДХОДОМ НУЛЕВОГО ДОВЕРИЯ
М.А. Полтавцева , Д. В. Иванов55-622025-07-24Аннотация ▼Кибербезопасность данных является одним из важнейших факторов успешной реализации национального проекта «Экономика данных и цифровая трансформация государства». Проблемы построения защищенных систем обработки больших данных заключаются в их гетерогенной природе, большом числе разнородных инструментов, высокой связности и высоком доверии между распределенными компонентами. Снижение внутреннего доверия и уменьшение поверхности атаки в соответствии с подходом zero-trust необходимо для повышения защищенности таких систем с наименьшим влиянием на их производительность. Целью работы является создание метода динамической классификации узлов и компонент обработки данных в гетерогенных системах больших данных на основе применения различных подходов к снижению доверия в отношении объектов, реализующих процесс обработки информации. Рассматривается подход нулевого доверия применительно к исследуемому классу систем, а также ставится задача расширенной реализации принципа минимальных привилегий уменьшения поверхности атаки. Представлена классификация узлов – обработчиков на основе выполняемых ими операций с данными, унифицированных согласно разработанной ранее концептуальной модели данных. Предлагается сопоставление узлов и применяемых в их отношении методов безопасности на основе необходимости доступа к семантике и компонентам данных для выполнения операций. На основе данной классификации разработан метод динамического определения класса узлов-обработчиков данных в процессе работы системы для ситуаций изменения компонентного состава системы обработки больших данных, типичной для многокомпонентных распределенных высоконагруженных систем. Результаты работы являются частью комплексного консистентного подхода к построению защищенных систем обработки больших данных
-
ИСПОЛЬЗОВАНИЕ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ ДЛЯ РЕАЛИЗАЦИИ МЕТОДА ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ НА ОСНОВЕ СХЕМЫ ШАМИРА В МЕДИЦИНСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЕ
Л.К. Бабенко , А.С. Шумилин2023-10-23Аннотация ▼В современном мире медицинские информационные системы становятся наиболее
популярными инструментами для обработки, хранения, систематизации и передачи меди-
цинских данных пациентов. Медицинские обследования могут быть представлены в виде
файлов различных форматов и сильно варьироваться по размеру (от нескольких байт до
сотен гигабайт). Например, некоторые двоичные файлы имеют малый размер поскольку
содержат лишь заключения врачей в виде текстового описания, а файлы, записи ночного
видеомониторинга пациента или DICOM-файлы компьютерной томограммы органов чело-
века, содержащие несколько сотен слайсов могут достигать размера в сотни гигабайт.
Соответственно, большие файлы требуют значительных вычислительных ресурсов при
передаче с сервера на сервер. Кроме того, при использовании метода обеспечения безопас-
ности, который представляет собой алгоритм разделения секрета (файла с обследовани-
ем) по схеме Шамира операции, операции по разделению секрета на части и слиянию час-
тей воедино могут занимать больше времени при последовательном режиме работы, чем
при параллельном. Поэтому, видится возможность ускорить процесс обработки больших
данных без снижения уровня безопасности. Целью работы является подтверждение гипо-
тезы уменьшения времени на выполнения операцией разделения и слияния частей секрета с
использованием средств параллельных вычислений при реализации метода обеспечения
безопасности по схеме разделения секрета Шамира в медицинской информационной сис-
теме. Объектом исследования является метод обеспечения безопасности, который разра-
ботан авторами для внедрения в подсистемы защиты информации медицинской информа-
ционной системы. В рамках исследования проведен анализ наиболее эффективных средств
для распараллеливания процессов (MPI и OpenMP) и выбран инструмент, подходящий под
решение поставленной цели. Также проведены эксперименты (анализ времени в зависимо-
сти от количества параллельных потоков и количества символов, содержащихся в DICOM
файле), которые подтвердили концепцию возможности распараллелить алгоритм обмена
секретом на основе схемы Шамира, добившись почти линейного ускорения с помощью биб-
лиотеки MPI. -
АНАЛИТИЧЕСКИЙ ОБЗОР АЛГОРИТМА ДЕРЕВА РЕШЕНИЙ В ТЕХНОЛОГИИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Э.В. Кулиев , В.А. Семенов, А.В. Котельва , С.В. Игнатьева2022-05-26Аннотация ▼Алгоритм дерева решений является распространенным алгоритмом классификации в
технологии интеллектуального анализа данных, и его результаты обычно выражаются в
виде правил «если-то». Алгоритм C4.5 является одним из алгоритмов дерева решений, ко-
торый обладает преимуществами простоты понимания и высокой точности, а также
усовершенствован добавлением скорости прироста информации по сравнению с его пред-
шественником - алгоритмом ID3. После теоретического анализа информации выбирается
алгоритм C4.5 для анализа результатов служебной аттестации, и создается дерево ре-
шений для служебной аттестации путем сбора данных, предварительной обработки дан-
ных, расчета коэффициента прироста информации и определения атрибутов разделения.
Система разработана в архитектуре B/S, а платформа управления проектом R&D, кото-
рый может выполнять анализ оценки эффективности с помощью инструментов визуали-
зации алгоритма дерева решений и динамических веб-страниц. Система включает в себя
хранение информации, управление задачами, формирование отчетов, контроль полномочий
и ролей, визуализацию информации и другие функциональные модули управленческой ин-
формационной системы. Они могут реализовать функции управления проектом, такие как
создание и управление проектом, поток задач, заполнение и управление информацией о
сотрудниках, создание системы оценки эффективности, создание отчетов различных
размеров, построение управления. Используя алгоритм дерева решений в качестве основ-
ной технологии, система получает научную надежную информацию об управлении проек-
тами с высокой точностью и реализует визуализацию данных, что может помочь пред-
приятиям создать хорошую систему управления в эпоху больших данных. Рассмотрены
управление задачами, формирование отчетов, контроль полномочий ролей, визуализация
информации и другие функциональные модули управленческой информационной системы -
АЛГОРИТМ ОБЕСПЕЧЕНИЯ ЗАЩИТЫ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ ОБЛАЧНОЙ МЕДИЦИНСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ
Л.К. Бабенко , А.С. Шумилин , Д.М. Алексеев2021-12-24Аннотация ▼Целью работы является разработка и реализация архитектуры облачной системы
хранения, систематизации и обработки результатов обследований (на примере ЭЭГ) и
алгоритма обеспечения защиты конфиденциальных данных на основе полностью гомо-
морфной криптосистемы. Объектом исследования являются технологии хранения, переда-
чи, обработки и защиты конфиденциальной информации в распределенных медицинских
информационных системах. Разработана архитектура облачной платформы распределен-
ного хранения, обработки, систематизации и защиты конфиденциальных данных (резуль-
татов медицинских обследований), позволяющая взаимодействовать с различными меди-
цинскими информационными системами и аппаратными средствами диагностики с целью
формирования больших данных. Разработан алгоритм обеспечения безопасности медицин-
ских данных, хранимых в облачной платформе в электронном виде, регистрируемых при
проведении обследований пациентов с целью расчета среднего значения для каждого из
ритмов мозговой активности (по результатам серии обследований за длительный период
времени) с использованием алгоритма полностью гомоморфного шифрования. На основе
результатов тестирования (анализ времени выполнения таких операций, как: шифрование,
дешифрование, сложение, умножение, отношение сигнал шум зашифрованного текста к
открытому тексту) из двух потенциальных претендентов на использование в качестве
алгоритмов полностью гомоморфного шифрования (схемы BFV и CKKS) выбран опти-
мальный алгоритм. В результате показано, что схема полностью гомоморфного шифро-
вания CKKS наиболее эффективна, особенно в условиях критичности требований к высо-
кому уровню безопасности конфиденциальных данных, чем обусловлен выбор данной схемы
для реализации предложенного в настоящей работе алгоритма. -
АЛГОРИТМ ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ МЕДИЦИНСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ХРАНЕНИЯ И ОБРАБОТКИ РЕЗУЛЬТАТОВ ОБСЛЕДОВАНИЙ
Л. К. Бабенко, А. С. Шумилин , Д. М. Алексеев2021-01-19Аннотация ▼Цели исследования состоят в разработке и оценке эффективности структуры облачной
платформы хранения, обработки и систематизации медицинских данных, определении метода
защиты, в частности, обеспечения конфиденциальности при передаче и хранении результатов
обследований. Для достижения поставленной цели решаются задачи анализа существующих
моделей информационных процессов и структур в предметной области, особенности средств
накопления и обработки медицинских данных, хранящихся в электронных информационных сис-
темах учёта пациентов, разрабатывается архитектура облачной платформы распределенного
хранения данных и алгоритм обеспечения безопасности медицинских данных, хранимых в облач-
ной платформе в электронном виде в форме исходных физиологических сигналов (ЭЭГ, ЭКГ,
ЭМГ, ЭОГ и т.д.), регистрируемых при проведении обследований пациентов; создается интегри-
руемая облачная платформа распределенного хранения, анализа и систематизации медицинских
данных и система обеспечения безопасности с использованием разработанного метода защиты;
анализируется эффективность предложенного алгоритма защиты конфиденциальной медицин-
ской информации в условиях интеграции в разработанную облачную платформу. Предлагаемый
способ защиты медицинской информационной системы подразумевает использование исходного
файла формата DICOM и впоследствии преобразованного изображения в формате PNG, кото-
рое подвергается алгоритму шифрования пикселей. Для шифрования изображения применяется
алгоритм на основе теории хаоса. Возможности систем хаоса позволяют значительно повы-
сить производительность. Иерархичное разделение потоков данных на уровни и стандартиза-
ция протоколов передачи данных, а также форматов их хранения позволяют сформировать
универсальную, гибкую и надежную медицинскую информационную систему. Предлагаемая ар-
хитектура имеет возможность интеграции в существующие медицинские системы. В ходе
работы установлено, что рассматриваемый метод защиты является эффективным способом
обеспечения конфиденциальности данных медицинской системы








