Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 4.
  • ИДЕНТИФИКАЦИЯ КЛЮЧЕВЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ СБОРА И АНАЛИЗА ДАННЫХ ИЗ ОТКРЫТЫХ РУССКОЯЗЫЧНЫХ ИСТОЧНИКОВ

    А.Г. Бондаренко , А.Г. Кравец
    144-159
    2025-07-24
    Аннотация ▼

    Данная статья посвящена разработке и апробации нового подхода к сбору, обработке и анализу открытых данных на русском языке для идентификации ключевых технологических направлений. Для решения задачи формирования и последующего анализа структурированных датасетов разработаны и программно реализованы методы веб-скрейпинга, обработки естественного языка и анализа временных рядов. Описанный в статье подход впервые применен для извлечения и структурирования информации из научных статей, новостных ресурсов и патентной документации на русском языке. В результате анализа полученного датасета научных публикаций выделены 30 наиболее часто упоминаемых биграмм и столько же триграмм технологических терминов.
    На основе анализа частотности биграмм и триграмм выделены ключевые технологические термины, которые затем использованы для комплексной фильтрации по ключевым технологиям. Комплексная фильтрация позволила осуществить поиск русскоязычных патентов и их сбор для дальнейшего анализа. В результате предварительной обработки полученной патентной информации сформированы временные ряды патентной активности. Программная система идентификации ключевых технологий реализована на JavaScript и Python с использованием библиотек Selenium и BeautifulSoup для веб-скрейпинга, NLTK и Scikit-learn для обработки и анализа текстовых данных. Исследование динамики развития ключевых технологий во времени позволило выявить периоды интенсивной патентной деятельности и снижения интереса к той или иной технологии. Результаты, изложенные в статье, создают основу для дальнейшей разработки методов машинного обучения с целью прогнозирования технологического развития и выявления перспективных направлений прикладных исследований.

  • МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)

    В.В. Бова , Ю.А. Кравченко , С.И. Родзин
    2022-11-01
    Аннотация ▼

    Рассматривается одна из важных задач искусственного интеллекта – машинная об-
    работка естественного языка. Решение данной задачи на основе кластерного анализа по-
    зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
    экспертной информации в условиях информационной неопределенности и слабой структу-
    рированности исходных текстовых ресурсов, полученных из различных предметных облас-
    тей. Кластерный анализ является мощным средством разведочного анализа текстовых
    данных, позволяющий провести объективную классификацию любых объектов, которые
    охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
    анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
    ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
    го преобразования, используемых на различных этапах кластеризации текстовых данных,
    эффективность которых проверяется экспериментальными исследованиями. В работе
    обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
    шения задачи повышения эффективности интеллектуальной обработки лингвистической
    экспертной информации. Также в работе рассмотрены способы визуализации результатов
    кластеризации для интерпретации кластерной структуры и зависимостей на множестве
    элементов текстовых данных и графические средства их представления в виде дендо-
    грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
    ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
    тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
    ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
    начального выбора числа кластеров и распределения их центров использовать иерархиче-
    ский подход, основанный на последовательном объединении и максимизации близости дан-
    ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
    личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
    чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
    сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
    ции. Результаты исследований показали, что для повышения вычислительной эффективно-
    сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
    ризации для оптимизации параметров модели обучения и поиска глобального оптимального
    решения необходимо использовать метаэвристические подходы.

  • ИММУНОЛОГИЧЕСКАЯ МОДЕЛЬ ТЕКСТОНЕЗАВИСИМОЙ ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ

    Ю. А. Брюхомицкий
    6-13
    2022-05-26
    Аннотация ▼

    Предлагается иммунологическая модель клональной селекции с положительным от-
    бором, которая основана на принципах массово-параллельной обработки данных, наблю-
    даемых в искусственной иммунной системе. Модель предназначена для текстонезависимой
    идентификации личности по голосу. В отличие от известных парольных систем иденти-
    фикации голоса, предлагаемая модель реализует децентрализованное распознавание голо-
    совых данных путем их сопоставления с детекторами, моделирующими иммунокомпе-
    тентные клетки иммунной системы. Исходные голосовые признаки формируются в линей-
    ном предсказателе речи и представляются кепстральными коэффициентами. Последова-
    тельность кепстральных коэффициентов расчленяется далее на равные временные участ-
    ки – морфемы, представляющие собой абстрактные языковые единицы, объединяющие
    фонемы. Морфемы несут индивидуальную окраску воспроизводимых голосом последова-
    тельных временных участков речи, что позволяет продуктивно использовать их в качест-
    ве идентификационных признаков голоса. Сопоставление голосовых морфем с детектора-
    ми осуществляется по принципу позитивной селекции на основе меры близости Евклида.
    Принятие моделью идентификационного решения «свой-чужой» реализуется на основе
    статистического подхода по частоте срабатывания детекторов. Предлагаемая модель
    реализует идентификацию личности говорящего в темпе поступления его голосовых дан-
    ных. При этом идентификация личности инвариантна языку, объему и содержанию речи.
    Преимущество модели – полная защищенность от атак воспроизведения. Эффективная
    реализация модели, точность и скорость идентификации обусловлены возможностью
    организации высокоскоростного анализа больших объемов голосовых данных, что в пер-
    спективе согласуется с темпами разработки и применения вычислительных систем высо-
    кой производительности.

  • СЕМАНТИКО-СТАТИСТИЧЕСКИЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ КАТЕГОРИЙ АСПЕКТОВ В ЗАДАЧАХ СЕНТИМЕНТ-АНАЛИЗА

    А.О. Корней, Е.Н. Крючкова
    2021-02-13
    Аннотация ▼

    В современном мире одним из ключевых каналов коммуникации является Интернет.
    Через электронные площадки осуществляется торговля, продвижение услуг. Социальные
    сети и мессенджеры становятся важнейшим каналом общения и мощным инструментом
    воздействия на общественное мнение. Весомую долю во всем публикуемом контенте зани-
    мают тексты, написанные на естественном языке. Поэтому проблемы обработки и по-
    нимания естественных языков (ЕЯ) на сегодняшний день являются одними из ключевых.
    Под влиянием коммерческих интересов активно развивается область автоматического
    анализа тональности на основе аспектов. Данная задача существенно зависит от кон-
    кретных предметных областей, и поэтому вопрос быстрой и эффективной адаптации
    существующих моделей к новым доменам стоит весьма остро. В работе предлагается
    гибридный метод аспектно-ориентированного анализа тональности текстов, основанный
    на данных, извлеченных как из общеупотребительных словарей, так и из домен-
    ориентированных текстов. Предложен метод построения конденсированного семантиче-
    ского графа на основе неструктурированных домен-зависимых текстов. Введены числен-
    ные метрики, позволяющие оценивать значимость отдельных терминов в пределе всего
    домена. Предложен алгоритм категоризации текстов, основанный на выделении семанти-
    ческих кластеров в пределах конденсированного домен-специфического графа. Предложен
    метод оценки тональности домен-ориентированных текстов, основанный на статисти-
    ческих данных, включая совместное использования тонального словаря и сконденсирован-
    ного домен-специализированного графа. Приведены результаты экспериментов, позволяю-
    щие оценить качество работы алгоритмов.

1 - 4 из 4 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР