Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 6.
  • МОДИФИЦИРОВАННЫЙ МЕТОД УСТРАНЕНИЯ НЕОДНОЗНАЧНОСТИ СМЫСЛА СЛОВ, ОСНОВАННЫЙ НА МЕТОДАХ РАСПРЕДЕЛЕННОГО ПРЕДСТАВЛЕНИЯ

    Ю.А. Кравченко , Мансур Али Махмуд, Мохаммад Жуман Хуссайн
    2021-08-11
    Аннотация ▼

    В задачах интеллектуального анализа текста текстовое представление должно
    быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
    операционную логику, лежащую в основе моделей интеллектуального анализа данных. В
    этой статье предлагается модифицированный метод устранения неоднозначности слов
    (WSD), который, по сути, имитирует хорошо известный вариант подхода Леска WSD. Для
    выбранного слова и его контекста алгоритм Леска проводит свои вычисления на основе
    проверки совпадений контекста слова и каждого определения его смыслов (глосс), для того
    чтобы выбрать правильное значение. Основным преимуществом данного метода является
    применение концепции сходства между определением и контекстом вместо «перекры-
    тия», для каждого смысла целевого слова в дополнение к расширению определения приме-
    рами предоставленными WordNet. Предлагаемый метод также характеризуется исполь-
    зованием функций измерения схожести текстов, определенных в распределенном семан-
    тическом пространстве. Предлагаемый метод протестирован на пяти различных наборах
    эталонных данных для задачи устранения неоднозначности смысла слов и сравнивался с
    несколькими базовыми методами, включая Lesk, расширенный Lesk, WordNet 1st sense,
    Babelfy и UKB. Результаты показывают, что предлагаемый метод превосходит большин-
    ство известных аналогов, за исключением методов Babelfy и WN 1st sense.

  • РАЗРАБОТКА ЧАТ-БОТА ДЛЯ КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

    Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю.А. Кравченко
    159-171
    2025-07-24
    Аннотация ▼

    Исследуются локальные большие языковые модели (Local large language models, Local LLM) и их применение в задачах классификации текста, а также проводится сравнение их производительности с традиционными методами. Статья предоставляет всесторонний обзор ряда ключевых локальных LLM, уделяя особое внимание их архитектурным преимуществам, характеристикам и областям применения. В частности, рассматриваются модели с различным количеством параметров, их способность адаптироваться к специализированным доменам, а также требования к вычислительным ресурсам при их развертывании на локальном оборудовании. Особый акцент делается на компромиссах между производительностью и эффективностью использования ресурсов. В качестве практического вклада разработан чат-бот, использующий локальные LLM (такие как DeepSeek, Gemma и Llama2 через Ollama) для классификации входящих текстов по заранее заданным категориям, демонстрируя работу этих моделей без использования облачных вычислений. Система реализована с модульной архитектурой, позволяющей легко интегрировать новые модели и сравнивать их эффективность. Вычислительный эксперимент включает оценку точности и скорости вывода локальных LLM в сравнении с более простыми методами, такими как Sentence-BERT, TF-IDF и BoWC, выделяя сценарии, в которых локальные модели превосходят традиционные подходы или уступают им. Тестирование проводилось на основе эталонного набора данных BBC. Результаты показывают, что языковые модели (включая модели с 7 миллиардами параметров) демонстрируют сильную и логически обоснованную классификационную производительность при обработке текстов на естественном языке, однако их результаты не являются идеальными для эталонных наборов данных. В частности, обнаружены случаи, когда все тестируемые модели, включая традиционные методы, ошибочно классифицировали документы, что указывает на возможные проблемы в разметке данных. Полученные результаты указывают на необходимость пересмотра эталонных меток в стандартных наборах данных. Это особенно важно для доменов с субъективными категориями, где экспертные оценки могут значительно расходиться. С другой стороны, хотя локальные LLM уступают облачным в скорости, их преимущества в конфиденциальности данных и оффлайн-работе делают их пригодными для специализированных задач.

  • АЛГОРИТМ НА ОСНОВЕ ТРАНСФОРМЕРОВ ДЛЯ КЛАССИФИКАЦИИ ДЛИННЫХ ТЕКСТОВ

    Али Махмуд Мансур
    2024-08-12
    Аннотация ▼

    Статья посвящена актуальной проблеме представления и классификации длинных тексто-
    вых документов с использованием трансформеров. Методы представления текста, основанные
    на трансформерах, не могут эффективно обрабатывать длинные последовательности из-за их
    процесса самовнимания, который масштабируется квадратично с длиной последовательности.
    Это ограничение приводит к высокой вычислительной сложности и невозможности применения
    таких моделей для обработки длинных документов. Для устранения этого недостатка, в статье
    разработан алгоритм на основе трансформера SBERT, который позволяет построить векторное
    представление длинных текстовых документов. Ключевая идея алгоритма заключается в приме-
    нении двух различных процедур к созданию векторного представления: первая основана на сегмен-
    тации текста и усреднении векторов сегментов, а вторая – на конкатенации векторов сегмен-
    тов. Такая комбинация процедур позволяет сохранить важную информацию из длинных докумен-
    тов. Для проверки эффективности алгоритма был проведен вычислительный эксперимент на
    группе классификаторов, построенных на основе предложенного алгоритма, и группе известных
    методов векторизации текста, таких как TF-IDF, LSA и BoWC. Результаты вычислительного
    эксперимента показали, что классификаторы на основе трансформеров в целом достигают луч-
    ших результатов по точности классификации по сравнению с классическими методами. Однако,
    это преимущество достигается за счет более высокой вычислительной сложности и, соответ-
    ственно, более длительного времени обучения и применения таких моделей. С другой стороны,
    классические методы векторизации текста, такие как TF-IDF, LSA и BoWC, продемонстрировали
    более высокую скорость работы, что делает их более предпочтительными в случаях, когда пред-
    варительное кодирование не допускается и требуется работа в режиме реального времени. Пред-
    ложенный алгоритм обработки и представления длинных документов доказал свою высокую эф-
    фективность и привел к увеличению точности классификации набора данных BBC на 0,5% по
    критерию F1.

  • АНАЛИЗ ВОСХОДЯЩЕГО ЛАЗЕРНОГО КАНАЛА СПУТНИКОВОЙ КОММУНИКАЦИИ В УСЛОВИЯХ АТМОСФЕРНОЙ ТУРБУЛЕНТНОСТИ

    Х.А.М. Махмуд , К. Е. Румянцев , А. Х. Ш. Аль-Бегат
    2023-10-23
    Аннотация ▼

    По сравнению с традиционной спутниковой радиосвязью методы лазерной связи де-
    монстрируют более высокую производительность с точки зрения доступных скоростей
    передачи данных, а также гарантируют снижение массогабаритных показателей, умень-
    шение веса и мощности аппаратуры на летательном аппарате. В системе спутниковой
    связи лазерный передатчик генерирует узкий пучок модулированного излучения. Лазерный
    луч, распространяющийся в атмосфере по направлению к оптическому приемнику, может
    испытывать значительные случайные флуктуации оптической интенсивности из-за тур-
    булентности, что приводит к потере мощности и ухудшению характеристик системы.
    В системе с мультиплексированием поднесущих (SCM) несколько несущих информацию
    радиосигналов электрически модулируются на разных поднесущих радиочастотах. Анало-
    говые или цифровые сигналы, несущие информацию, могут иметь различные форматы
    модуляции. Высокая устойчивость к воздействию турбулентности атмосферы достига-
    ется с помощью однополосной модуляции. Оптическое излучение с одной боковой полосой
    (OSSB) обычно генерируется с использованием модулятора Маха-Цендера (MZM) с двумя плечами. В статье проанализирован канала спутниковой связи в условиях атмосферной тур-
    булентности, где однополосное оптическое излучение с модулировано радиосигналом на под-
    несущей частоте с квадратурной фазовой манипуляцией. Разработана модель канала связи,
    учитывающая как атмосферную турбулентность, так и основные параметры передающей и
    приёмной станций. Численные результаты, представленные в исследовании лазерной спут-
    никовой связи, основаны на атмосферной высотной модели структурной характеристики
    флуктуаций показателя преломления Хафнагеля-Валли. Проведенный анализ позволяет оце-
    нить влияние на принимаемую мощность оптического излучения атмосферной турбулентно-
    сти, ошибки наведения и диаметра приёмной апертуры телескопов при передаче лазерного
    сигнала между наземной станцией и спутником для системы лазерной связи.

  • ФОРМИРОВАНИЕ ОДНОПОЛОСНОЙ КВАДРАТУРНОЙ ФАЗОВОЙ МАНИПУЛЯЦИИ РАДИОСИГНАЛОВ НА ПОДНЕСУЩИХ ЧАСТОТАХ В КОГЕРЕНТНОЙ ОПТИЧЕСКОЙ СИСТЕМЕ КОММУНИКАЦИИ

    А.М. Махмуд Хуссейн , К. Е. Румянцев
    2023-02-17
    Аннотация ▼

    Технология когерентной оптической связи позволяет создать систему передачи на
    большие расстояния с высокой пропускной способностью. Такие форматы модуляции, как
    квадратурная фазовая манипуляция (QPSK), обеспечивают высокую скорость передачи
    данных простым, надежным и экономичным способом. Эти методы модуляции, исполь-
    зующие несколько битов, передаются как символ, реализующий простые синфазные и
    квадратурные (IQ) форматы модуляции. Для увеличения пропускной способности в коге-
    рентных оптических системах используется мультиплексирование оптических поднесу-
    щих, когда несколько радиосигналов трансформируются одной оптической несущей. Это
    мультиплексирование имеет ограничения из-за двойной боковой полосы, что приводит к
    снижению мощности принимаемой поднесущей и ухудшает отношение сигнала несущей
    частоты к шуму. Чтобы аккумулировать эти эффекты, предлагается много различных способов реализации оптической однополосной модуляции (OSSB). В статье предложен
    анализ системы когерентной оптической передачи для генерации QPSK-манипуляции с
    одной боковой полосой с использованием оптического I/Q-модулятора и М-ричной радио-
    частоты формирования импульса. Генератор псевдослучайных битовых последовательно-
    стей генерирует модулирующий сигнал модуляции со скоростью передачи 10 Гбит/с. Каж-
    дая битовая последовательность преобразуется в М-ричную последовательность символов
    из двоичных сигналов с использованием фазовой манипуляции (PSK). Генератор М-ичных
    формирует многоуровневое импульса в соответствии с последовательностью М-ичных
    входных символов. Электрические импульсы подаются на электроды электрооптического
    модулятора по схеме интерферометра Маха–Цендера (MZM). Точки смещения постоянно-
    го тока модулятора MZM находятся в квадратурной рабочей точке с коэффициентом
    ослабления 60 дБ и напряжением переключения 3 В. Оптическая волна излучается лазером
    непрерывного действия с длиной волны, равной 1550 нм.

  • ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

    Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко
    2021-07-18
    Аннотация ▼

    В задачах интеллектуального анализа текста текстовое представление должно
    быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
    операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
    диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
    и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
    мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
    ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
    тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
    тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
    BoWC, который представляет документ в соответствии с содержащейся в нем ин-
    формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
    зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
    ние документа, предлагается модифицированная весовая функция для взвешивания кон-
    цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
    нерированные с помощью предложенного метода, характеризуются интерпретируемо-
    стью, низкой размерностью, высокой точностью, а также низкими вычислительными
    затратами при использовании в задачах классификации и кластеризации. Предлагаемый
    метод протестирован на пяти различных наборах эталонных данных для кластеризации и
    классификации текстовых документов и сравнивается с несколькими базовыми методами,
    включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
    зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
    лучшую точность.

1 - 6 из 6 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР