Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 8.
  • РАЗРАБОТКА ЧАТ-БОТА ДЛЯ КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

    Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю.А. Кравченко
    159-171
    2025-07-24
    Аннотация ▼

    Исследуются локальные большие языковые модели (Local large language models, Local LLM) и их применение в задачах классификации текста, а также проводится сравнение их производительности с традиционными методами. Статья предоставляет всесторонний обзор ряда ключевых локальных LLM, уделяя особое внимание их архитектурным преимуществам, характеристикам и областям применения. В частности, рассматриваются модели с различным количеством параметров, их способность адаптироваться к специализированным доменам, а также требования к вычислительным ресурсам при их развертывании на локальном оборудовании. Особый акцент делается на компромиссах между производительностью и эффективностью использования ресурсов. В качестве практического вклада разработан чат-бот, использующий локальные LLM (такие как DeepSeek, Gemma и Llama2 через Ollama) для классификации входящих текстов по заранее заданным категориям, демонстрируя работу этих моделей без использования облачных вычислений. Система реализована с модульной архитектурой, позволяющей легко интегрировать новые модели и сравнивать их эффективность. Вычислительный эксперимент включает оценку точности и скорости вывода локальных LLM в сравнении с более простыми методами, такими как Sentence-BERT, TF-IDF и BoWC, выделяя сценарии, в которых локальные модели превосходят традиционные подходы или уступают им. Тестирование проводилось на основе эталонного набора данных BBC. Результаты показывают, что языковые модели (включая модели с 7 миллиардами параметров) демонстрируют сильную и логически обоснованную классификационную производительность при обработке текстов на естественном языке, однако их результаты не являются идеальными для эталонных наборов данных. В частности, обнаружены случаи, когда все тестируемые модели, включая традиционные методы, ошибочно классифицировали документы, что указывает на возможные проблемы в разметке данных. Полученные результаты указывают на необходимость пересмотра эталонных меток в стандартных наборах данных. Это особенно важно для доменов с субъективными категориями, где экспертные оценки могут значительно расходиться. С другой стороны, хотя локальные LLM уступают облачным в скорости, их преимущества в конфиденциальности данных и оффлайн-работе делают их пригодными для специализированных задач.

  • ИДЕНТИФИКАЦИЯ КЛЮЧЕВЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ СБОРА И АНАЛИЗА ДАННЫХ ИЗ ОТКРЫТЫХ РУССКОЯЗЫЧНЫХ ИСТОЧНИКОВ

    А.Г. Бондаренко , А.Г. Кравец
    144-159
    2025-07-24
    Аннотация ▼

    Данная статья посвящена разработке и апробации нового подхода к сбору, обработке и анализу открытых данных на русском языке для идентификации ключевых технологических направлений. Для решения задачи формирования и последующего анализа структурированных датасетов разработаны и программно реализованы методы веб-скрейпинга, обработки естественного языка и анализа временных рядов. Описанный в статье подход впервые применен для извлечения и структурирования информации из научных статей, новостных ресурсов и патентной документации на русском языке. В результате анализа полученного датасета научных публикаций выделены 30 наиболее часто упоминаемых биграмм и столько же триграмм технологических терминов.
    На основе анализа частотности биграмм и триграмм выделены ключевые технологические термины, которые затем использованы для комплексной фильтрации по ключевым технологиям. Комплексная фильтрация позволила осуществить поиск русскоязычных патентов и их сбор для дальнейшего анализа. В результате предварительной обработки полученной патентной информации сформированы временные ряды патентной активности. Программная система идентификации ключевых технологий реализована на JavaScript и Python с использованием библиотек Selenium и BeautifulSoup для веб-скрейпинга, NLTK и Scikit-learn для обработки и анализа текстовых данных. Исследование динамики развития ключевых технологий во времени позволило выявить периоды интенсивной патентной деятельности и снижения интереса к той или иной технологии. Результаты, изложенные в статье, создают основу для дальнейшей разработки методов машинного обучения с целью прогнозирования технологического развития и выявления перспективных направлений прикладных исследований.

  • АНАЛИЗ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА, ПРИМЕНЯЕМЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ ПСИХИАТРИИ

    Е. С. Подоплелова
    2022-05-26
    Аннотация ▼

    Использование методов искусственного интеллекта в области медицины получило
    широкое распространение, помогая диагностировать, анализировать и давать рекоменда-
    ции по лечению. Психиатрия – это область медицины, изучающая психические расстрой-
    ства, методы их диагностики и лечения. В спектр ее задач входит не только диагностика
    и лечение, но также наблюдение, мониторинг и последующая реабилитация пациентов.
    Эта предметная область имеет существенные проблемы, такие как объективность, про-
    тиворечивость диагноза, сложность классификации болезней, непредсказуемость течения
    заболевания. С рядом этих проблем помогает справиться использование методов машин-
    ного обучения и алгоритмы искусственного интеллекта. Данная работа посвящена обзору
    исследований методов искусственного интеллекта, применяемых для решения задач в об-
    ласти психиатрии. Актуальность темы обусловлена высокой потребностью данной пред-
    метной области в улучшениях. Конкретные проблемы представлены в данной статье.
    Среди них были выделены основные направления: деидентификация данных, классификация
    тяжести симптомов, точность прогнозирования состояния. Для их решения авторами
    были применены такие методы как латентный семантический анализ для обработки ес-
    тественного языка, методы классификации, сверточные нейронные сети для прогнозиро-
    вания, когнитивное моделирование. Отдельно отмечена эффективность гибридных сис-
    тем, включающих реализацию сразу нескольких метолов машинного обучения. Целью ис-
    следования было выделить основные направления развития исследований научного сообще-
    ства, которые демонстрируют успешную интеграцию искусственного интеллекта в пси-
    хиатрию, а также сравнение их между собой по полученным оценкам точности моделей.
    Что, в свою очередь, подразумевает разбор и анализ конкретных алгоритмов, их произво-
    дительность для конкретных задач.

  • МЕТОДЫ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

    В. В. Курейчик , С. И. Родзин , В.В. Бова
    2022-05-26
    Аннотация ▼

    Представлен анализ подходов, основанных на глубоком обучении (DL), к задачам об-
    работки естественного языка (NLP). Исследование охватывает различные задачи NLP,
    реализованные с помощью искусственных нейронных сетей (ANNs), сверточных нейронных
    сетей (CNNs) и рекуррентных нейронных сетей (RNNs). Эти архитектуры позволяют ре-
    шать широкий спектр задач обработки естественного языка, ранее не поддававшихся
    эффективному решению: моделирование предложений, маркировка семантической роли,
    распознавание именованных сущностей, ответы на вопросы, категоризация текста, ма-
    шинный перевод. Наряду с преимуществами использования CNN для решения задач NLP
    имеются проблемы, связанные с большим числом варьируемых параметров сети и выбором
    ее архитектуры. Мы предлагаем для оптимизации архитектур сверточных нейронных
    сетей эволюционный алгоритм. Алгоритм инициализирует случайную популяцию из малого
    числа агентов (не более 5) и с помощью фитнесс функции получает оценки каждого агента
    в популяции. Затем проводится турнирная селекция между всеми агентами и применяется
    оператор кроссинговера между выбранными агентами. Алгоритм обладает таким пре-
    имуществом как малый размер популяции сетей, он использует несколько типов слоев
    CNN: сверточный слой, максимальный слой пулинга (субдискретизации), средний слой пу-
    линга и полносвязный слой. Алгоритм тестировался на локальном компьютере с графиче-
    ским процессором ASUS Cerberus GeForce ® GTX 1050 Ti OC Edition 4 ГБ GDDR5, 8 ГБ
    оперативной памяти и процессором Intel(R) Core(TM) i5-4670. Результаты экспериментов
    показали, что предлагаемый нейроэволюционный подход способен достаточно быстро
    найти оптимизированную архитектуру CNN для заданного набора данных с приемлемым
    значением точности. Для завершения выполнения алгоритма потребовалось около 1 часа.
    Для создания и обучения CNN был использован популярный фреймворк TensorFlow.
    Для оценки алгоритма использовались общедоступные наборы данных: MNIST и MNIST-RB.
    Наборы содержали черно-белые изображения рукописных букв и цифр с 50000 обучающими
    образцами и 10000 тестовыми образцами.

  • О ТОЧНОСТИ И ТРУДОЕМКОСТИ МНОГОЭТАПНОГО МЕТОДА КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ ИСКАЖЕНИЯ

    Д.В. Вахлаков , В. А. Пересыпкин , А.В. Германович , С.Ю. Мельников , Н.Н. Цопкало
    130-142
    2021-10-05
    Аннотация ▼

    Одним из основных факторов, существенно затрудняющих понимание, перевод и
    анализ текстов, полученных при автоматическом распознавании речи или изображений
    текстов, являются содержащиеся в них искажения в виде ошибочных символов, слов и
    словосочетаний. До недавнего времени не существовало эффективных программных
    средств коррекции текстов со значительными искажениями, хотя эта задача является
    актуальной как для русского, так и для других распространенных языков в условиях актив-
    ного использования систем распознавания в перспективных системах дополненной реаль-
    ности. Авторами был предложен новый многоэтапный метод коррекции искаженных тек-
    стов, значимо повышающий точность коррекции (количество правильно скорректирован-
    ных слов в тексте) и основанный на последовательном определении ошибок и их исправле-
    нии. В настоящей работе оцениваются точность и трудоемкость предложенного метода
    коррекции искаженных текстов при различных уровнях искажений, определяется его ме-
    сто среди других современных подходов к коррекции. Наиболее характерными ошибками
    систем распознавания являются: – замена слова на похожее по звучанию или графическому
    написанию; – замена нескольких слов на одно; – замена одного слова несколькими; – про-
    пуск слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате
    распознавания получается текст, имеющий искажения и состоящий, в основном, из сло-
    варных слов, в том числе и в местах искажений. При большом количестве искажений тек-
    сты становятся практически нечитаемыми. В связи с тем, что подобрать в необходимом
    количестве тексты с широким диапазоном уровней искажений по результатам реального
    машинного распознавания речи и изображений текстов представляется проблематичным,
    использовалось программное моделирование искажений. Предложена и программно реали-
    зована методика искажений текста, моделирующая результаты работы систем распо-
    знавания в широком диапазоне искажений, в необходимом количестве подготовлены иска-
    женные тексты. При работе предложенного многоэтапного метода коррекции искажен-
    ными считаются несловарные словоформы и словоформы, вероятность появления кото-
    рых в тексте в соответствии с выбранной вероятностной моделью текста меньше за-
    данного порога. Для них строится список возможных вариантов слов, в который попада-
    ют только те словоформы из словаря, которые находятся от исследуемого слова на опре-
    деленном расстоянии Левенштейна. Скорректированный текст из вариантов слов получа-
    ется в результате поиска наиболее вероятной цепочки словоформ. Метод коррекции со-
    стоит из нескольких этапов, на каждом этапе корректируются лишь те фрагменты тек-
    ста, которые остались искаженными после предыдущего этапа коррекции. По результа-
    там проведенных экспериментов по коррекции искаженных текстов сделан вывод, что
    предложенный метод коррекции показал хорошие результаты со средним значением
    1 F -меры >50 % в диапазоне искажений от 0 до 75 %. Эксперты-лингвисты подтвердили
    плодотворность предложенного подхода к коррекции и его предпочтительность по срав-
    нению с другими современными подходами, зафиксировав, что при количестве искажений <50 % скорректированный текст читается с гораздо меньшими усилиями, чем искаженный, а при количестве искажений до 70% слов скорректированный текст еще позволяет выделить полезную информацию о содержании текста

  • КОМПЛЕКС СРЕДСТВ ТРАНСЛЯЦИИ ПРОГРАММ НА ЯЗЫКЕ C В ПРОГРАММЫ НА ЯЗЫКЕ ПОТОКА ДАННЫХ COLAMO

    А. И. Дордопуло, A.A. Гуленок, А.В. Бовкун, И.И. Левин, В. А. Гудков, С.А. Дудко
    2021-02-25
    Аннотация ▼

    Рассматриваются программные средства трансляции последовательных программ
    на языке C в масштабируемые параллельно-конвейерные программы на языке программи-
    рования реконфигурируемых вычислительных систем COLAMO. В отличие от существую-
    щих средств высокоуровневого синтеза, результатом трансляции является не IP-ядро
    фрагмента задачи, а комплексное решение задачи для многокристальных реконфигурируе-
    мых вычислительных систем с автоматической синхронизацией информационных и управ-
    ляющих сигналов. Рассмотрены основные этапы трансляции последовательной программы
    на языке C: преобразование в информационный граф, анализ информационных зависимо-
    стей и выделение функциональных подграфов, преобразование в масштабируемую ресурсо-
    независимую параллельно-конвейерную форму и масштабирование программы на языке
    COLAMO для заданной многокристальной реконфигурируемой вычислительной системы.
    Масштабирование программы осуществляется с помощью методов редукции производи-
    тельности абсолютно-параллельной формы задачи – информационного графа, который
    адаптируется под архитектуру реконфигурируемой вычислительной системы. Разрабо-
    тан ряд правил, позволяющих существенно сократить число шагов преобразований при
    масштабировании задачи и обеспечить плотный поток обработки данных в функциональ-
    ных подграфах задачи. Созданный комплекс средств трансляции программ на языке C в
    конфигурационные файлы ПЛИС позволяет существенно сократить время синтеза вычис-
    лительной структуры задачи для многокристальных РВС и обеспечить сокращение общего
    времени решения задачи.

  • МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

    Д. В. Вахлаков, В.А. Пересыпкин, С. Ю. Мельников
    2021-02-25
    Аннотация ▼

    Одним из основных факторов, существенно затрудняющих понимание, перевод и
    анализ текстов, полученных при автоматическом распознавании речи или оптическом
    распознавании изображений текстов, являются содержащиеся в них искажения в виде
    ошибочных символов, слов и словосочетаний. Наиболее характерными ошибками систем
    распознавания являются: – замена слова на похожее по звучанию или графическому напи-
    санию; – замена нескольких слов на одно; – замена одного слова несколькими; – пропуск
    слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате рас-
    познавания получается текст, имеющий искажения и состоящий, в основном, из словарных
    слов, в том числе и в местах искажений. При большом количестве искажений тексты
    становятся практически нечитаемыми. Автоматическая обработка таких текстов весь-
    ма затруднительна, хотя эта задача является актуальной как для русского, так и для дру-
    гих распространенных языков. Программные средства коррекции, хорошо работающие при
    малых искажениях в тексте, в случае текстов с высоким уровнем искажений, вне зависи-
    мости от их происхождения, показывают неудовлетворительные результаты. Это дела-
    ет необходимым разработку самостоятельных подходов к коррекции искаженных тек-
    стов. Предложен новый многоэтапный метод коррекции искаженных текстов, основан-
    ный на последовательном определении ошибок и исправлении искаженных текстов. Иска-
    женными считаются несловарные словоформы и словоформы, вероятность появления
    которых в тексте в соответствии с выбранной вероятностной моделью меньше заданно-
    го порога. После установки признака искаженности для отдельных слов происходит рас-
    пространение этого признака на их сочетания, т.е. выделяются искаженные фрагменты
    текста. Для них строится список возможных вариантов слов, в который попадают толь-
    ко те словоформы из словаря, которые находятся от исследуемого слова на определенном
    расстоянии Левенштейна. Скорректированный текст из вариантов слов получается в
    результате поиска наиболее вероятной цепочки словоформ. Метод коррекции состоит из
    нескольких этапов, на каждом этапе корректируются лишь те фрагменты текста, кото-
    рые остались искаженными после предыдущего этапа коррекции. Метод позволяет за-
    метно повысить качество (точность) коррекции. В проведенных экспериментах качество
    коррекции в терминах F1-меры для средне искаженных текстов повысилось на 9 %, а для
    сильно искаженных текстов – на 7.7 %.

  • ПРЕДСТАВЛЕНИЕ ГРАФОВ С АССОЦИАТИВНЫМИ ОПЕРАЦИЯМИ НА ЯЗЫКЕ ПРОГРАММИРОВАНИЯ SET@L

    И.И. Левин , И. В. Писаренко, Д.В. Михайлов , А. И. Дордопуло
    2020-10-11
    Аннотация ▼

    Как правило, информационный граф с ассоциативными операциями реализуется в
    виде последовательной («голова/хвост») или параллельной («разбиение пополам») топ о-
    логии, причем обе структуры содержат одинаковое число операционных вершин. Реду к-
    ционные преобразования графов с представленными топологиями при недостатке в ы-
    числительного ресурса не обеспечивают создание эффективной ресурсонезависимой пр о-
    граммы: вариант «разбиение пополам» характеризуется нерегулярной межитерацион-
    ной коммутацией, а структура «голова/хвост» – увеличенной скважностью данных при
    редукции. В данной статье предлагается преобразовать топологию графа с ассоци а-
    тивными операциями в один из комбинированных вариантов с последовательными и па-
    раллельными фрагментами вычислений, синтезированный в соответствии с заданным
    вычислительным ресурсом. Это позволяет повысить удельную производительность в ы-
    числений при редукции. Модифицированная топология включает изоморфные подграфы с
    топологией «разбиение пополам», содержащие максимальное число аппаратно реализу е-
    мых операционных вершин, а обработка промежуточных данных осуществляется по
    принципу «голова/хвост». Вычислительная структура для рассмотренной топологии
    имеет минимальную латентность и состоит из одного базового подграфа и одной вер-
    шины, в которую редуцируется блок обработки промежуточных данных с топологией
    «голова/хвост». Разработан алгоритм, позволяющий в зависимости от доступного а п-
    паратного ресурса перейти от базового последовательного варианта реализации к раз-
    личным комбинированным топологиям вплоть до предельного случая топологии «разби е-
    ние пополам». Поскольку традиционные методы параллельного программирования могут
    описать множество топологий только в виде набора отдельных подпрограмм, для соз-
    дания ресурсонезависимого описания графов с ассоциативными операциями предлагае т-
    ся использовать язык архитектурно-независимого программирования Set@l. Принципы
    построения топологий «голова/хвост» и «разбиение пополам» описаны в виде признаковметода обработки множеств на языке Set@l, а ресурсонезависимая программа оперирует
    этими типами и типами параллелизма для модификации топологии графа и последующей
    редукции производительности в соответствующих аспектах программы.

1 - 8 из 8 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР