Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 2.
  • РАЗРАБОТКА ЧАТ-БОТА ДЛЯ КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

    Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю.А. Кравченко
    159-171
    2025-07-24
    Аннотация ▼

    Исследуются локальные большие языковые модели (Local large language models, Local LLM) и их применение в задачах классификации текста, а также проводится сравнение их производительности с традиционными методами. Статья предоставляет всесторонний обзор ряда ключевых локальных LLM, уделяя особое внимание их архитектурным преимуществам, характеристикам и областям применения. В частности, рассматриваются модели с различным количеством параметров, их способность адаптироваться к специализированным доменам, а также требования к вычислительным ресурсам при их развертывании на локальном оборудовании. Особый акцент делается на компромиссах между производительностью и эффективностью использования ресурсов. В качестве практического вклада разработан чат-бот, использующий локальные LLM (такие как DeepSeek, Gemma и Llama2 через Ollama) для классификации входящих текстов по заранее заданным категориям, демонстрируя работу этих моделей без использования облачных вычислений. Система реализована с модульной архитектурой, позволяющей легко интегрировать новые модели и сравнивать их эффективность. Вычислительный эксперимент включает оценку точности и скорости вывода локальных LLM в сравнении с более простыми методами, такими как Sentence-BERT, TF-IDF и BoWC, выделяя сценарии, в которых локальные модели превосходят традиционные подходы или уступают им. Тестирование проводилось на основе эталонного набора данных BBC. Результаты показывают, что языковые модели (включая модели с 7 миллиардами параметров) демонстрируют сильную и логически обоснованную классификационную производительность при обработке текстов на естественном языке, однако их результаты не являются идеальными для эталонных наборов данных. В частности, обнаружены случаи, когда все тестируемые модели, включая традиционные методы, ошибочно классифицировали документы, что указывает на возможные проблемы в разметке данных. Полученные результаты указывают на необходимость пересмотра эталонных меток в стандартных наборах данных. Это особенно важно для доменов с субъективными категориями, где экспертные оценки могут значительно расходиться. С другой стороны, хотя локальные LLM уступают облачным в скорости, их преимущества в конфиденциальности данных и оффлайн-работе делают их пригодными для специализированных задач.

  • ИЗВЛЕЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ КОРТЕЖЕЙ ИЗ ТЕКСТА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ СИНТЕТИЧЕСКИХ ДАННЫХ

    А.Н. Целых , И. А. Валухов , Л.А. Целых
    2025-01-30
    Аннотация ▼

    Рассматривается проблема разработки модели извлечения полных причинных кортежей из
    неструктурированных текстов для представления ситуаций принятий решений в сложных социо-
    гуманитарных средах. Совокупность извлекаемых кортежей из определенного набора текстов
    представляет собой связанные сущности конкретной среды, что позволяет создать причинно-
    следственные графы. В этой статье предлагается модель извлечения причинно-следственных
    связей с использованием предобученной модели BERT с дообучением на основе дополнительных
    признаков. Для уточнения причинной классификации модель использует два вида признаков (кау-
    зальность глаголов и метрики качества причинного влияния) для распознавания причинного кор-
    тежа, автоматически изучает семантические признаки из предложений, повышая точность из-
    влечения. Предварительная обработка текста осуществляется с помощью библиотеки SpaCy с
    открытым исходным кодом. Извлеченные причинно-следственные кортежи в формате <фраза
    причины, фраза глагола, фраза следствия, полярность> легко трансформируется в соответст-
    вующие элементы графа <исходящий узел, направление связи, входящий узел, знак веса связи> и
    далее могут быть использованы для построения направленного взвешенного знакового графа с
    детерминированной причинностью на дугах. В целях снижения зависимости от внешних знаний
    для дообучения и тестирования модели BERT используются синтетически сгенерированные анно-
    тированые наборы данных. Экспериментальные результаты показывают, что точность извлече-
    ния причинно-следственных связей на синтетических данных достигает 94%, а значение
    F1 – 95%. Преимуществами представленного технологического решения является то, что модель
    не требует высоких эксплуатационных затрат, реализована на компьютере со стандартными
    характеристиками, использует свободное программное обеспечение, что делает ее доступной для
    широкого круга пользователей. Ожидается, что предложенная модель может быть использована
    для автоматизации анализа текстов и поддержки принятия решений в условиях высокой неопре-
    деленности, что особенно актуально для социогуманитарных сред.

1 - 2 из 2 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР