Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 2.
  • ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

    Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко
    2021-07-18
    Аннотация ▼

    В задачах интеллектуального анализа текста текстовое представление должно
    быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
    операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
    диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
    и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
    мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
    ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
    тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
    тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
    BoWC, который представляет документ в соответствии с содержащейся в нем ин-
    формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
    зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
    ние документа, предлагается модифицированная весовая функция для взвешивания кон-
    цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
    нерированные с помощью предложенного метода, характеризуются интерпретируемо-
    стью, низкой размерностью, высокой точностью, а также низкими вычислительными
    затратами при использовании в задачах классификации и кластеризации. Предлагаемый
    метод протестирован на пяти различных наборах эталонных данных для кластеризации и
    классификации текстовых документов и сравнивается с несколькими базовыми методами,
    включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
    зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
    лучшую точность.

  • ПРИМЕНЕНИЕ ДИСТРИБУТИВНОЙ СЕМАНТИКИ ПРИ ВЫДЕЛЕНИИ ЗНАЧИМЫХ СОЧЕТАНИЙ ЗАГОЛОВКОВ НЕСКОЛЬКИХ КОЛЛЕКЦИЙ ТЕКСТОВ ПРИ ФОРМАЛИЗАЦИИ ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ

    В.И. Данильченко , В. М. Курейчик
    2022-08-09
    Аннотация ▼

    Рассматриваются методы формирования специальных моделей представления раз-
    личных наборов знаний в различных информационных системах. Работа посвящена приме-
    нению дистрибутивной семантики при выделении значимых сочетаний в одной предмет-
    ной области (ПрО) в рамках формализации лингвистической экспертной информации
    (ЛЭИ). В работе применяется подход к формализации ЛЭИ на основе набора аналитиче-
    ских методов, где в качестве моделей используется линейная алгебра. Такой подход даетархитектур ЛЭИ или дендрограмм при выделении значимых сочетаний заголовков несколь-
    ких коллекций текстов. Научная новизна заключается в предложенном аналитическом
    подходе с применением дистрибутивной семантики при выделении значимых сочетаний
    заголовков нескольких коллекций текстов, который позволяет проводить анализ и обра-
    ботку лингвистической экспертной информации. Отличительной характеристикой пред-
    ложенного подхода является возможность формализовать ПрО «Методы глобальной оп-
    тимизации» на основе синтеза различных уже существующих иерархий рассматриваемой
    ПрО. В работе преследуется задача создать условия для формализации ЛЭИ путем приме-
    нения дистрибутивной семантики при выделении значимых сочетаний заголовков несколь-
    ких коллекций. Практическая ценность работы заключается в разработке нового подхода
    в формализации ЛЭИ с учетом дистрибутивной семантики при выделении значимых соче-
    таний заголовков нескольких коллекций текстов. Так же в работе построена онтология в
    owl формате «Методы глобальной оптимизации» в программе «Protege». Онтология по-
    строена на основе связанных данных ПрО. Построенная в данной работе онтология, до-
    полняет структуру поиска в рамках рассматриваемой ПрО и может быть дополнена и
    развита в дальнейшем.

1 - 2 из 2 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР