АЛГОРИТМ НА ОСНОВЕ ТРАНСФОРМЕРОВ ДЛЯ КЛАССИФИКАЦИИ ДЛИННЫХ ТЕКСТОВ

Авторы

  • Али Махмуд Мансур Южный федеральный университет image/svg+xml

Ключевые слова:

Классификация документов, BERT, трансформеры, механизм внимания, Sentence BERT, TF-IDF, интеллектуальный анализ текста

Аннотация

Статья посвящена актуальной проблеме представления и классификации длинных тексто-
вых документов с использованием трансформеров. Методы представления текста, основанные
на трансформерах, не могут эффективно обрабатывать длинные последовательности из-за их
процесса самовнимания, который масштабируется квадратично с длиной последовательности.
Это ограничение приводит к высокой вычислительной сложности и невозможности применения
таких моделей для обработки длинных документов. Для устранения этого недостатка, в статье
разработан алгоритм на основе трансформера SBERT, который позволяет построить векторное
представление длинных текстовых документов. Ключевая идея алгоритма заключается в приме-
нении двух различных процедур к созданию векторного представления: первая основана на сегмен-
тации текста и усреднении векторов сегментов, а вторая – на конкатенации векторов сегмен-
тов. Такая комбинация процедур позволяет сохранить важную информацию из длинных докумен-
тов. Для проверки эффективности алгоритма был проведен вычислительный эксперимент на
группе классификаторов, построенных на основе предложенного алгоритма, и группе известных
методов векторизации текста, таких как TF-IDF, LSA и BoWC. Результаты вычислительного
эксперимента показали, что классификаторы на основе трансформеров в целом достигают луч-
ших результатов по точности классификации по сравнению с классическими методами. Однако,
это преимущество достигается за счет более высокой вычислительной сложности и, соответ-
ственно, более длительного времени обучения и применения таких моделей. С другой стороны,
классические методы векторизации текста, такие как TF-IDF, LSA и BoWC, продемонстрировали
более высокую скорость работы, что делает их более предпочтительными в случаях, когда пред-
варительное кодирование не допускается и требуется работа в режиме реального времени. Пред-
ложенный алгоритм обработки и представления длинных документов доказал свою высокую эф-
фективность и привел к увеличению точности классификации набора данных BBC на 0,5% по
критерию F1.

Библиографические ссылки

Загрузки

Опубликован

2024-08-12

Выпуск

Раздел

РАЗДЕЛ II. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ