МЕТОДЫ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Авторы

  • В. В. Курейчик Южный федеральный университет image/svg+xml
  • С. И. Родзин Южный федеральный университет image/svg+xml
  • В.В. Бова Южный федеральный университет image/svg+xml

Ключевые слова:

Глубокое обучение, обработка естественного языка, нейронные сети, сверточные нейронные сети, рекурсивные нейронные сети, обучение представлению

Аннотация

Представлен анализ подходов, основанных на глубоком обучении (DL), к задачам об-
работки естественного языка (NLP). Исследование охватывает различные задачи NLP,
реализованные с помощью искусственных нейронных сетей (ANNs), сверточных нейронных
сетей (CNNs) и рекуррентных нейронных сетей (RNNs). Эти архитектуры позволяют ре-
шать широкий спектр задач обработки естественного языка, ранее не поддававшихся
эффективному решению: моделирование предложений, маркировка семантической роли,
распознавание именованных сущностей, ответы на вопросы, категоризация текста, ма-
шинный перевод. Наряду с преимуществами использования CNN для решения задач NLP
имеются проблемы, связанные с большим числом варьируемых параметров сети и выбором
ее архитектуры. Мы предлагаем для оптимизации архитектур сверточных нейронных
сетей эволюционный алгоритм. Алгоритм инициализирует случайную популяцию из малого
числа агентов (не более 5) и с помощью фитнесс функции получает оценки каждого агента
в популяции. Затем проводится турнирная селекция между всеми агентами и применяется
оператор кроссинговера между выбранными агентами. Алгоритм обладает таким пре-
имуществом как малый размер популяции сетей, он использует несколько типов слоев
CNN: сверточный слой, максимальный слой пулинга (субдискретизации), средний слой пу-
линга и полносвязный слой. Алгоритм тестировался на локальном компьютере с графиче-
ским процессором ASUS Cerberus GeForce ® GTX 1050 Ti OC Edition 4 ГБ GDDR5, 8 ГБ
оперативной памяти и процессором Intel(R) Core(TM) i5-4670. Результаты экспериментов
показали, что предлагаемый нейроэволюционный подход способен достаточно быстро
найти оптимизированную архитектуру CNN для заданного набора данных с приемлемым
значением точности. Для завершения выполнения алгоритма потребовалось около 1 часа.
Для создания и обучения CNN был использован популярный фреймворк TensorFlow.
Для оценки алгоритма использовались общедоступные наборы данных: MNIST и MNIST-RB.
Наборы содержали черно-белые изображения рукописных букв и цифр с 50000 обучающими
образцами и 10000 тестовыми образцами.

Библиографические ссылки

Загрузки

Опубликован

2022-05-26

Выпуск

Раздел

РАЗДЕЛ III. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ