МОДИФИЦИРОВАННЫЙ МЕТОД УСТРАНЕНИЯ НЕОДНОЗНАЧНОСТИ СМЫСЛА СЛОВ, ОСНОВАННЫЙ НА МЕТОДАХ РАСПРЕДЕЛЕННОГО ПРЕДСТАВЛЕНИЯ

Авторы

  • Ю.А. Кравченко Южный федеральный университет image/svg+xml
  • Мансур Али Махмуд Южный федеральный университет image/svg+xml
  • Мохаммад Жуман Хуссайн Южный федеральный университет image/svg+xml

Ключевые слова:

Устранение неоднозначности слов, WSD, semEval, WordNet;, сходство текста, интеллектуальный анализ текста

Аннотация

В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. В
этой статье предлагается модифицированный метод устранения неоднозначности слов
(WSD), который, по сути, имитирует хорошо известный вариант подхода Леска WSD. Для
выбранного слова и его контекста алгоритм Леска проводит свои вычисления на основе
проверки совпадений контекста слова и каждого определения его смыслов (глосс), для того
чтобы выбрать правильное значение. Основным преимуществом данного метода является
применение концепции сходства между определением и контекстом вместо «перекры-
тия», для каждого смысла целевого слова в дополнение к расширению определения приме-
рами предоставленными WordNet. Предлагаемый метод также характеризуется исполь-
зованием функций измерения схожести текстов, определенных в распределенном семан-
тическом пространстве. Предлагаемый метод протестирован на пяти различных наборах
эталонных данных для задачи устранения неоднозначности смысла слов и сравнивался с
несколькими базовыми методами, включая Lesk, расширенный Lesk, WordNet 1st sense,
Babelfy и UKB. Результаты показывают, что предлагаемый метод превосходит большин-
ство известных аналогов, за исключением методов Babelfy и WN 1st sense.

Библиографические ссылки

Загрузки

Опубликован

2021-08-11

Выпуск

Раздел

РАЗДЕЛ I. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ