Найти
Результаты поиска
-
СТАТИСТИЧЕСКИЕ И МАШИННЫЕ МЕТОДЫ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ ИЗ ТЕКСТА (ОБЗОР)
Х.Б. Штанчаев2024-01-05Аннотация ▼Для решения задачи автоматического извлечения причинно-следственных связей
(ПСС) до 2000-х годов использовалась концепция нестатистических методов. Данные ме-
тоды использовали построенные вручную лингвистические шаблоны. Очевидно, что ПСС,
которые не подходили в построенные шаблоны, могли быть не определены. Нестатисти-
ческие методы требовали постоянного ручного контроля со стороны экспертов, вплоть
до оценки. Практически все методы были направлены на извлечение явных ПСС.
В некоторых методах были использованы попытки отвязать систему извлечения от кон-
кретной предметной области. Для исключения вышеупомянутых недостатков, разраба-
тываемые в дальнейшем методы начали смещаться в сторону обработки статистиче-
ских данных и машинного обучения. Был проанализирован целый ряд ценных работ, связан-
ных с новой парадигмой извлечения ПСС. Целью исследования было оценить новые методы
с возможностью выявить их преимущества и недостатки. Большим преимуществом ма-
шинных и статистических методов является независимость от предметной области с
сохранением точности извлечения. Такие методы хуже по точности, однако не привязаны
к конкретной проблемной области. Сами методы в отличие от нестатистических, кото-
рые использовали лингвистическое и синтаксическое сравнение с шаблонами вручную, со-
средоточены на поиске этих самых шаблонов. Несмотря на то, что машинные и стати-
стические методы в своем большинстве являются независимыми от предметной области
и для обучения используют большие корпуса текста они предназначены преимущественно
для английского языка. Так же отсутствует стандартизированный набор данных, кото-
рый позволил бы сравнить методы между собой. Все работы, посвященные методам, про-
игнорировали извлечение неявных ПСС. -
НЕСТАТИСТИЧЕСКИЕ МЕТОДЫ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ ИЗ ТЕКСТА
Х. Б. Штанчаев2023-06-07Аннотация ▼Автоматическое извлечение причинно-следственных связей (ПСС) из текстов есте-
ственного языка является сложной проблемой искусственного интеллекта. Большинство
первых попыток ее решения подразумевали использование, построенных вручную лингвис-
тических и синтаксических правил на небольших наборах данных. Однако с появлением
больших данных, доступной вычислительной мощности и с большим скачком в области
машинного обучения, концепция решения данной проблемы постепенно сдвинулась. В дан-
ной статье рассмотрена парадигма нестатистического подхода к извлечению причинно-
следственных связей, ее основа, языковые конструкции, шаблоны и классификация ПСС.
Целью стало исследование методов данной парадигмы определение их недостатков, пре-
имуществ и возможности их применения. В статье рассмотрены различные подходы, при-
веденные авторами достаточно известных и высоко цитируемых исследовательских ра-
бот и их влияние на успешность извлечения причинно-следственных связей. Анализ этих
научных работ однозначно подтвердил, что задача извлечения ПСС является крайне
сложной задачей обработки естественного языка. Наличие разнообразных лингвистиче-
ских конструкций языка, двусмысленности различного рода, а также языковые особенно-
сти очень сильно влияют на точность извлечения ПСС. Почти все нестатистические ме-
тоды столкнулись с проблемой узкоспециализированных областей знаний, где почти всегда
требуется экспертное описание. Так же практически все нестатистические методы яв-
ляются ручными или же полуавтоматическими, т. к. предполагают построение шаблонов
для определения ПСС в тексте. Несмотря на то, что нестатические методы с достаточ-
ной точностью (в среднем 70–80%) успешно справляются с рассматриваемой задачей, на
сегодняшний день отсутствует универсальный метод для извлечения ПСС. Предполагае-
мый метод должен быть универсальным относительно языков, универсальным относи-
тельно предметных областей и с возможностью определения неявных ПСС.








