СТАТИСТИЧЕСКИЕ И МАШИННЫЕ МЕТОДЫ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ ИЗ ТЕКСТА (ОБЗОР)

  • Х.Б. Штанчаев Дагестанский государственный технический университет
Ключевые слова: Причинно-следственные связи, причинные знания, обработка естественного языка, машинное обучение, компьютерная лингвистика, скрытые причинные связи

Аннотация

Для решения задачи автоматического извлечения причинно-следственных связей
(ПСС) до 2000-х годов использовалась концепция нестатистических методов. Данные ме-
тоды использовали построенные вручную лингвистические шаблоны. Очевидно, что ПСС,
которые не подходили в построенные шаблоны, могли быть не определены. Нестатисти-
ческие методы требовали постоянного ручного контроля со стороны экспертов, вплоть
до оценки. Практически все методы были направлены на извлечение явных ПСС.
В некоторых методах были использованы попытки отвязать систему извлечения от кон-
кретной предметной области. Для исключения вышеупомянутых недостатков, разраба-
тываемые в дальнейшем методы начали смещаться в сторону обработки статистиче-
ских данных и машинного обучения. Был проанализирован целый ряд ценных работ, связан-
ных с новой парадигмой извлечения ПСС. Целью исследования было оценить новые методы
с возможностью выявить их преимущества и недостатки. Большим преимуществом ма-
шинных и статистических методов является независимость от предметной области с
сохранением точности извлечения. Такие методы хуже по точности, однако не привязаны
к конкретной проблемной области. Сами методы в отличие от нестатистических, кото-
рые использовали лингвистическое и синтаксическое сравнение с шаблонами вручную, со-
средоточены на поиске этих самых шаблонов. Несмотря на то, что машинные и стати-
стические методы в своем большинстве являются независимыми от предметной области
и для обучения используют большие корпуса текста они предназначены преимущественно
для английского языка. Так же отсутствует стандартизированный набор данных, кото-
рый позволил бы сравнить методы между собой. Все работы, посвященные методам, про-
игнорировали извлечение неявных ПСС.

Литература

1. Shtanchaev Kh.B. Nestatisticheskie metody avtomaticheskogo izvlecheniya prichinnosledstvennykh
svyazey iz teksta [Non-statistical methods for automatically extracting causeand-
effect relationships from text], Izvestiya YuFU Tekhnicheskie nauki [Izvestiya SFedU. Engineering
Sciences], 2023, No. 2, pp. 273-280.
2. Girju R. Automatic detection of causal relations for question answering, Proceedings of the
ACL 2003 workshop on Multilingual summarization and question answering, 2003, Vol. 12,
pp. 76-83.
3. Girju R., Moldovan D. Text mining for causal relations, FLAIRS Conference, 2002, pp. 360-364.
4. Quinlan J.R. C4. 5: programs for machine learning. Elsevier, 2014.
5. Marcu D., Echihabi A. An unsupervised approach to recognizing discourse relations, Proceedings of
the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 368-375.
6. Dauni A.B. D21 Bayesovskie modeli [D21 Bayesian models]: transl. from engl.
V.A. Yarockogo. Moscow: DMK Press. 2018, 182 p.
7. Chang D.-S., Choi K.-S. Causal relation extraction using cue phrase and lexical pair probabilities,
in Natural Language Processing– IJCNLP, 2004. Springer, 2004, pp. 61-70.
8. Tapanainen P., J¨arvinen T. A non-projective dependency parser, Proceedings of the fifth
conference on Applied natural language processing. Association for Computational Linguistics,
1997, pp. 64-71.
9. Blanco E., Castell N., Moldovan D.I. Causal relation extraction. LREC, 2008.
10. Sil A., Huang F., Yates A. Extracting action and event semantics from web text, AAAI Fall
Symposium: Commonsense Knowledge, 2010.
11. Church K.W., Hanks P. Word association norms, mutual information, and lexicography,
In Proceedings of the 27th Annual Conference of the Association of Computational Linguistics,
1989, pp. 76-83.
12. Gordon A.S., Bejan C.A., Sagae K. Commonsense causal reasoning using millions of personal
stories. AAAI, 2011.
13. Bethard S., Martin J.H. Learning semantic links from a corpus of parallel temporal and causal
relations, Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics
on Human Language Technologies: Short Papers. Association for Computational Linguistics,
2008, pp. 177-180.
14. Rink B., Bejan C.A., Harabagiu S.M. Learning textual graph patterns to detect causal event
relations, FLAIRS Conference. – 2010.
15. Yan X. and Han J. Graph-based substructure pattern mining, Data Mining, Proceedings. 2002
IEEE International Conference on. IEEE. 2002, pp. 721-724.
16. Sorgente A., Vettigli G., Mele F. Automatic extraction of cause effect relations in natural language
text, DART@ AI* IA. Vol. 2013, pp. 37-48.
17. Yang X. and Mao K. Multi level causal relation identification using extended features, Expert
Systems with Applications, 2014, Vol. 41, No. 16, pp. 7171-7181
18. Pakray P., Gelbukh A. An open domain causal relation detection from paired nominal, 13th
Mexican international conference on artificial intelligence (MICAI-2014). Nature-Inspired
Computation and Machine Learning, 2014, Vol. 8857, pp. 261-271.
19. Gurulingappa H., Rajput AM., Roberts A., Fluck J., Hofmann-Apitius M., Toldo L. Development
of a benchmark corpus to support the automatic extraction of drug-related adverse effects
from medical case reports, J Biomed Inform, 2012, Vol. 45 (5), pp. 885-892.
20. Rutherford A., Xue N. Discovering implicit discourse relations through brown cluster pair representation
and coreference patterns, Proceedings of the 14th conference of the European
chapter of the association for computational linguistics. Association for Computational Linguistics,
2014, pp. 645-654.
Опубликован
2024-01-05
Выпуск
Раздел
РАЗДЕЛ I. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ