Найти
Результаты поиска
-
ИЗВЛЕЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ КОРТЕЖЕЙ ИЗ ТЕКСТА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ СИНТЕТИЧЕСКИХ ДАННЫХ
А.Н. Целых , И. А. Валухов , Л.А. Целых2025-01-30Аннотация ▼Рассматривается проблема разработки модели извлечения полных причинных кортежей из
неструктурированных текстов для представления ситуаций принятий решений в сложных социо-
гуманитарных средах. Совокупность извлекаемых кортежей из определенного набора текстов
представляет собой связанные сущности конкретной среды, что позволяет создать причинно-
следственные графы. В этой статье предлагается модель извлечения причинно-следственных
связей с использованием предобученной модели BERT с дообучением на основе дополнительных
признаков. Для уточнения причинной классификации модель использует два вида признаков (кау-
зальность глаголов и метрики качества причинного влияния) для распознавания причинного кор-
тежа, автоматически изучает семантические признаки из предложений, повышая точность из-
влечения. Предварительная обработка текста осуществляется с помощью библиотеки SpaCy с
открытым исходным кодом. Извлеченные причинно-следственные кортежи в формате <фраза
причины, фраза глагола, фраза следствия, полярность> легко трансформируется в соответст-
вующие элементы графа <исходящий узел, направление связи, входящий узел, знак веса связи> и
далее могут быть использованы для построения направленного взвешенного знакового графа с
детерминированной причинностью на дугах. В целях снижения зависимости от внешних знаний
для дообучения и тестирования модели BERT используются синтетически сгенерированные анно-
тированые наборы данных. Экспериментальные результаты показывают, что точность извлече-
ния причинно-следственных связей на синтетических данных достигает 94%, а значение
F1 – 95%. Преимуществами представленного технологического решения является то, что модель
не требует высоких эксплуатационных затрат, реализована на компьютере со стандартными
характеристиками, использует свободное программное обеспечение, что делает ее доступной для
широкого круга пользователей. Ожидается, что предложенная модель может быть использована
для автоматизации анализа текстов и поддержки принятия решений в условиях высокой неопре-
деленности, что особенно актуально для социогуманитарных сред.








