АЛГОРИТМ ПОИСКА И ПРИОБРЕТЕНИЯ ЗНАНИЙ НА ОСНОВЕ ТЕХНОЛОГИЙ ОБРАБОТКИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

  • Е.М. Герасименко Южный федеральный университет
  • Ю.А. Кравченко Южный федеральный университет
  • Д.А. Шаненко Южный федеральный университет
Ключевые слова: Обработка текстовой информации, поиск знаний, извлечение знаний, обработка естественного языка, извлечение компонент, упрощение текста

Аннотация

Статья посвящена решению актуальной научной проблемы повышения эффективности об-
работки и анализа текстовой информации при решении задач поиска и приобретения знаний. Ак-
туальность данной задачи связана с необходимостью создания эффективных средств обработки
накапливаемого огромного количества слабо структурированных данных, содержащих важные,
иногда скрытые знания, необходимые для построения эффективных систем управления сложны-
ми объектами различной природы. Предлагаемый автором алгоритм поиска и приобретения зна-
ний при обработке и анализе текстовой информации, отличается применением низкоуровневых
детерминированных правил, позволяющих провести качественное упрощение текста на основе
исключения из текстовой информации слов, инвариантных к смыслу. Алгоритм опирается на до-
менную проработку, позволяющую сформировать списки доменно-специфичных слов, что позволя-
ет обеспечить высокое качество упрощения текста. В данной задаче исходными данными явля-
ются потоки текстовой информации (описание профилей), извлеченных из онлайн платформ для
рекрутинга, выходная информация представляется предложениями, сформированными в виде
тройки «субъект-глагол-объект», отражающих гранулы знаний, полученных в процессе обработ-
ки текста. Использование данного порядка единиц, составляющих предложение, обусловлено тем
фактом, что данный порядок наиболее распространен в русском языке, хотя в самих текстах
возможны иные вариации порядка без потери общего смысла. Основная идея алгоритма заключа-
ется в разбиении большого корпуса текста на предложения с последующей фильтрацией получен-
ных предложений на основании введенных пользователем ключевых слов. В последствии предло-
жения разделяются на компоненты и упрощаются в зависимости от вида поступившей компо-
ненты (глагольная, именная). В качестве примера в данной работе использовалась сфера марке-
тинга, а ключевыми словами выступили «социальные сети». Автором разработан алгоритм поис-
ка и приобретения знаний на основе технологий обработки и анализа текстов на естественном
языке, а также была выполнена программная реализация предложенного алгоритма. В качестве
методов оценки эффективности использовался ряд метрик: индекс Флэша-Кинкейда; индекс Колман-Лиау; автоматический индекс удобочитаемости. Проведенные вычислительные эксперимен-
ты подтвердили эффективность предложенного алгоритма по сравнению с аналогами, исполь-
зующими нейронные сети для решение подобных задач.

Литература

1. Appelt D.E. The common pattern specification language, Technical report, SRI International, Artificial
Intelligence Center, 1998.
2. Cunningham H., Maynard D., Bontcheva K., Tablan V. A framework and graphical development environment
for robust NLP tools and applications, Proceedings of the 40th Anniversary Meeting of the
Association for Computational Linguistics, 2002, pp. 168-175.
3. Kluegl P., Toepfer M., Beck P.D. et al. UIMA Ruta: Rapid development of rule-based information
extraction applications, Natural Language Engineering, 2016, Issue 22, No. 1, pp. 1-40.
4. Starostin A.S., Smurov I.M., Stepanova M.E. A production system for information extraction based on
complete syntactic semantic analysis, Papers from the Annual International Conference "Dialogue",
2014, pp. 659-667.
5. Kurshev E.P., Suleymanova E.A., Trofimov I.V. Rol' znaniy v sistemakh izvlecheniya informatsii iz
tekstov [The role of knowledge in systems of information extraction from texts], Programmnye
sistemy: teoriya i prilozheniya [Software systems: theory and applications], 2012, Vol. 3, No. 3,
pp. 57-70.
6. Blanko M., Cafarella M.J., Soderland S. et al. Open information extraction from the web, Proceedings
of the 20th International Joint Conference on Artifical Intelligence, 2007, pp. 2670-2676.
7. Banko M., Etzioni O. The tradeoffs between open and traditional relation extraction, Proceedings of
ACL-08: HLT, 2008, pp. 28-36.
8. Zhu J., Nie Z., Liu X. et al. StatSnowball: a statistical approach to extracting entity relationships, Proceedings
of the 18th international conference on World wide web, 2009, pp. 101-110.
9. Wu F., Weld D.S. Open information extraction using Wikipedia, Proceedings of the 48th Annual Meeting
of the Association for Computational Linguistics, 2010, pp. 118-127.
10. Fader A., Soderland S., Etzioni O. Identifying relations for open information extraction, Proceedings
of the Conference on Empirical Methods in Natural Language Processing, 2011, pp. 1535-1545.
11. Etzioni O., Fader A., Christensen J. et al. Open information extraction: The second, Proceedings of
the Twenty-Second International Joint Conference on Artificial Intelligence, 2011, pp. 3-10.
12. Schmitz M., Bart R., Soderland S. et al. Open language learning for information extraction, Proceedings
of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational
Natural Language Learning, 2012, pp. 523-534.
13. Angeli G., Johnson Premkumar M.J., Manning C.D. Leveraging linguistic structure for open domain
information extraction, Proceedings of the 53rd Annual Meeting of the Association for Computational
Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015,
pp. 344-354.
14. Nakashole N., Weikum G., Suchanek F. PATTY: A taxonomy of relational patterns with semantic
types, Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing
and Computational Natural Language Learning, 2012, pp. 1135-1145.
15. Amurskaya O.Yu., Egorova A.D. Sintaksicheskiy parsing kak analiz struktury predlozheniya
(sintagmy) [Syntactic parsing as an analysis of sentence structure (syntagma)], Filologiya i kul'tura
[Philology and Culture], 2022, No. 4 (70), pp. 14-23.
16. Kobzareva T.Yu. Lingvisticheskiy bazis analiza poverkhnostno-sintaksicheskikh svyazey segmentov v
russkom predlozhenii [Linguistic basis for the analysis of superficial-syntactic connections of segments
in a Russian sentence], Vestnik RGGU. Seriya: Istoriya. Filologiya. Kul'turologiya.
Vostokovedenie [Bulletin of the Russian State University for the Humanities. Series: History.
Philology. Cultural Studies. Oriental Studies], 2008, No. 6, pp. 157-170.
17. Kobzareva T.Yu. Ierarkhiya zadach poverkhnostno-sintaksicheskogo analiza russkogo predlozheniya
[Hierarchy of tasks of superficial syntactic analysis of Russian sentences], Nauchno-tekhnicheskaya
informatsiya. Seriya 2: Informatsionnye protsessy i sistemy [Scientific and technical information.
Series 2: Information processes and systems], 2007, No. 1, pp. 23-35.
18. Kobzareva T.Yu., Lakhuti D.G., Nozhov I.M. Segmentatsiya russkogo predlozheniya: poverkhnostnosintaksicheskiy
analiz kak samostoyatel'nyy modul' analiza teksta [Segmentation of Russian sentence:
surface-syntactic analysis as an independent module of text analysis], Mater. 5-oy mezhdunarodnoy
konferentsii «Informatsionnoe obshchestvo, informatsionnye resursy i tekhnologii telekommunikatsii».
Sektsiya «Intellektual'nye sistemy avtomatizirovannoy podderzhki nauchnykh issledovaniy» [Proceedings
of the 5th international conference "Information society, information resources and telecommunication
technologies". Section "Intelligent systems of automated support of scientific research"]. Moscow:
VINITI. NTI, 2000, pp. 31-34.
19. Kobzareva T.Yu. Problema koreferentsii v ramkakh poverkhnostno-sintaksicheskogo analiza russkogo
yazyka [he problem of coreference in the framework of superficial syntactic analysis of the Russian
language], Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Tr. Mezhdunarodnoy konferentsii
«Dialog 2003» [Computer linguistics and intellectual technologies: Proceedings of the International
Conference "Dialogue 2003"]. Moscow: Nauka, 2003, pp. 278 -284.
20. Kobzareva T.Yu. Printsipy segmentatsionnogo analiza russkogo predlozheniya [Principles of segmentation
analysis of Russian sentences], Moskovskiy lingvisticheskiy zhurnal [Moscow Linguistic Journal],
2004, Vol. 8, No. 1, pp. 31-80.
21. Kobzareva T.Yu. Poisk khozyaina predlozhnoy gruppy v russkom predlozhenii [Search for the owner
of a prepositional group in a Russian sentence], Komp'yuternaya lingvistika i intellektual'nye
tekhnologii: Tr. Mezhdunarodnoy konferentsii «Dialog-2010» [Computer linguistics and intellectual
technologies: Proceedings of the International Conference "Dialogue-2010"], 2010, Issue 9 (16),
pp. 186-191.
22. Rets I., Astruc L., Coughlan T., Stickler U. Approaches to simplifying academic texts in English: English
teachers’ views and practices, English for Specific Purposes, 2022, Issue 68, pp. 31-46.
23. Crossley S.A., Allen D., McNamara D.S. Text simplification and comprehensible input: A case for an
intuitive approach, Language Teaching Research, 2012, Issue 16, No. 1, pp. 89-108. DOI:
10.1177/1362168811423456.
24. Soemer A., Schiefele U. Text difficulty, topic interest, and mind wandering during reading, Learning
and Instruction, 2019, Issue 61, No. 1, pp. 12-22.
25. Allen D. A study of the role of relative clauses in the simplification of news texts for learners of English,
System, 2009, Issue 37, No. 4, pp. 585-599.
26. Long M.H. Optimal input for language learning: Genuine, simplified, elaborated, or modified elaborated?,
Language Teaching, 2020, Issue 53, No. 2, pp. 169-182. DOI: 10.1017/S0261444819000466.
27. Tickoo M.L. Simplification: Theory and Application. Anthology Series 31, ERIC Clearinghouse, 1993,
pp. 254.
28. Big-O, Big-O.io. Available at: https://big-o.io (accessed 03 July 2024).
29. Complexity Cheat Sheet for Python Operations, GeeksforGeeks. Available at:
https://www.geeksforgeeks.org/complexity-cheat-sheet-for-python-operations/ (accessed 03 July 2024).
Опубликован
2024-11-21
Выпуск
Раздел
РАЗДЕЛ I. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ