Статья

Название статьи МЕТОД ИЗМЕРЕНИЯ СЕМАНТИЧЕСКОГО СХОДСТВА ТЕКСТОВЫХ ДОКУМЕНТОВ
Автор Бермудес Сото Хосе Грегорио
Рубрика РАЗДЕЛ I. ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ СИСТЕМЫ
Месяц, год 03, 2017
Индекс УДК 004.89
DOI
Аннотация Рассматривается метод сравнения текстовых документов в обработке естественного языка на русском языке с целью определения их семантической близости; рассмотрим подзадачу измерения семантического сходства по критериям правильности и глубины. На основе проведённого обзора существующих подходов сравнения текстов, предложен метод определения семантического подобия между двумя текстами на основе текстовых пассажей, который позволяет определить не только семантическую близость документов, представленных на естественном языке, но и дать количественную оценку сходства этих документов. Это исследование обрамлено в области автоматической обработки текстов (АОТ) и формализации естественных языков, постепенно переходя от самых простых методов анализа для более сложного, постепенно достигая уровень обработки, который уже можно увидеть текст не просто в виде последовательности слов, как единое целое, имеет некоторый смысл, так как оно соответствует человеческому восприятию. В соответствии с общей схемой автоматической обработки текста, данное исследование сосредоточено на семантическом уровне и представляет собой подробное описание заключительного этапа о сравнении на близость общей схемы. В основу метода положено определение степени подобия между текстовыми пассажами. Под текстовым пассажем будем понимать отдельное место в тексте, обладающее какой-то цельностью. В данной работе используется сегментация текстов, как основу для текстового сравнения в обработке естественного языка на русском языке; рассмотрим подзадачу извлечения фрагментов текста с особым смыслом, которые называются «текстовой пассаж». Также используется сравнение текстов на русском языке, в подзадаче определения семантической близости. Проводится обзор существующих методов сравнения. Предложен метод определения степени подобия между текстовыми пассажами в пределах семантического класса. Существующие методы сравниваются с предлагаемым методом и сравнением, сделанным людьми, в эксперименте, который показывает адекватность предложенного метода.

Скачать в PDF

Ключевые слова Измерение текстовой близости; определение подобия; сравнение текстов; представление семантических схем; текстовые пассажи.
Библиографический список 1. Языкознание. Бол. энцикл. словарь / гл. ред. В.Н. Ярцева. – 2-е изд. – М.: Бол. рос. эн-цикл., 1998. – 685 с.
2. Марчук Ю.Н. Компьютерная лингвистика. – М.: АСТ; Восток-Запад, 2007. – 317 с.
3. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: учеб. пособие. – М.: Гелиос АРВ, 2002. – 368 с.
4. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. – М.: Эдиториал УРСС, 2001. – 360 с.
5. Искусственный интеллект. В 3 кн. Кн. 1. Системы общения и экспертные системы: справочник / под ред. Э.В. Попова. – М.: Радио и связь, 1990. – 464 с.
6. Потапова Р.К. Речь: коммуникация, информация, кибернетика: учеб. пособие. – М.: Едиториал УРСС, 2003. – 568 с.
7. Muñoz T.R. Representación del conocimiento textual mediante técnicas lógico-conceptuales en aplicaciones de tecnologías del lenguaje humano // Tesis doctoral. Universidad de Alicante.
– España, 2009. – 128 p.
8. Maurer H., Kappe F. y Zaka B. Plagiarism – A Survey // Journal of Universal Computer Sci-ence. – 2006. – No. 12. – P. 1050-1084.
9. Bao J-P., Shen J-Y., Liu X-D., Liu H-Y. y Zhang X-D. Semantic Sequence Kin: A Method of Document Copy Detection // Advances In Knowledge Discovery and Data Mining. Lecture Notes in Artificial Intelligence (LNAI) – Sydney, Australia, 2004. – Vol. 3056. – P. 529-538.
10. Bao J-P., Shen J-Y., Liu X-D., Liu H-Y. y Zhang X-D. Finding Plagiarism Based on Common Semantic Sequence Model // The 5th International Conference on Advances in Web-Age In-formation Management (WAIM). Lecture Notes in Computer Science – China: Dalian, 2004.
– Vol. 3129. – P. 640-645.
11. Chi-Hong L. y Yuen-Yan C. A Natural Language Processing Approach to Automatic Plagiarism Detection // The 8th ACM Conference on Information Technology Education (SIGITE’07) – Florida, USA, 2007. – P. 213-218.
12. Вишняков Р.Ю. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска: дисс. … канд. техн. наук. – Таганрог, 2012.
13. Бермудес С.Х.Г. О методе извлечения значимых текстовых пассажей как базы для текстового сравнения // Информатизация и и связь. – 2016. – № 3. – C. 231-219.
14. Salguero L.F. Resolución abductiva de anáforas pronominales. – http://www.http://personal.us.es/ fsoler/papers/ivjornadas.pdf. (дата обращения 29.01.2016).
15. Agirre E., Cer D., Diab M., Gonzalez-Agirre A. and Weiwei Guo. A pilot on semantic textual similarity // The 6th International Workshop on Semantic Evaluation (SemEval-2012 task 6) – Atlanta, USA, 2012. – P. 385-393.
16. Agirre E., Cer D., Diab M., Gonzalez-Agirre A. and Weiwei Guo. Semantic textual similarity // 2nd Joint Conference on Lexical and Computational Semantics (*SEM-2013) – Georgia, USA, 2013. – P. 32-43.
17. Michael R. and Anette F. Automatically identifying implicit arguments to improve argument linking and coherence modeling // 2nd Joint Conference on Lexical and Computational Se-mantics (*SEM-2013) – Georgia, USA, 2013. – P. 321-333.
18. Salehi B. and Cook P. Predicting the compositionality of multiword expressions using transla-tions in multiple languages // Second Joint Conference on Lexical and Computational Semantics (*Sem-2013), Atlanta, Georgia, USA. 2013. – P. 134-142.
19. Palmer A., lexis Horbach A. and Pinkal M. Using the text to evaluate short answers for reading comprehension exercises // Second Joint Conference on Lexical and Computational Semantics (*SEM). – Vol. 2 (SemEval 2013) – Atlanta, Georgia, USA, 2013. – P. 520-524.
20. Leacock C. and Chodorow M. Combining local context and wordnet similarity for word sense identification // Christiane Fellbaum, editor, MIT Press, 1998. – P. 265-283.
21. Lesk M. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone, 5th Annual International Conference on Systems Documentation, 1986, pp. 24-26. ACM.
22. Wu Zhibiao and Stone Palmer M. Verb semantics and lexical selection // James Pustejovsky, editor, ACL, 1994. – P. 133-138. Morgan Kaufmann Publishers / ACL
23. Resnik P. Using information content to evaluate semantic similarity in a taxonomy // 14th International Joint Conference on Artificial Intelligence, IJCAI’95. – San Francisco, CA, USA, 1995. – P. 448-453.
24. Lin Dekang. An information-theoretic definition of similarity // Fifteenth International Con-ference on Machine Learning, ICML ’98. – San Francisco, CA, USA. Morgan Kaufmann Pub-lishers Inc., 1998. – P. 296-304.
25. Jiang Jay J. and Conrath D.W. Semantic similarity based on corpus statistics and lexical taxonomy // 10th International Conference on Research in Computational Linguistics, ROCLING’97. – 1997. – P. 19-33.
26. Mihalcea R., Corley C. and Strapparava C. Corpus-based and knowledge-based measures of text semantic similarity // 21st National Conference on Artificial Intelligence. – 2006.
– P. 775-780.
27. Turney Peter D. Mining the web for synonyms: Pmi-ir versus lsa on toefl // 12th European Conference on Machine Learning. – 2001. – P. 491-502.
28. . Landauer Thomas K., Foltz Peter W. and Laham Darrell. An Introduction to Latent Seman-tic Analysis. Discourse Processes. – Springer-Verlag, 1998. – P. 259-284.
29. Francesc Ll. C. Algoritmos de similitud entre cadenas de texto (php). – 2015. – URL: frances-cllorens.eu/00tokenizer/dst.php.

Comments are closed.