Статья

Название статьи АНСАМБЛЬ КЛАССИФИКАТОРОВ ДЛЯ АВТОМАТИЧЕСКОГО ПОПОЛНЕНИЯ ОНТОЛОГИЙ
Автор А. В. Семенова, В. М. Курейчик
Рубрика РАЗДЕЛ III. МОДЕЛИРОВАНИЕ И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
Месяц, год 02, 2018
Индекс УДК 004.041
DOI 10.23683/2311-3103-2018-2-163-173
Аннотация Искусственный интеллект в настоящее время является одной из перспективных областей научного и практического знания. В искусственном интеллекте онтологии используются для формальной спецификации знаний. В статье предложен подход к автоматизации процесса пополнения онтологии по коллекции текстовых документов, относящихся к одной тематике. Ключевой целью работы является разработка ансамбля классификаторов для задачи автоматического пополнения онтологии предметной области. Основной задачей создания ансамбля является повышение точности прогноза агрегированного классификатора по сравнению с точностью прогнозирования каждого индивидуального базового классификатора. Для достижения поставленной цели предложен новый вариант ансамбля классификаторов, основанный на методе опорных векторов (SVM-классификатор), нейронной сети (LSTM-классификатор) и методах дистрибутивной семантики (Fasttext, word embedding), и отличающийся от известных подходов способом представления решения и возможностью формирования коллективов классификаторов. В процессе оптимизации происходит определение параметров, как отдельных классификаторов, так и всего ансамбля. Разработка ансамбля классификаторов выполнена среде Matlab с применением пакета Text Analytics Toolbox. Ансамбль классификаторов построен на наборе данных для машинного обучения Reuters-21578 (выборка новостных статей). Для обучения моделей дистрибутивной семантики выбрана обученная на Wikipedia 2014 коллекция GloVe векторов для английского языка. Сравнительное тестирование показало преимущества использования предложенного ансамбля классификаторов при работе с многомерными данными, характеризующимися большим количеством признаков. Предложенный ансамбль классификаторов может применяться для определения тематики документа, для извлечения терминов из текстовых документов и построения тезауруса. Отличительными особенностями разработанного ансамбля классификаторов являются: мягкие требования к исходным данным; автоматическое выделение терминов области знания; возможность использования алгоритма для построения онтологий разных областей научного знания без его модификации; высокое качество классификации данных при приемлемых временных затратах.

Скачать в PDF

Ключевые слова Классификация; ансамбль; онтологии; термины; база знаний; предметная область; признаки; корпус текстов; нейронная сеть.
Библиографический список 1. Найханова Л.В. Технология создания методов автоматического построения онтологий с применением генетического и автоматного программирования: монография. – Улан-Удэ: Изд-во БНЦ СО РАН, 2008. – 244 с.
2. Бубарева О.А. Математическая модель процесса интеграции информационных систем на основе онтологий // Современные проблемы науки и образования. – 2012. – № 2. – URL: www.science-education.ru/102-6030.
3. Semenova A.V., Kureichik V.M. Combined Method for Integration of Heterogeneous Ontology Models for Big Data Processing and Analysis // Proceedings of the 6th Computer Science On-line Conference 2017 (CSOC2017). – Vol .1. – P. 302-311.
4. Пархоменко П.А., Григорьев А.А, Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды ИСП РАН. – 2017. – T. 29. – Вып. 2.
– C. 161-200. DOI: 10.15514/ISPRAS-2017-29(2)-6.
5. Andrews Nicholas O, Fox Edward A. Recent developments in document clustering: Tech. Rep.: Technical report, Computer Science, Virginia Tech, 2007.
6. Aggarwal Charu C, Zhai Cheng Xiang. Mining text data. Springer Science & Business Media, 2012.
7. Whissell John S., Clarke Charles L.A. Improving document clustering using Okapi BM25 feature weighting // Information retrieval. – 2011. – T. 14, No. 5. – P. 513-523.
8. Huang Anna. Similarity measures for text document clustering // Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008), Christchurch, New Zealand. 2008. – P. 49-56.
9. Sathiyakumari K., Manimekalai G., Preamsudha V. A survey on various approaches in document clustering // International Journal of Computer Technology and Applications. – 2011.
– Vol. 2 (5). – P. 1534-1539.
10. Aggarwal Charu C, Zhai Cheng Xiang. Mining text data. Springer Science & Business Media, 2012.
11. Marchionini Gary. Exploratory search: from finding to understanding // Communications of the ACM. – 2006. – Vol. 49, No. 4. – P. 41-46.
12. Вьюгин В.В. Математические основы машинного обучения и прогнозирования. Электронное издание. – М.: МЦНМО, 2014. – 304 c.
13. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. – 2013.
– https://arxiv.org/abs/1301.3781.
14. Pennington J., Socher R., Manning Ch. D. GloVe: Global Vectors for Word Representation.
– http://www.aclweb.org/anthology/D14-1162.
15. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information. – https://arxiv.org/abs/1607.04606.
16. Choi F., Wiemer-Hasting P., Moore J. Latent semantic Analysis for Text Segmentation // Proceedings of NAACL'01, Pittsburgh, PA, 2001. – P. 109-117.
17. Gama J. Knowledge Discovery from Data Streams. Singapore, CRC Press Pubh, 2010. DOI: 10.1201/EBK1439826119.
18. Tomin N., Zhukov A., Sidorov D., Kurbatsky V., Panasetsky D., Spiryaev V. Random Forest Based Model for Preventing Large-Scale Emergencies in Power Systems // International Journal of Artificial Intelligence. – 2015. – Vol. 13, no. 1. – P. 221-228.
19. КиберЛенинка. – https://cyberleninka.ru/article/n/modifikatsiya-algoritma-sluchaynogo-lesa-dlya-klassifikatsii-nestatsionarnyh-potokovyh-dannyh.
20. Дьяконов В., Круглов В. Математические пакеты расширения MATLAB. Специальный справочник. – СПб.: Питер, 2001. – 480 с.
21. Reuters-21578 Text Categorization Test Collection. – http://www.daviddlewis.com/resources/ testcollections/reuters21578.
22. Агеев М., Кураленок И., Некрестьянов И. Официальные метрики РОМИП 2006. – Режим доступа: http://romip.ru/romip2006/appendix_a_metrics.pdf.

Comments are closed.