Статья

Название статьи ТЕХНОЛОГИЧЕСКИЕ АСПЕКТЫ ПОСТРОЕНИЯ СИСТЕМЫ СБОРА И ПРЕДОБРАБОТКИ КОРПУСОВ НОВОСТНЫХ ТЕКСТОВ ДЛЯ СОЗДАНИЯ МОДЕЛЕЙ ЯЗЫКА
Автор А.А. Белозеров, Д.В. Вахлаков, С.Ю. Мельников, В.А. Пересыпкин, Е.С. Сидоров
Рубрика РАЗДЕЛ II. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СУПЕРКОМПЬЮТЕРОВ
Месяц, год 12, 2016
Индекс УДК 004.931
DOI 10.18522/2311-3103-2016-12-2942
Аннотация Предложена и реализована программная система сбора и предобработки корпуса новостных текстов из Интернет-источников, предназначенного для создания статистических моделей языка. Система подразумевает первоначальное участие лингвистов и обеспечивает большую скорость набора и высокую чистоту собираемого корпуса. В качестве источников используются материалы RSSлент и карт сайтов. Описана методика поиска и выбора информационных источников на примере создания корпуса арабского языка. Система сбора включает программные модули сбора ссылок, скачивания статей, хранения, выделения текстов из html-документов и управления. В системе реализовано два интерфейса управления: администратора и лингвиста. Используемый метод выделения текстов основан на оригинальной статистике количества текста в html-документе. Подсистема предобработки предназначена для очистки собранных корпусов и включает в себя программные модули поиска нечетких дубликатов и текстовых вкраплений не на целевом языке. Система разработана на языке Python, с использованием ряда фреймворков и компонентов с открытым исходным кодом, и работает под управлением ОС Ubuntu на двух серверах с использованием 16 процессорных вычислительных ядер. К августу 2016 года в обработке находилось более 20000 новостных источников на 14 языках из 70 стран мира. Весь перечень источников обходится каждые 2 часа. Для различных языков собраны корпуса от 500 Мб до 20 Гб. Созданная технология позволяет получать корпуса текстов, структурированные по стране происхождения, дате написания, тематике, источнику, а также наращивать объемы уже созданных корпусов для построения более точных языковых моделей с использованием актуальных новостей. Приведены экспериментальные данные по перплексии обученных триграммных моделей на собранном англоязычном корпусе общественно-политической тематики и свободно распространяемых корпусах OANC и Europarl_v7.

Скачать в PDF

Ключевые слова Корпус текстов; парсер; очистка корпуса; перплексия; модель языка.
Библиографический список 1. Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. – 2010. – № 4 (47). – С. 2-8.
2. Мещеряков Р. В. Структура систем синтеза и распознавания речи // Известия Томского политехнического университета. – 2009. – Т. 315, № 5. – С. 127-132.
3. Мельников С.Ю., Пересыпкин В.А. О применении вероятностных моделей языка для обнаружения ошибок в искаженных текстах // Вестник компьютерных и информационных технологий. – 2016. – № 5. – С. 29-33.
4. Rosenfeld R. Two decades of statistic language modeling: where do we go from here? // in Proceedings of the IEEE. – 2000. – Vol. 88, Issue 8. – P. 1270-1278.
5. Мельников С.Ю., Пересыпкин В.А. Тенденции развития языковых моделей в задачах распознавания, аспекты точности и вычислительной трудоемкости // Материалы 8-й Всероссийской мультиконференции по проблемам управления МКПУ-2015. с. Дивно-морское. – Т. 1. – С. 85-87.
6. Proceedings of the 4th International Workshop on Spoken Language Technologies for Under-resourced Languages SLTU-2014. – St.Petersburg, Russia, 2014. – 268 p.
7. Vu N.T., Schlippe T., Kraus F., Schultz T. Rapid Bootstrapping of five Eastern European Lan-guages using the Rapid Language Adaptation Toolkit // In: Proc. of Interspeech 2010, Japan, Makuhari. – P. 865-868.
8. Biemann C., Bildhauer F., Evert S., Goldhahn D., Quasthoff U., Schäfer R., Simon J., Swiezinski L., Zesch T. Scalable construction of high-quality web corpora // Journal for Lan-guage Technology and Computational Linguistics. – 2013. – No. 28 (2). – P. 23-60.
9. Schlippe T., Gren L., Vu N.T., Schultz T. Unsupervised Language Model Adaptation for Auto-matic Speech Recognition of Broadcast News Using Web 2.0 // Interspeech 2013, 25-29 August 2013, Lyon, France. – P. 2698-2702.
10. Kim C., Shim K. TEXT: Template Extraction from Heterogeneous Web Pages // IEEE Trans-actions on Knowledge and Data Engineering. – 2011. – Vol. 23, Issue 4. – P. 612-626.
11. Sivakumar P. Effectual Web Content Mining using Noise Removal from Web Pages // Wireless Personal Communications. – 2015. – Vol. 84 (1). – P. 99-121.
12. Eckart T., Quasthoff U., Goldhahn D. The Influence of Corpus Quality on Statistical Meas-urements on Language Resources // in: Proc. of the 8 Int. Conf. on Language Resources and Evaluation (LREC'12), Istanbul, Turkey, 2012. – P. 2318-2321.
13. Sarkar A., De Roeck A., Garthwaite P. Easy measures for evaluating non-English corpora for language engineering. Some lessons from Arabic and Bengali // Dep. of Comp., Faculty of Math. and Comp., The Open University, Walton Hall, UK. Tech. Rep. №2004/05. – P. 1-5.
14. Spoustova J., Spousta M. A high-quality web corpus of Czech // in: Proc. of the 8 Int. Conf. on Language Resources and Evaluation (LREC'12), Istanbul, Turkey, 2012. – P. 311-315.
15. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Труды 9-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2007, Переславль-Залесский, Россия, 2007 г. – С. 166-174.
16. Xiao C., Wang W., Lin X., Xu Y. J., Wang G. Efficient similarity joins for near-duplicate detec-tion // ACM Transactions on Database Systems (TODS). – August 2011. – Vol. 36, No. 3.
– P. 1-41.
17. https://www.anc.org/oanc/.
18. http://www.statmt.org/europarl/.
19. Kneser R., Ney H. Improved backing-off for m-gram language modeling // In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. – Vol. I. – Detroit, Michigan: 1995. – P. 181-184.
20. Chen S.F., Goodman J. An empirical study of smoothing techniques for language modeling // Computer Science Group, Harvard University, Cambridge, Massachusetts, TR-8-98, August, 1998.

Comments are closed.