Статья

Название статьи СОВРЕМЕННЫЕ ПОДХОДЫ В ОРГАНИЗАЦИИ СИСТЕМ ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ
Автор В.В. Хашковский, А.Н. Шкурко
Рубрика РАЗДЕЛ IV. МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ
Месяц, год 08, 2014
Индекс УДК 004.67
DOI
Аннотация Обсуждаются современные подходы к организации систем обработки больших объемов данных на примере интегрированных систем известных производителей, и модульных решений независимых поставщиков. Основное внимание уделено методам получения и источникам информации для систем обработки данных. Приведены основные методы и источники получения исходной информации и дана их краткая характеристика. Рассмотрены основные этапы обработки информации в системах датамайнинга, начиная от непосредственно получения информации до формирования заключительного вывода по результатам анализа. Для основных этапов обработки приведены примеры существующих программных систем, реализующих необходимый функционал. Рассмотрены также некоторые подходы к определению характеристик документов и приведены примеры программных систем, реализующих эти подходы. Для исследуемых документов приведены основные параметры документов, на основании которых проводится анализ. В заключение делается вывод о состоянии рынка систем бизнес-анализа в России и перспектив их адаптации и внедрения.

Скачать в PDF

Ключевые слова Большие данные; датамайнинг; текстмайнинг; машинное обучение; классификация.
Библиографический список 1. Business Intelligence, BI (мировой рынок). ИТ-Директору, BI, Рынки, Рынки, программное обеспечение, 2014. [Электронный ресурс]. – Режим доступа: http://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82% D1%8C%D1%8F:Business_Intelligence,_BI_(%D0%BC%D0%B8%D1% 80%D0%BE%D0%B2%D0%BE%D0%B9_%D1%80%D1%8B%D0% BD%D0%BE%D0%BA).
2. Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques Second Edition / USA Elsevier Inc., 2006. – 743 p.
3. Коэффициент доверия в экспертных системах, 2014. [Электронный ресурс]. – Режим доступа: http://www.aiportal.ru/articles/expert-systems/confidence-factor.html.
4. Web Data Extractor – Extract Email, URL, Meta Tag, Phone, Fax from Websites, 2014. [Электронный ресурс]. – Режим доступа: http://www.webextractor.com.
5. Web Scraping, Web Extraction, WebSundew, 2014. [Электронный ресурс]. – Режим доступа: http://www.websundew.com/.
6. Data Extraction, Web Screen Scraping Tool, Mozenda Scraper, 2014. [Электронный ресурс]. – Режим доступа: https://www.mozenda.com/pricing.
7. Screen-scraper: Data extraction software and services, 2014. [Электронный ресурс]. – Режим доступа: http://www.screen-scraper.com/download/choose_version.php.
8. Kapow Katalyst: The Leading Application Integration Platform for connecting cloud, mobile, social and big data – Kapow Software, 2014. [Электронный ресурс]. – Режим доступа:
http://www.kapowsoftware.com/products/kapow-katalyst/index.php.
9. Гершензон Л. Новостные агрегаторы и онлайн-СМИ: жизнь вместе, 2009 [Электронный ресурс]. – Режим доступа: http://download.yandex.ru/company/Yandex_News_11_2009.pdf.
10. О сайте / Хабрахабр, 2014. [Электронный ресурс]. – Режим доступа:
http://habrahabr.ru/info/about.
11. Гулин А., Карпович П., Расковалов Д., Сегалович И. Оптимизация алгоритмов ранжирования методами машинного обучения, 2009 [Электронный ресурс]. – Режим доступа:
http://romip.ru/romip2009/15_yandex.pdf.
12. Коллаборативная фильтрация – Википедия, 2014. [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D0%BB%
D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%B8%
D0%B2% D0%BD%D0%B0%D1%8F_%D1%84%D0%B8%D0%BB
%D1%8C% D1%82%D1%80%D0%B0%D1%86%D0%B8%D1%8F.
13. Okapi BM25 – Википедия, 2013. [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/Okapi_BM25.
14. Part-of-speech tagging – Wikipedia, the free encyclopedia, 2014. [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/wiki/Part-of-speech_tagging.
15. Apache OpenNLP – Welcome to Apache OpenNLP, 2010. [Электронный ресурс]. – Режим доступа: http://opennlp.apache.org/.
16. Natural Language Toolkit – NLTK 3.0 documentation, 2013. [Электронный ресурс]. – Режим доступа: http://www.nltk.org/.
17. KNIMEtech KNIME Text Processing, 2014. [Электронный ресурс]. – Режим доступа: http://tech.knime.org/knime-text-processing.
18. Russian stemming algorithm. [Электронный ресурс]. – Режим доступа:
http://snowball.tartarus.org/algorithms/russian/stemmer.html.
19. The Source for Social Data – Gnip, 2014. [Электронный ресурс]. – Режим доступа: http://gnip.com/.
20. Spinn3r: RSS Content, News Feeds, News Content, News Crawler and Web Crawler APIs, 2014. [Электронный ресурс]. – Режим доступа: http://www.spinn3r.com/.
21. Oracle Social Cloud, Social Relationship Management (SRM) Solutions | Oracle, 2014. [Электронный ресурс]. – Режим доступа: http://www.oracle.com/us/solutions/social/ overview/index.html.
22. Data Sift Powering the Social Economy, 2014. [Электронный ресурс]. – Режим доступа: http://datasift.com/.
23. Северов М. Ключевые игроки рынка BI: круг сжимается, Аналитические системы, Информационные технологии, 2008. [Электронный ресурс]. – Режим доступа: http://www.iteam.ru/publications/it/section_92/article_3625/.

Comments are closed.