Статья

Название статьи ИНТЕГРАЦИЯ ГЕТЕРОГЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ МОЩНОСТЕЙ НИЦ «КУРЧАТОВСКИЙ ИНСТИТУТ» ДЛЯ ПРОВЕДЕНИЯ МАСШТАБНЫХ НАУЧНЫХ ВЫЧИСЛЕНИЙ
Автор В.Е. Велихов, А.А. Климентов, Р.Ю. Машинистов, А.А. Пойда, Е.А. Рябинкин
Рубрика РАЗДЕЛ III. РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ И СИСТЕМЫ
Месяц, год 11, 2016
Индекс УДК 004.75
DOI 10.18522/2311-3103-2016-11-88100
Аннотация В последнее время в различных областях науки наблюдается значительное увеличение объемов экспериментальных и моделируемых данных за счет создания новых алгоритмов, повышения качества технических средств и т.д. Для обработки данных эксперимента ATLAS во время первой фазы работы Большого Адронного Коллайдера (БАК) в 2010–2013 годах были использованы десятки вычислительных центров и хранилищ мультипетабайтного масштаба (общий объем данных составил 160 Пбайт) по всему миру (в настоящий момент управляемый объем данных эксперимента АТЛАС составляет 250 ПБайт). Недавние достижения технологий в области геномного секвенирования нового поколения (NGS – Next Generation Genome Sequencing) также привели к значительному увеличению объема данных, которые должны быть обработаны, проанализированы, а результаты должны быть доступны удаленным группам биоинформатиков. Это в свою очередь привело к повышению требований к вычислительным платформам обработки данных: потребовалось больше оперативной памяти и более мощные процессоры. Решение данной проблемы требует применения принципиально других подходов к организации вычислений – относительно новых для биоинформатики, но успешно зарекомендовавших себя в других научных областях, в которых проблема BigData возникла уже давно. Авторами статьи было проведено исследование возможности применения методов и подходов, используемых в физике высоких энергий, для объединения гетерогенных вычислительных ресурсов в единую вычислительную платформу. В настоящее время в отдельный класс промежуточного программного обеспечения Грид вынесены системы управления заданиями (WMS-системы). Данные системы упрощают взаимодействие пользователей с вычислительными ресурсами, позволяя отправлять задания, выполнять их на «лучших» ресурсах, получать информацию о статусе выполнения задач и получать выходную информацию. Также WMS-системы обеспечивают прозрачную интеграцию таких ресурсов, как суперкомпьютеры, высокопроизводительные вычислительные кластеры, облачные платформы и т.д. Авторами была разработана полномасштабная система управления данными и заданиями на базе вычислительных мощностей Национального исследовательского центра «Курчатовский институт». В качестве базовой технологии была использована система управления задачами PanDA, разработанная и используемая для эксперимента ATLAS на Большом Адронном Коллайдере (БАК) в Европейском Центре Ядерных Исследований (ЦЕРН). В рамках данной работы был создан портал, объединяющий различные вычислительные ресурсы Курчатовского института: Грид-центр первого уровня (Tier-1), суперкомпьютер и платформу облачных вычислений. В разработанную систему был интегрирован рабочий поток для обработки данных геномного секвенирования с использованием пакета PALEOMIX. В статье представлены результаты использования портала для задач эксперимента ATLAS и задач анализа древней ДНК мамонта. В данной работе показано, что методы и программные средства, используемые в физике высоких энергий вот уже более десяти лет, а также эффективное использование суперкомпьютеров могут быть успешно применены в других областях науки, например биоинформатике.

Скачать в PDF

Ключевые слова Распределенные вычисления; суперкомпьютеры; большие данные; системы управления потоком задач.
Библиографический список 1. Aad G. et al. The ATLAS Collaboration, "The ATLAS Experiment at the CERN Large Hadron Collider // Journal of Instrumentation. – 2008. – Vol. 3. – S08003.
2. Evans L., Bryant P. LHC machine // Journal of Instrumentation. – 2008. – Vol. 3. – S08001.
3. Климентов А.А, Машинистов Р.Ю., Новиков А.М., Пойда А.А., Рябинкин Е.А., Тертыч-ный И.С. Интеграция суперкомпьютера НИЦ «Курчатовский институт» с центром Грид первого уровня // Суперкомпьютерные дни в России: Труды международной конференции (28-29 сентября 2015 г., г. Москва). – М.: Изд-во МГУ, 2015. – С. 700-705.
4. Климентов А.А, Машинистов Р.Ю., Новиков А.М., Пойда А.А., Тертычный И.С. Ком-плексная система управления данными и задачами в гетерогенной компьютерной среде // Труды международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/RCDL'2015) (13-16 октября 2015 г.,
г. Обнинск) в европейском репозитории трудов конференций CEUR Workshop Proceedings (DAMDID/RCDL). – 2015. – Vol. 1536. – P. 165-172. ISSN: 1613-0073.
5. Maeno T. On behalf of PANDA team and ATLAS collaboration. PanDA: distributed produc-tion and distributed analysis system for ATLAS // Journal of Physics: Conference Series. IOP Publishing. – 2008. – Vol. 119, No. 6.
6. Ваняшин А.В., Климентов А.А., Кореньков В.В. За большими данными следит ПАНДА // Суперкомпьютеры. – 2013. – № 3 (15). – С. 56-61.
7. Schubert M et al. Characterization of ancient and modern genomes by SNP detection and phylogenomic and metagenomic analysis using PALEOMIX // Nat Protoc. – 2014. – No. 9 (5). – P. 1056-82. Doi: 10.1038/nprot.2014.063. Epub 2014 Apr 10. PubMed PMID: 24722405.
8. Климентов А., Кореньков В. Распределённые вычислительные системы и их роль в от-крытии новой частицы // Суперкомпьютеры. – 2012. – № 3 (11). – С. 7-11.
9. Грид-инфраструктура WLCG. Сайт проекта: http://wlcg.web.cern.ch.
10. Skryabin K.G., Prokhortchouk E.B., Mazur A.M., Boulygina E.S., Tsygankova S.V., Nedoluzhko A.V., Rastorguev S.M., Matveev V.B., Chekanov N.N., Goranskaya D.A., Teslyuk A.B., Gruzdeva N.M., Velikhov V.E., Zaridze D.G., Kovalchuk M.V. Combining two technologies for full genome sequencing of human // Acta Nat. – 2009. – Vol. 1, No. 3. – P. 102-107.
11. Kawalia A., Motameny S., Wonczak S., Thiele H., Nieroda L., Jabbari K., Borowski S., Sinha V., Gunia W., Lang U., Achter V., Nurnberg P. Leveraging the Power of High Performance Computing for Next Generation Sequencing Data Analysis: Tricks and Twists from a High Throughput Exome Workflow. PLoS One. – 2015. – No. 10 (5). Article No e0126321.
Doi: 10.1371/journal.pone.0126321.
12. Bao R., Huang L., Andrade J., Tan W., Kibbe W.A., Jiang H., Feng G. Review of current methods, applications, and data management for the bioinformatics analysis of whole exome sequencing // Cancer Inform. – 2014. – No. 13 (2). – P. 67-82.
13. Miller W., Drautz D.I., Ratan A., Pusey B., Qi J., Lesk A.M., Tomsho L.P., Packard M.D., Zhao F., Sher A., Tikhonov A., Raney B., Patterson N., Linblad-Toh K., Lander E.S., Knight J.R., Irzyk G.P. Fredrikson K.M., Harkins T.T., Sheridan S., Pringle T., Schuster S.C. Sequencing the nuclear genome of the extinct woolly mammoth // Nature. – 2008. – Vol. 456.
– P. 387-390. Doi: 10.1038/nature07446.
14. Rasmussen M., Li Y., Lindgreen S., Pedersen J.S., Albrechtsen A., Moltke I., Metspalu M., Metspalu E., Kivisild T., Gupta R., et al. Ancient human genome sequence of an extinct Palaeo-Eskimo // Nature. – 2009. – Vol. 463. – P. 757-762. Doi: 10.1038/nature08835.
15. Keller A., Graefen A., Ball M., Matzas M., Boisguerin V., Maixner F., Leidinger P., Backes C., Khairat R., Forster M., et al. New insights into the Tyrolean Iceman's origin and phenotype as inferred by whole-genome sequencing // Nature Communications. – 2011. – No. 3.
16. Allentoft M.E., Collins M., Harker D., Haile J., Oskam C.L., Hale M.L., Campos P.F., Samaniego J.A., Gilbert M.T., Willerslev E., et al. The half-life of DNA in bone: measuring decay kinetics in 158 dated fossils // Proc Biol Sci. – 2012. – Vol. 279. – P. 4724-4733.
Doi: 10.1098/rspb.2012.1745.
17. Nedoluzhko A.V., Boulygina E.S., Sokolov A.S., Tsygankova S.V., Gruzdeva N.M., Rezepkin A.D., Prokhortchouk E.B. Analysis of the Mitochondrial Genome of a Novosvobodnaya Culture Representative using Next-Generation Sequencing and Its Relation to the Funnel Beaker Culture // Acta Naturae. – 2014. – No. 6. – P. 31-35.
18. Sokolov A.S., Nedoluzhko A.V., Boulygina E.S., Tsygankova S.V., Gruzdeva N.M., Shishlov A.V., Kolpakova A., Rezepkin A.D., Skryabin K.G., Prokhortchouk E.B. Six complete mitochondrial genomes from Early Bronze Age humans in the North Caucasus // Journal of Archaeological Sciences. – 2016. – No. 73. – P. 138-144. Doi: 10.1016/j.jas.2016.07.017.
19. Martin M.D., Cappellini E., Samaniego J.A., Zepeda M.L., Campos P.F., Seguin-Orlando A., Wales N., Orlando L., Ho S.Y., Dietrich F.S., et al. Reconstructing genome evolution in historic samples of the Irish potato famine pathogen // Nature Communications. – 2013. – No. 4. Doi: 10.1038/ncomms3172.
20. Yoshida K., Schuenemann V.J., Cano L.M., Pais M., Mishra B., Sharma R., Lanz C., Martin F.N., Kamoun S., Krause J., et al. The rise and fall of the Phytophthora infestans lineage that triggered the Irish potato famine // eLife. – 2013. – No. 2.

Comments are closed.