Статья

Название статьи РАСЧЕТ ФУНКЦИИ ОСУЩЕСТВИМОСТИ РЕШЕНИЯ ЗАДАЧ НА РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ ПРИ ОТКАЗАХ И ВОССТАНОВЛЕНИЯХ
Автор К.В. Павский, В.А. Павский
Рубрика РАЗДЕЛ III. РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ И СИСТЕМЫ
Месяц, год 12, 2016
Индекс УДК 004.272:[519.87:519.248]
DOI 10.18522/2311-3103-2016-12-8491
Аннотация Качество функционирования вычислительных систем (ВС) оценивается набором показателей производительности, надежности, живучести, осуществимости решения задачи и технико-экономической эффективности. Для оценки потенциальных возможностей ВС по достижению цели их функционирования (решения поступающих задач) используют показатели осуществимости решений задач. Данные показатели характеризуют процесс решения задач на неабсолютно надёжных ВС. Функция осуществимости - это условная вероятность того, что сложная задача, представленная параллельной программой, будет решена на ВС за данное время, при условии что параллельная программа на начало решения задачи использовала все работоспособные ЭМ. Предлагается стохастическая модель функционирования вычислительных систем при решении сложных задач. Предложено выражение для расчета функции осуществимости решения трудоемких задач на распределенных вычислительных системах. Считаем, что известно ускорение решения задачи на рассматриваемом числе машин вычислительной системы в определенный момент времени. Вывод выражений для расчета показателей осуществимости решения задачи основан на допущении, что время решения задачи на вычислительной системе есть функция времени решения задачи на одной элементарной машине и эта функция имеет конечное число разрывов. Разрывы имеют вероятностный характер и соответствуют отказам и восстановлениям машин в ВС, которые требуют реконфигурации ВС (перенастройки структуры с учетом только исправных машин). Расчет по полученным выражениям произведен численно. Представлен пример расчета вероятности решения задачи за заданное время на вычисли-тельной системе.

Скачать в PDF

Ключевые слова Распределенные вычислительные системы; отказы, восстановления; стохастическая модель; функция осуществимости решения задач.
Библиографический список 1. TOP500 Supercomputers Official Site. TOP500 Lists. – URL: http://www.top500.org.
2. Dongarra J.J., A.J. van der Steen. High-performance computing systems: Status and outlook, Acta Numerica. 2012. – P. 1-96.
3. Nikolic S. High Performance Computing Directions: The Drive to ExaScale Computing // Труды Международной научной конференции “Параллельные вычислительные технологии (ПаВТ’2012). – Новосибирск, 2012. – URL: http://pavt.susu.ru/2012/talks/Nikolic.pdf.
4. Schroeder B. and Gibson G.A. Understanding Failures in Petascale Computers // Journal of Physics: Conference Series. – Jul. 2007. – Vol. 78, No. 1. – P. 012 022+. Available: http://dx.doi.org/10.1088/ 1742-6596/78/1/012022.
5. Christopher Weaver, Joel Emer, Shubhendu S. Mukherjee, and Steven K. Reinhardt. Techniques to reduce the soft error rate of a high-performance microprocessor // In Proceedings of the 31st Annual International Symposium on Computer Architecture, ISCA ’04. – Washington, DC, USA, 2004. I. – P. 264.
6. Vilas Sridharan, Nathan DeBardeleben, Sean Blanchard, Kurt B. Ferreira, Jon Stearley, John Shalf, and Sudhanva Gurumurthi. Memory errors in modern systems: The good, the bad, and the ugly // In Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems. – 2015. – P. 297-310.
7. Jin H., Chen Y., Zhu H., and Sun X.H. Optimizing hpc fault-tolerant environment: An analytical approach // In 2010 39th International Conference on Parallel Processing. – Sept. 2010.
– P. 525-534.
8. Di S., Bouguerra M.S., Bautista-Gomez L., and Cappello F. Optimization of multilevel check-point model for large scale hpc applications // In Parallel and Distributed Processing Symposi-um, 2014 IEEE 28th International. – May 2014. – P. 1181-1190.
9. Корнеев В.В., Семенов Д.В., Телегин П.Н., Шабанов Б.М. Отказоустойчивое децентрали-зованное управление ресурсами грид // Известия вузов. Электроника. – 2015. – № 1.
– С. 83-89.
10. Каляев И.А., Коробкин В.В., Мельник Э.В., Малахов И.В. Отказоустойчивый управляю-щий вычислительный комплекс машины перегрузочной атомного реактора типа ВВЭР // Мехатроника, автоматизация, управление. – 2003. – № 3. – С. 143-146.
11. Мельник Э.В., Горелова Г.В. Имитационное моделирование вариантов резервирования в распределенных информационно-управляющих системах с децентрализованной органи-зацией// Известия ЮФУ. Технические науки. – 2013. – № 3 (140). – С. 184-193.
12. Каляев И.А., Мельник Э.В. Децентрализованные системы компьютерного управления: монография. – Ростов-на-Дону: Изд-во ЮНЦ РАН, 2011. – 196 с.
13. Капустян С.Г., Мельник Э.В. Технология организации отказоустойчивого функционирования распределенных информационно-управляющих систем сложных технических объектов // Вестник компьютерных и информационных технологий. – 2010. – № 4. – С. 33-41.
14. Balaji P., Buntinas D., Goodell D. [et al.]. MPI on a Million Processors // Proceedings of the 16th European PVM/MPI Users’ Group Meeting on Recent Advances in Parallel Virtual Ma-chine and Message Passing Interface. – Berlin, Heidelberg: SpringerVerlag, 2009. – P. 20-30.
15. Хорошевский В.Г. Инженерный анализ функционирования вычислительных машин и систем. – М.: Радио и связь, 1987. – 256 с.
16. Хорошевский В.Г. Архитектура вычислительных систем. – М.: МГТУ им. Баумана, 2008. – 520 с.
17. Павский В.А., Павский К.В. Математическое моделирование функционирования распре-деленных вычислительных систем с отказами и полным восстановлением // Вестник компьютерных и информационных технологий. – 2015. – № 11. – С. 41-44.
18. Pavskii V.A., Pavskii K.V. Stochastic simulation and analysis of the operation of computing systems with structural redundancy // Optoelectronics, instrumentation and data processing, Allerton Press, Inc., 2014. – Vol. 50, No 4. – P. 363-369.
19. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. – М.: URSS, 2010. – 520 с.
20. Клейнрок Л. Теория массового обслуживания. – М.: Машиностроение, 1979. – 432 с.

Comments are closed.