Алгоритмический и программный инструментарий дельта-оптимизации контрольных точек восстановления параллельных программ

Автор: Поляков Артем Юрьевич, Молдованова Ольга Владимировна

Журнал: Проблемы информатики @problem-info

Рубрика: Системная информатика

Статья в выпуске: 2 (14), 2012 года.

Бесплатный доступ

Предложены алгоритмы оптимизации контрольных точек восстановления параллельных программ по времени их создания и объему. В основе созданных алгоритмов лежит технология дельта-сжатия. В частности, разработан адаптивный алгоритм ADCA дельта-сжатия контрольных точек, обеспечивающий субоптимальный выбор между инкрементным и дифференциальным дельта-сжатием. Создан алгоритм комбинированного сжатия PaComp, позволяющий сочетать преимущества дельта-сжатия и алгоритмов, применяемых в программах-архиваторах. Путем экспериментального моделирования на мультикластерной вычислительной системе показана эффективность предложенных алгоритмов для набора прикладных параллельных программ.

Еще

Распределенные вычислительные системы, контрольные точки восстановления, отказоустойчивость

Короткий адрес: https://readera.ru/14320123

IDR: 14320123

Список литературы Алгоритмический и программный инструментарий дельта-оптимизации контрольных точек восстановления параллельных программ

  • Хорошевский В. Г., Курносов М. Г., Мамойленко С. Н., Поляков А. Ю.} Архитектура и программное обеспечение пространственно распределенных вычислительных систем//Вестн. СибГУТИ. 2010. \No~2. С.~112-122
  • Philp I.} Software failures and the road to a petaflop machine//1st Workshop on high performance computing reliability issues. Proc. of the 11th Intern. symp. high performance comput. architecture (HPCA-11), San Francisco (USA), 12-16 Feb. 2005. Washington: IEEE Comput. Soc., 2005.
  • Adiga N. R., Almasi G., Almasi G. S. } An overview of the BlueGene/L supercomputer//Proc. of the IEEE/ACM SC2002 conf. (SC'02), Baltimore (USA), 16-22~Nov. 2002. Washington: IEEE Comput. Soc., 2002. P.~1-22.
  • Elnozahy E. N., Alvisi~L., Wang~Y.~M., Johnson~D.~B.} A survey of rollback-recovery protocols in message-passing systems//ACM Comput. Surveys. 2002. V.~34, N~3. P.~375-408.
  • Hursey J., Squyres~J.~M., Mattox~T.~I., Lumsdaine~A.} The design and implementation of checkpoint/restart process fault tolerance for Open MPI//Proc. of the 21st IEEE Intern. parallel and distributed processing symp. (IPDPS), Long Beach (USA), 26-30~March 2007. Washington: IEEE Comput. Soc.,~2007. P.~1-8.
  • Ansel J., Arya~K., Cooperman~G.} DMTCP: Transparent сheckpointing for сluster сomputations and the desktop//Proc. of IEEE Intern. parallel and distributed processing symp. (IPDPS'09), Rome (Italy), 23-29~May 2009. Washington: IEEE Press,~2009. P.~1-12.
  • Kiswany S. A., Ripeanu~M., Vazhkudai~S.~S., Gharaibeh~A.} stdchk: A checkpoint storage system for desktop grid computing//Proc. of the 28th IEEE Intern. conf. distributed comput. sys. (ICDCS 2008), Beijing (China), 17-20~June 2008. Washington: IEEE Comput. Soc.,~2008. P.~613-624.
  • Sangho Y. S., Heo Y. J., Cho Y., Hong J.} Adaptive page-level incremental checkpointing based on expected recovery time//Proc. of the 21st Annual ACM symp. on applied comput., Dijon (France), 23-27~Apr. 2006. N.~Y.: ACM, 2006. P.~1472-1476.
  • Plank J. S., Xu J., Netzer R.} Compressed differences: An algorithm for fast incremental checkpointing: Tech. report/Univ. of Tennessee. CS-95-302; Tennessee, 1995.
  • Agarwal S., Garg R., Gupta M. S., Moreira J. E.} Adaptive incremental checkpointing for massively parallel systems//ICS '04: Proc. of the 18th Annual intern. conf. on supercomputing, Saint-Malo (France), June~26~-July~1, 2004. N.~Y.: ACM Press, 2004. P.~277-286.
  • Поляков А. Ю., Молдованова О. В.} Дельта-оптимизация контрольных точек восстановления параллельных программ//Вестн. ТГУ. Сер.~Управление, вычислительная техника и информатика. 2011. \No~2. С.~72-80.
  • Сайт проекта HBICT. [Электрон. ресурс]. http://hbict.cpct.sibsutis.ru.
  • Центр параллельных вычислительных технологий ФГОБУ ВПО ``СибГУТИ'' и ИФП СО РАН [Электрон. ресурс]. http://cpct.sibsutis.ru/.
  • Рычков А. Д., Шокина Н. Ю., Милошевич Х.} Моделирование процесса зажигания гранулированного унитарного твердого топлива в камере сгорания айрбэга//Материалы Междунар. конф. ``Вычислительные и информационные технологии в науке, технике и образовании'', Павлодар (Казахстан), 20-22~сент. 2006. Павлодар: ТОО НПФ "ЭКО", 2006. Т.~2. С.~165-175.
  • LAMMPS molecular dynamics simulator [Электрон. ресурс]. http://lammps.sandia.gov/.
Еще
Статья научная