Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна

Скачать 1.52 Mb.

Название	Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна
страница	8/11
Дата публикации	26.08.2013
Размер	1.52 Mb.
Тип	Учебный курс

100-bal.ru > Информатика > Учебный курс

1 2 3 4 5 6 7 8 9 10 11

PathScale

Компания PathScale, разработчик программных и аппаратных решений для Linux-кластеров, представила вы этом году рекордные результаты производительности своего нового интерконнекта PathScale InfiniPath, впервые продемонстрировав его для широкого круга специалистов. Адаптер PathScale InfiniPath — это уникальное решение, обеспечивающее рекордно низкое время задержки интерконнекта (до 1,3 мкс на библиотеке MPI) при пропускной способности 10 Гбит/с. PathScale InfiniPath подключается напрямую к системной шине HyperTransport, реализуя преимущества архитектуры AMD DirectConnect. Для построения кластерных систем использует стандартную инфраструктуру InfiniBand.

Преимуществом PathScale InfiniPath является рост производительности с увеличением количества процессоров в вычислительном узле, что особенно актуально в связи с тенденцией перехода к использованию многоядерных процессоров. Так, при использовании на узле четырёх процессоров PathScale InfiniPath позволяет достичь рекордной цифры в 8 млн. сообщений в секунду. Наибольший выигрыш в производительности достигается при передаче сообщений маленького размера, что позволяет технологии PathScale InfiniPath обеспечивать во многих случаях лучшую, даже чем при использовании систем с общей памятью, производительность.

Развитие этого интерконнекта приведет к появлению плат с выведенной шиной HyperTransport, к примеру, такие продукты уже есть у Iwill. Вообще говоря, пока о признании нового решения говорить сложно, но в будущем, благодаря использованию эксклюзивной шины, они дадут серьёзное преимущество кластерам на базе процессоров AMD Opteron.

SCI

SCI (Scalable Coherent Interconnect — масштабируемый когерентный интерфейс) — сеть используемая для построения кластеров. SCI-кластеры имеют преимущество при решении задач, требующих большого количества пересылок коротких сообщений, так как в таких задачах время задержки (латентность) играет решающую роль.

SCI, является ANSI/IEEE стандартом, определяющим гибкий высокоскоростной протокол передачи данных для соединений «точка-точка». Хотя первоначально SCI задумывался для использования в новых, более быстрых объединительных платах со скоростью передачи данных более 1 Гбита/с, его создатели заглянули далеко вперёд, реализовав в нем превосходную масштабируемую транспортную среду, низкую латентность и когерентность кэша памяти. Интерфейс SCI разработан для обеспечения высокоэффективной передачи данных и совместного использования памяти между процессорами, материнскими платами или объединительными платами аппаратного блока, что показано на рисунке 11.

Рисунок 11 — Области использования коммуникационных сред.

IEEE начала работы по утверждению стандарта SCI в 1989, и после их завершения в 1992 году, его внедрение сначала шло довольно медленно, за исключением команды в Norsk Data, которая внедрила SCI сразу после его утверждения. Эта команда, в конечном счете, и создала компанию, известную сейчас как Dolphin Interconnect. Благодаря их огромному опыту в этой уникальной технологии и работе с различными партнерами в последующие годы эта технология была значительно усовершенствована по сравнению с исходным вариантом.

SCI — это не LAN, а сетевая технология для многопроцессорных систем. По своей сути, SCI — это ведущая технология для построения масштабируемых мультипроцессорных систем, так как она позволяет избежать узких мест, присутствующих у традиционных шин и сетевых технологий. SCI сегодня широко используется для построения серверных кластеров такими компаниями как Sun Microsystems, а также для построения мультипроцессорных систем в вооруженных силах и в аэрокосмической области. SCI также активно внедряется в сверхмощных системах параллельных вычислений в исследовательских центрах по всему миру.

Гибкость. В зависимости от требований к производительности SCI может быть внедрён как 16-битное параллельное соединение с использованием топологий кольцо или коммутируемая звезда (switched-star). Малая латентность. Параллельные соединения SCI обеспечивают соединения с низкой латентностью между платами и/или системами, использующими стандартные интерфейсы объединительной платы, такие как VME, PCI или CPCI, и даже использующими конфигурации второго уровня. Доставка данных ещё одна неотъемлемая характеристика протокола SCI это «гарантированная доставка данных», обеспечивающая экстремально устойчивые и надежные решения.

Современные продукты, основанные на технологии SCI, обеспечивают одновременные соединения приема и передачи данных со скоростью 667 Мбайт/с или 5,33 Гбита/с, с задержкой сообщения между узлами менее 1,4 микросекунды. В будущем, продукты, основанные на SCI, будут достигать скорости двусторонних соединений в 1,333 Гбайт/с, и ёмкости кольца для случайного трафика в 1 Гбайт/с.

Сейчас Dolphin это единственная компания, поставляющая готовые продукты, основанные на технологии SCI, включая чипы, карты и коммутаторы. Компания Dolphin установила своеобразный рекорд по поставкам сверхсовременных продуктов, созданных для того, чтобы позволить клиентам создавать серверные кластеры для корпоративных баз данных и других требовательных приложений.

Латентность соединения продуктов, создаваемых Dolphin на основе технологии SCI, в целом превосходит остальные готовые аппаратные и программные решения. Поэтому, резервное шасси не просто реплицирует данные на диски первичной системы, а также осуществляет мониторинг и отражает все текущие действия между процессорами, кэшем и другими подсистемами памяти настолько подробно, насколько это возможно, и оно производит эту жизненно важную операцию в реальном масштабе времени. Если происходит сбой первичного сервера, резервный немедленно начинает работу, что проявляется в несущественном времени простоя. Замечательно то, что SCI решения Dolphin также менее дорогие, по сравнению с конкурентами, что объясняется меньшим количеством компонентов, обычно требуемых для установки.

Вместо внедрения в сеть дополнительных компонентов для создания отражённой памяти, так как это делается в решениях SBS или VMIC, не использующих первичную память сервера, Dolphin использует экстремально малые служебные сигналы и латентность для доставки коротких сообщений, позволяя передавать напрямую и непрерывно через соединение инструкции процессора Load, Store, Fetch и Interrupt. Протокол SCI исполняется непосредственно в системной памяти, к тому же загрузка процессора для ее перераспределения минимальна. Более того, потребление ресурсов процессора для передачи данных также минимизировано, так как решения Dolphin работают без использования программных наборов протоколов, которые, как известно, основательно загружают центральный процессор. Тогда как короткие сообщения распределяются с использованием инструкций процессора Load и Store, все длинные сообщения и передача данных между блоками памяти управляется непосредственно встроенными Dolphin DMA контроллерами.

SCI — это стандарт, поддерживаемый устоявшимися драйверами протокола. Драйверы устройств и менеджеры запросов прерывания (IRM) были разработаны для всех основных операционных систем. Программный интерфейс приложения (API) Dolphin SISCI разработан для поддержки связи всех наиболее значимых функций процессора, включая: распределение памяти, передачу блоков, прерывания, прямой доступ к памяти (DNA), запросы системы и адаптера, инициация/отключение соединений SCI, тестирование соединений между узлами, и чтение и запись регистров конфигурации, структура стека изображена на рисунке 12.

Рисунок 12 — Структура стека программного обеспечения Dolphin.

NUMAlink

С микропроцессорами, способными совершать более миллиона операций в секунду (меньше 1 нс на операцию), быстрый доступ к памяти важен для достижения сбалансированной, устойчивой производительности при обработке технических задач. Данные, передаваемые через коммутатор SGI NUMAlink, совершают полный оборот всего за 50 нс (это меньше, чем требуется лучу света для прохождения 160 м) по сравнению с 10 000 нс и более, характерных для многих стандартных кластерных интерконнектов. Более того, технология SGI NUMAlink является единственным интерконнектом, обеспечивающим режим глобальной памяти с общим доступом между узлами.

Наивысшая в отрасли производительность технологии интерконнекта NUMAlink становится очевидной при сравнении ее показателей с параметрами полосы пропускания и латентности других технологий (таблица 1). Это ведет к большей производительности всей системы на приложениях MPI, а также на стандартных отраслевых тестах, таких как Linpack.

Таблица 1 — Латентность и полоса пропускания различных интерконнектов.

Технология	Поставщик	Латентность MPI usec, short msg	Полоса пропускания на линк (дуплекс, Mбайт/с)
NUMAlink 4 (Altix)	SGI	1	3200
RapidArray (XD1)	Cray	1,8	2000
QsNet II	Quadrics	2	900
Infiniband	Voltaire	3,5	830
High Performance Switch	IBM	5	1000
Myrinet XP2	Myricom	5,7	495
SP Switch 2	IBM	18	500
Ethernet	Различные	30	100

Лекция №12
Требования к компонентам МВС

Заголовок лекции нужно понимать в более широком смысле, чем просто набор требований к техническим характеристикам компонентов вычислительной системы: процессору, дисковым массивам, памяти, коммутаторам и тому подобным аппаратным средствам. В какой-то степени надежная работа компонентов систем подразумевается априори: компоненты должны работать настолько долго, насколько это необходимо и поддерживать при этом заданные значения параметров системы (ясно, что такое положение является идеализацией). Достигается такая надежность путем улучшения технологий создания компонентов, сборки систем и их эксплуатации и т.п. приемами. Большое значение имеют научно-технические исследования в области создания принципиально новых подходов в разработке и создании как известных компонентов, так и принципиально новых приборов. Но не меньшее, если не большее значение имеют требования, предъявляемые к вычислительной системе, которую планируется построить для реализации конкретных целей, как единого целого: для решения задач определенного круга (научных, экономических и т.п.), как базовой основы для обработки больших потоков данных (информационные системы), оптимальной реализации модели программирования и т.д. Отсюда, в результате проведенного анализа, вытекает выбор архитектуры МВС.

Разработчикам систем необходимо, прежде всего, проанализировать следующие связанные между собой вопросы:

Отношение стоимость/производительность;
Надежность и отказоустойчивость системы;
Масштабируемость системы;
Совместимость программного обеспечения.

Требования к надежности и отказоустойчивости системы рассматриваются в другой лекции.

Отношение стоимость/производительность

Добиться дополнительного повышения производительности в МВС сложнее, чем произвести масштабирование внутри узла. Основным барьером является трудность организации эффективных межузловых связей. Коммуникации, которые существуют между узлами, должны быть устойчивы к задержкам программно поддерживаемой когерентности. Приложения с большим количеством взаимодействующих процессов работают лучше на основе SMP-узлов, в которых коммуникационные связи более быстрые. В кластерах, как и в МРР-системах, масштабирование приложений более эффективно при уменьшении объема коммуникаций между процессами, работающими в разных узлах. Это обычно достигается путем разбиения данных.

Именно такой подход используется в наиболее известном приложении на основе кластеров OPS (Oracle Parallel Server).

Появление любого нового направления в вычислительной технике определяется требованиями компьютерного рынка. Поэтому у разработчиков компьютеров нет единственной цели. Большая универсальная вычислительная машина (мейнфрейм) или суперкомпьютер стоят дорого. Для достижения поставленных целей при проектировании высокопроизводительных конструкций приходится игнорировать стоимостные характеристики.

Суперкомпьютеры фирм Cray Inc., NEC и высокопроизводительные мэйнфреймы компании IBM, суперкластеры фирмы SGI относятся именно к этой категории компьютеров. Другим противоположным примером может служить сравнительно недорогая конструкция, где производительность принесена в жертву для достижения низкой стоимости. К этому направлению относятся персональные компьютеры IBM PC. Между этими двумя крайними направлениями находятся конструкции, основанные на отношении стоимость/производительность, в которых разработчики находят баланс между стоимостью и производительностью. Типичными примерами такого рода компьютеров являются миникомпьютеры и рабочие станции.

Для сравнения различных компьютеров между собой обычно используются стандартные методики измерения производительности. Эти методики позволяют разработчикам и пользователям задействовать полученные в результате испытаний количественные показатели для оценки тех или иных технических решений, и, в конце концов, именно производительность и стоимость дают пользователю рациональную основу для решения вопроса, какой компьютер выбрать.

Например, в качестве критерия измерения производительности используется тест LINPACK. Данный тест был выбран из-за его доступности для почти всех рассматриваемых систем. Тест LINPACK был введен Джеком Донгаррой (Jack Dongarra) в 1976 году. Данный тест основан на решении плотной системы линейных уравнений. Как один из вариантов LINPACK используется версия теста, которая позволяет пользователю менять размерность задачи и оптимизировать программное обеспечение для достижения наилучшей производительности для данной машины. Такая производительность не отражает общую производительность данной системы. Однако она отражает производительность данной системы при решении плотной системы линейных уравнений.

Для оценки производительности вычислительных систем используются также тесты SPECfp_rate_base2000: SPEC, SPECfp и SPECrate, которые являются зарегистрированными торговыми марками Standard Performance Evaluation Corporation. Для оценки скорости работы памяти системы используется тест STREAM Triad.
Масштабируемость

Масштабируемость представляет собой возможность наращивания числа и мощности процессоров, объемов оперативной и внешней памяти и других ресурсов вычислительной системы. Масштабируемость должна обеспечиваться архитектурой и конструкцией компьютера, а также соответствующими средствами программного обеспечения.

Так, например, возможность масштабирования кластера ограничена значением отношения скорости процессора к скорости связи, которое не должно быть слишком большим (реально это отношение для больших систем не может быть более 3-4, в противном случае не удается даже реализовать режим единого образа операционной системы). С другой стороны, последние 10 лет истории развития процессоров и коммуникаторов показывают, что разрыв в скорости между ними все увеличивается. Добавление каждого нового процессора в действительно масштабируемой системе должно давать прогнозируемое увеличение производительности и пропускной способности при приемлемых затратах. Одной из основных задач при построении масштабируемых систем является минимизация стоимости расширения компьютера и упрощение планирования. В идеале добавление процессоров к системе должно приводить к линейному росту ее производительности. Однако это не всегда так. Потери производительности могут возникать, например, при недостаточной пропускной способности шин из-за возрастания трафика между процессорами и основной памятью, а также между памятью и устройствами ввода/вывода. В действительности реальное увеличение производительности трудно оценить заранее, поскольку оно в значительной степени зависит от динамики поведения прикладных задач.

Возможность масштабирования системы определяется не только архитектурой аппаратных средств, но зависит от свойств программного обеспечения. Масштабируемость программного обеспечения затрагивает все его уровни от простых механизмов передачи сообщений до работы с такими сложными объектами как мониторы транзакций и вся среда прикладной системы. В частности, программное обеспечение должно минимизировать трафик межпроцессорного обмена, который может препятствовать линейному росту производительности системы. Аппаратные средства (процессоры, шины и устройства ввода/вывода) являются только частью масштабируемой архитектуры, на которой программное обеспечение может обеспечить предсказуемый рост производительности. Важно понимать, что, например, простой переход на более мощный процессор может привести к перегрузке других компонентов системы. Это означает, что действительно масштабируемая система должна быть сбалансирована по всем параметрам.

Совместимость и мобильность программного обеспечения

Концепция программной совместимости впервые в широких масштабах была применена разработчиками системы IBM/360. Основная задача при проектировании всего ряда моделей этой системы заключалась в создании такой архитектуры, которая была бы одинаковой с точки зрения пользователя для всех моделей системы независимо от цены и производительности каждой из них. Большие преимущества такого подхода, позволяющего сохранять существующий задел программного обеспечения при переходе на новые (как правило, более производительные) модели, были быстро оценены как производителями компьютеров, так и пользователями и, начиная с этого времени, практически все фирмы-поставщики компьютерного оборудования взяли на вооружение эти принципы, поставляя серии совместимых компьютеров. Следует заметить, однако, что со временем даже самая передовая архитектура неизбежно устаревает и возникает потребность внесения радикальных изменений и в архитектуру, и в способы организации вычислительных систем.

В настоящее время одним из наиболее важных факторов, определяющих современные тенденции в развитии информационных технологий, является ориентация компаний-поставщиков компьютерного оборудования на рынок прикладных программных средств. Это объясняется, прежде всего, тем, что для конечного пользователя, в конце концов, важно программное обеспечение, позволяющее решить его задачи, а не выбор той или иной аппаратной платформы. Переход от однородных сетей программно совместимых компьютеров к построению неоднородных сетей, включающих компьютеры разных производителей, в корне изменил и точку зрения на саму сеть: из сравнительно простого средства обмена информацией она превратилась в средство интеграции отдельных ресурсов — мощную распределенную вычислительную систему, каждый элемент которой (сервер или рабочая станция) лучше всего соответствует требованиям конкретной прикладной задачи.

Этот переход выдвинул ряд новых требований. Прежде всего, такая вычислительная среда должна позволять гибко менять количество и состав аппаратных средств и программного обеспечения в соответствии с меняющимися требованиями решаемых задач. Во-вторых, она должна обеспечивать возможность запуска одних и тех же программных систем на различных аппаратных платформах, т.е. обеспечивать мобильность программного обеспечения. В третьих, эта среда должна гарантировать возможность применения одних и тех же человеко-машинных интерфейсов на всех компьютерах, входящих в неоднородную сеть. В условиях жесткой конкуренции производителей аппаратных платформ и программного обеспечения сформировалась концепция открытых систем, представляющая собой совокупность стандартов на различные компоненты вычислительной среды, предназначенных для обеспечения мобильности программных средств в рамках неоднородной, распределенной вычислительной системы.

Одним из вариантов моделей открытой среды является модель OSE (Open System Environment), предложенная комитетом IEEE POSIX. На основе этой модели национальный институт стандартов и технологии США выпустил документ «Application Portability Profile (APP). The U.S. Government's Open System Environment Profile OSE/1 Version 2.0», который определяет рекомендуемые для федеральных учреждений США спецификации в области информационных технологий, обеспечивающие мобильность системного и прикладного программного обеспечения. Все ведущие производители компьютеров и программного обеспечения в США в настоящее время придерживаются требований этого документа.

Лекция № 13
Надежность и отказоустойчивость МВС
Одной из основных проблем построения вычислительных систем остается задача обеспечения их продолжительного функционирования.

Важнейшей характеристикой вычислительных систем является надежность, т.е. работа системы без сбоев в определенных условиях в течение определенного времени. Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности отказов и сбоев за счет применения электронных схем и компонентов с высокой и сверхвысокой степенью интеграции, снижения уровня помех, облегченных режимов работы схем, обеспечения тепловых режимов их работы, а также за счет совершенствования методов сборки аппаратуры.

Понятие надежности включает не только аппаратные средства, но и программное обеспечение, которое используется, в частности, для анализа производительности систем и управления конфигурациями. Главной целью повышения надежности систем является целостность хранящихся в них данных. Единицей измерения надежности является среднее время наработки на отказ (MTBF — Mean Time Between Failure), иначе — среднее время безотказной работы.

Отказоустойчивость — это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей. Введение отказоустойчивости требует избыточного аппаратного и программного обеспечения. Направления, связанные с предотвращением неисправностей и с отказоустойчивостью — основные для обеспечения надежности. Концепции параллельности и отказоустойчивости вычислительных систем естественным образом связаны между собой, поскольку в обоих случаях требуются дополнительные функциональные компоненты. Поэтому на параллельных вычислительных системах достигается как наиболее высокая производительность, так и, во многих случаях, очень высокая надежность. Имеющиеся ресурсы избыточности в параллельных системах могут гибко использоваться как для повышения производительности, так и для повышения надежности. Структура многопроцессорных и многомашинных систем приспособлена к автоматической реконфигурации и обеспечивает возможность продолжения работы системы после возникновения неисправностей.

В настоящее время эти два понятия — надежности и отказоустойчивости — при описании компьютерных систем часто смешивают. Во многом это объяснятся тем, что пользователя (не обязательно индивидуального) интересует главное: вычислительная система должна работать необходимое время и предоставлять определенный набор услуг. Для достижения безотказной работы используются разные приемы, часть из которых мы здесь рассматриваем, не акцентируя внимание на том, к какому из вышеуказанных понятий эти приемы относятся.

Для повышения надежности информационно-вычислительной системы идеальной схемой являются кластерные системы. Благодаря единому представлению, отдельные неисправные узлы или компоненты кластера могут быть без остановки работы и незаметно для пользователя заменены, что обеспечивает непрерывность и безотказную работу вычислительной системы даже в таких сложных приложениях, как базы данных.

Основа надежности кластера — это некоторое избыточное количество отказоустойчивых серверов (узлов) в зависимости от конфигурации кластера и его задач.

Кластерная конфигурация узлов, коммуникационного оборудования и памяти может обеспечить зеркалирование данных, резервирование компонентов самоконтроля и предупреждения, а также совместное использование ресурсов для минимизации потерь при отказе отдельных компонентов.

Решение, обеспечивающее повышенную отказоустойчивость сервера, должно включать:

компоненты с «горячей» заменой;
диски, вентиляторы, внешние накопители, устройства PCI, источники питания;
избыточные источники питания и вентиляторы;
автоматический перезапуск и восстановление системы;
память с коррекцией ошибок;
функции проверки состояния системы;
превентивное обнаружение и анализ неисправностей;
средства удаленного администрирования системы.

Во многих случаях кластер, как типичный представитель МВС, представляется пользователю и администратору как единая система. Наблюдение за системой включает сбор, хранение и извлечение таких показателей как использование центрального процессора и памяти, температура системы и процессора, скорость вращения вентиляторов; эти и другие параметры помогают пользователям и администраторам понимать общее состояние системы и эффективность ее использования.

Единое управление системами кластера позволяет максимально увеличить период безотказной работы, контроль и управление приложениями, операционными системами и аппаратными средствами. При этом все узлы кластера управляются из единого центра контроля.

Программы-утилиты обеспечивают улучшение защиты и возможности восстановления данных, а также сглаживают последствия сбоев в работе оборудования для конечного пользователя. Операционная система кластера служит для управления всеми функциями кластера.

Программное обеспечение дает возможность организовать эффективную службу сопровождения и мониторинга решения, позволяя собирать данные на уровне узла, используя плату управления. Важным направлением является совершенствование и развитие библиотеки MPI и развитие системы отладки параллельных программ, работающих на МВС. К ней относятся отладчики, профилировщики, обеспечивающие контроль над прохождением задач.

В операционной системе HP-UX11i, созданной компанией Hewlett-Packard и предназначенной для обслуживания критически важных задач в Internet, для повышения надежности предусмотрена возможность подключения дополнительных процессоров без перезагрузки ОС. Применение файловой системы Veritas дает возможность резервного копирования в режиме online и дефрагментации дисков без выключения системы. Операционная система может отключать неработоспособные процессоры и блоки памяти без выключения системы.

Системы хранения должны быть представлены RAID-системами высокой готовности. Избыточные соединения должны обеспечивать доступность данных даже в случае выхода из строя узлов, контроллеров или кабелей. Соединение с системами хранения данных в кластере может быть реализовано как с использованием интерфейсов SCSI, так и на основе Fibre Channel технологии.

Для синхронизации и совместной работы серверов в качестве кластера необходимы избыточные соединения между серверами, называемые «системным соединением» (private interconnect). Системное соединение используется для передачи сигналов о состоянии серверов, а также применяется параллельными базами данных для передачи данных.

Катастрофоустойчивые решения создаются на основе разнесения узлов кластерной системы на сотни километров и обеспечения механизмов глобальной синхронизации данных между такими узлами.

В качестве примера повышения надежности кластерной системы приведем решения фирмы Hewlett-Packard. В этих решениях, в зависимости от нужного уровня отказоустойчивости, серверные узлы кластера размещаются следующим образом:

централизованно (локальный кластер);
по соседним зданиям (кампусный кластер);
по нескольким территориям в пределах города (метро кластер);
в разных городах, странах или континентах (два связанных кластера — континентальный кластер).

В дополнение к дублированному центральному коммутатору, все аппаратные компоненты - системный контроллер, источники питания, системы охлаждения, часы - полностью дублированы. Система не имеет единичной точки сбоя. Для сравнения, если такой простой элемент, как системные часы, выйдет из строя в дорогостоящем сервере HP Superdome или IBM p680, вся система прекратит работу.

В систему должны быть заранее установлены или сконфигурированы запасные модули, так что при отказе одного из модулей запасной модуль может заменить его практически немедленно. Отказавший модуль может ремонтироваться автономно, в то время как система продолжает работать.

Принцип быстрого проявления неисправности обычно реализуется с помощью двух методов: самоконтроля и сравнения. Средства самоконтроля предполагают, что при выполнении некоторой операции модуль делает и некоторую дополнительную работу, позволяющую подтвердить правильность полученного состояния. Примерами этого метода являются коды обнаружения неисправности при хранении данных и передаче сообщений. Метод сравнения основывается на выполнении одной и той же операции двумя или большим числом модулей и сопоставлении результатов компаратором. В случае обнаружения несовпадения результатов работа приостанавливается.

Методы самоконтроля были основой построения отказоустойчивых систем в течение многих лет. Они требуют реализации дополнительных схем и времени разработки и, вероятно, будут доминировать в устройствах памяти и устройствах связи благодаря простоте и ясности логики. Однако для сложных устройств обработки данных экономические соображения, связанные с применением стандартных массовых компонентов, навязывают использование методов сравнения. Поскольку компараторы сравнительно просты, их применение дает некоторое увеличение логических схем при существенном сокращении времени разработки. Следует отметить, что в более ранних отказоустойчивых конструкциях 30% логических схем процессоров и 30% времени разработки уходило на реализацию средств самоконтроля. С этой точки зрения схемы сравнения добавляют лишь универсальные схемы с простой логикой. В результате сокращаются общие расходы на разработку и логику.

Еще одним средством построения отказоустойчивой архитектуры является принцип дублирования дуплексных модулей, который предполагает создание некоторой комбинации двух модулей («супермодуля»), построенных на принципах быстрого проявления неисправности. Такой "супермодуль" продолжает работать даже когда отказывает один из субмодулей.

Дублирование дуплексных модулей требует большего объема оборудования, но позволяет делать выбор одного из режимов работы: организацию либо двух независимых вычислений на принципах быстрого проявления неисправности, выполняющихся на двух парах модулей, либо одного высоконадежного вычисления, выполняющегося на всех четырех модулях.

Необходимо помнить, что сама по себе избыточность только снижает надежность в случае дублирования и троирования. Для существенного увеличения уровня готовности избыточная конструкция должна обеспечивать возможность ремонта и замены отказавших модулей.

Лекция № 14
Кластеры и массивно-параллельные системы различных производителей. Примеры кластерных решений IBM. Примеры кластерных решений HP. Примеры кластерных решений SGI.

Развитие сетевых технологий привело к появлению недорогих, но эффективных коммуникационных решений. Это и предопределило появление кластерных вычислительных систем, фактически являющихся одним из направлений развития компьютеров с массовым параллелизмом. Классические суперкомпьютеры, использующие специализированные процессоры таких производителей какСray или NEC (векторно-параллельные или массивно-параллельные), недешевы, поэтому и стоимость подобных систем несравнима со стоимостью систем, находящихся в массовом производстве.

Вычислительные системы (ВС), создаваемые из массово выпускаемых компонентов, стали альтернативой традиционным суперкомпьютерным системам. При выполнении многих прикладных задач такие ВС, даже с небольшим или средним (до 128–256) числом вычислительных модулей, показывают производительность, не уступающую или даже превосходящую производительность традиционных суперкомпьютеров как с распределенной, так и с разделяемой памятью. При этом такие ВС обладают рядом преимуществ, среди которых: более низкая стоимость, короткий цикл разработки и возможность оперативно использовать наиболее эффективные вычислительные и коммуникационные компоненты, из имеющихся на рынке, во время создания системы. Поэтому неудивительно, что ведущие разработчики высокопроизводительной техники приступили к созданию кластерных систем.

1 2 3 4 5 6 7 8 9 10 11

	Выпускной вечер 2004г Владимир Жириновский, Ирина Хакамада и Владимир Владимирович Путин с супругой …не приехали. Но только сегодня и только для вас у...		Прокопьев Валерий Викторович Методист: Гончаров Владимир Борисович... Образовательная – дать преставление о составе программного обеспечения компьютера
	Реферат Вячеслав Геннадьевич, Богославский Дмитрий Дмитриевич, Бодягин Владимир Михайлович, Бодягин Андрей Владимирович, Волков Сергей Денисович,...		К статьям журнала «Компьютерная оптика» Юрий Владимирович Микляев3 (доцент, e-mail: ), Владимир Евгеньевич Дмитриенко4 (ведущий научный сотрудник, e-mail: ), Владимир Сергеевич...
	Президентская программа подготовки управленческих кадров для организаций... Авторский коллектив: Владилен Быстров, Александр Кобышев, Евгений Кобышев, Александр Козлов, Владимир Лысков-Штреве		Урок на тему: «Ансамблевое музицирование в классе баяна, аккордеона» Проводит лауреат Международных конкурсов, преподаватель рам им. Гнесиных селиванов александр Владимирович
	Директор школы: Передвигин Владимир Владимирович Приоритетные цели и задачи развития школы, деятельность по их решению в отчетный период 20		Программа дисциплины Безопасность жизнедеятельности для направления... Автор программы: к т н., доцент кафедры физического воспитания Полшков Александр Владимирович
	Общественного объединения «белорусский республиканский союз молодежи»... Координатор конференции – Председатель Совета молодых ученых нан беларуси Казбанов Владимир Владимирович		Комаров владимир борисович (10. 05. 1890 08. 10. 1971) Комаров Владимир... Цели и задачи дисциплины: Дать студентам представление о принципах формирования компьютерного изображения, работы с фото и видео...
	Урок физики в 7 классе по теме «Давление газов, жидкостей и твердых тел» Разработал учитель физики мбоу «Ладомировская сош» Ломакин Александр Владимирович		Боб Фьюсел Александр Владимирович Лихач Супермозг. Тренинг памяти, внимания и речи ...
	Владимира Владимировича Набокова 1899-1977 Набо́ков владимир Владимирович (12 (24) апреля 1899, Петербург — 3 июля 1977, Монтре, Швейцария), русский и американский писатель;...		Александр Александрович Бушков Владимир Путин. Полковник, ставший капитаном I. порядок применения правил землепользования и застройки городского округа лыткарино и внесения в них изменений
	Тема: Разработка автоматизированного программного комплекса управления... Омский институт водного транспорта (филиал) фбоу впо «Новосибирская государственная академия водного транспорта»		Программа по формированию навыков безопасного поведения на дорогах... Аббакумов Сергей, Чехлов Александр, Шайдуров Владимир, мбоу инженерный лицей нгту, г. Новосибирск

PathScale

Похожие: