Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна

Скачать 1.52 Mb.

Название	Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна
страница	7/11
Дата публикации	26.08.2013
Размер	1.52 Mb.
Тип	Учебный курс

100-bal.ru > Информатика > Учебный курс

1 2 3 4 5 6 7 8 9 10 11

Лекция №8

Перспективы развития многоядерной индустрии

Многоядерные проекты Intel

В настоящее время корпорация Intel уже работает над многоядерной архитектурой, которая, в конечном счёте, позволит объединить десятки и даже сотни процессорных ядер на одном кристалле. Разрабатываются также планы создания специализированных конфигурируемых ядер, которые обеспечат оптимальную производительность для некоторых важнейших задач будущего, таких как анализ информации в базе данных и улучшенная обработка изображений и речи. Сейчас корпорация Intel разрабатывает сразу 17 многоядерных процессоров и в ближайшем будущем сможет поставлять их для всех семейств своей продукции на различных платформах, включая клиентские, серверные и коммуникационные системы. В состав многоядерного серверного процессора входят два или более исполнительных ядра на каждый физический процессор, что позволяет серверным платформам одновременно обрабатывать больше заданий, программных потоков или приложений.

Согласно прогнозам Intel, к концу 2006 года более 85% процессоров для серверов будет многоядерными, а более 70% настольных и мобильных ПК будут выполняться на базе двухъядерных процессоров. В 2007 году — все серверы и более 90% настольных и мобильных ПК будут оснащены многоядерными процессорами. До конца текущего десятилетия Intel планирует предложить серверные платформы уровня предприятия, способные обрабатывать 32 потока данных, а настольные системы — 8 потоков. Практически Intel уже работает над многоядерной архитектурой, благодаря которой на одном процессоре можно будет размещать сотни вычислительных ядер. Многоядерные процессоры приведут к изменению форм-фактора серверов.

С целью снижения себестоимости систем класса Itanium компания Intel в 2007 году собирается перевести свои процессоры Itanium и Xeon на взаимозаменяемый конструктив, что позволит их устанавливать в одинаковые материнские платы. Подобная унификация инфраструктуры предоставит возможность производителям плат создавать решения для Itanium и Xeon из общих компонент, и в результате снижать конечную стоимость серверных систем. Такой подход получил название Common Platform Architecture.

Для реализации описанной технологии Intel намерена разработать новый универсальный процессорный разъём и выпустить соответствующие продукты. Процессор семейства Itanium, известный под кодовым названием Tukwila, должен содержать не менее четырёх ядер. Его аналогами для двухпроцессорных конфигураций станут Dimona/LV Dimona, последний с пониженным уровнем энергопотребления. Наконец, семейство Xeon пополнит чип Whitefield, разработанный специально для Common Platform Architecture.

Технология ускорения ввода-вывода I/OAT (Intel I/O Acceleration Technology) появилась в то время, когда потребности приложений (таких, как электронная коммерция, обмен сообщениями, приложения для кластеров, устройств хранения данных и серверов) начали обгонять способность серверов к реагированию и их возможности в части быстрого и надежного обмена сетевыми данными с приложениями. В то время как производительность серверных процессоров и пропускная способность сетей за последние годы значительно выросли, основной метод обмена данными остался прежним. Сегодня вся тяжесть обработки данных, доступа к памяти и реализации протоколов обмена для каждого пакета данных лежит на серверном процессоре. В результате работа серверных приложений замедляется, а время отклика, надежность и удобство работы перестают отвечать потребностям пользователей.

Для решения этой проблемы в технологии ускорения ввода-вывода Intel применяется общеплатформенный подход. Задача управления данными распределяется между всеми компонентами платформы: процессором, набором микросхем, сетевым контроллером и ПО. Общеплатформенный подход позволяет снизить нагрузку на процессор и ускорить обмен данными. Загруженность процессора снижается благодаря тому, что набор микросхем и сетевой контроллер получают возможность считывать данные из памяти и записывать их в память.

Intel также оптимизировала протокол TCP/IP. В результате загруженность процессоров в серверах архитектуры Intel снизилась наполовину, а вычислительные ресурсы высвободились для решения других задач. В среднем такой подход позволяет ускорить обмен данными между платформой и приложениями на 30% и освобождает процессор для выполнения другой вычислительной работы.

Кроме того, подход, применяемый в технологии I/OAT, позволяет отказаться от искусственных надстроек, применяемых в существующих технологиях, таких, как механизмы разгрузки TCP (TCP offload engine, TOE). Как известно, TOE — это специализированные дорогостоящие микросхемы, предназначенные для разгрузки процессора при обработке протокола TCP/IP, но они не решают двух основных проблем, связанных с процессором: снижения системных издержек и организации доступа к памяти. В результате TOE эффективны только для таких приложений, где велика информационная составляющая пакетов данных, например, для высокопроизводительных систем управления базами данных или для хранилищ данных.

Платформа под кодовым названием Richford будет содержать два процессора Intel Itanium под кодовым названием Tukwila, которые предполагается выпустить в 2007 г., а за ними последуют процессоры Intel Itanium следующего поколения под кодовым названием Poulson.

Платформа для цифрового офиса под кодовым названием Lyndon появится позднее в нынешнем году и будет построена на наборах микросхем серии Intel 945/955 и процессорах Pentium 4 5xx/6xx, а также новых двухъядерных процессорах Pentium D (кодовое название Smithfield). Платформа Lyndon будет поддерживать технологии Intel Active Management Technology и Virtualization Technology.

С выпуском двухъядерного серверного процессора из серии Woodcrest Xeon 5100 Intel начинает производство ядра новой микроархитектуры Core Microarchitecture, в которой упор делается на экономное энергопотребление. Подход Tera-scale означает радикальное изменение по сравнению с процессором Intel Xeon 5100, в котором используются два сложных ядра. Проект в области Tera-scale был начат потому, что количество транзисторов в процессоре уже измеряется миллиардами, а со временем ещё и удвоится. Исследователи утверждают, что к концу десятилетия это число приблизится к 32 млрд.

Выпуск многоядерного процессора Dunnington семейства Intel Xeon для многопроцессорных серверов намечен на 2008 год. Dunnington станет преемником процессора Tigerton и будет изготавливаться по 45-нанометровой производственной технологии.

Многоядерный процессор из семейства Intel Itanium, поставки которого начнутся в 2008 году. Процессор с кодовым названием Tukwila будет содержать четыре или большее число ядер и иметь общую архитектуру с будущей платформой на базе процессоров семейства Intel Xe

Многоядерные проекты AMD

Переход на использование процессоров с несколькими ядрами был предпринят компаниями AMD и Intel в качестве единственного способа повышения производительности без увеличения уровня энергопотребления и снижения высокого тепловыделения.

Сложности, связанные с максимальной адаптацией архитектуры многоядерных процессоров к различным классам решаемых задач и к имеющимся на данный момент программным обеспечением, достаточно велики. Большинство существующих программных продуктов ориентировано на работу с нагрузками, предусматривающими высокую пропускную способность. Программная инфраструктура пока не готова к работе с задачами, предусматривающими распараллеливание нагрузки. Быстро ситуацию изменить нельзя.

AMD и Intel поэтому не торопятся представлять процессоры с четырьмя ядрами потребительского класса, которые появятся в 2007 году только в серверных решениях. У двухъядерных процессоров будут наращиваться тактовые частоты, объём кэша или будет поддерживаться более быстрая память. Альтернативой может служить смена архитектуры, примером такого подхода может служить семейство ядер Intel Core 2 Duo.

AMD планирует пополнить семейство процессоров Opteron сразу тремя двухъядерными моделями с кодовыми названиями Denmark, Italy и Egypt. Первая продолжит 100-ю серию, рассчитанную на работу только в однопроцессорных конфигурациях, вторая – 200-ю серию для систем, содержащих до двух процессоров, и последняя – 800 серию для 8-процессорных и менее систем. Как AMD так и Intel планируют впервые реализовать в своих серверных процессорах технологии аппаратной виртуализации, которые позволят повысить производительность при работе с виртуальными машинами типа VMware и Virtual Server. Технология, интегрированная в Montecito, известна под кодовым названием Silvervale, её аналог для процессоров AMD носит название Pacifica.

Компания AMD с рядом партнёров, среди которых и IBM, работает над созданием 45-нм чипов. Появление первых коммерческих образцов таких процессоров ожидается не ранее 2008 года. Уже сейчас AMD и IBM совместно разрабатывают 22-нм технологию.

AMD планирует начать переход на 0,065-микронный технологический процесс в 2007 году. При этом производство микросхем по новым нормам будет развёрнуто уже в конце текущего года, однако серийное производство и массовые поставки таких чипов начнутся лишь в будущем году. Скорее всего, первые четырёхъядерные процессоры будут выпускаться именно по 0,065-микронной технологии.

Поскольку AMD, в отличие от Intel, не располагает обширной производственной базой с самым разнообразным оборудованием, а также широким спектром специалистов, переход на новые технологические нормы даётся этой компании тяжелее: он занимает больше времени (до трёх лет) и требует привлечения сторонних специалистов. К сожалению, длительность перехода на новые техпроцессы остаётся слабым местом AMD, чем, несомненно, будут продолжать пользоваться конкуренты из Intel.

Как и Intel, компания AMD будет выпускать весь спектр процессоров: серверных, настольных и мобильных на основе единой архитектуры. Точнее, даже на базе единого ядра, которое появится в 2007 году. Пока никакой подробной информации об этом ядре нет.

Все процессоры новой архитектуры получат новую системную шину HyperTransport 3.0, а серверные модификации ещё и дополнительную кэш-память третьего уровня. Кроме того, велика вероятность очередной смены процессорного разъёма: AM2 может продержаться недолго, и его заменит некий разъём с условным названием Socket M3, Впрочем, пока даже об особенностях архитектуры новых процессоров можно рассуждать лишь предположительно.

На некоторых сайтах появились сведения о том, что компания AMD разрабатывает технологию, обратную по своему действию технологии Hyper-Threading от Intel, которая позволяет одному процессору заменять собой два виртуальных ядра, и разделять между собой потоки данных. Intel отказалась от дальнейшего развития такой технологии в пользу реальной многоядерности, но не исключает возможности возрождения такой технологии в новом исполнении. Использование технологии Hyper-Threading иногда вызывает снижение производительности, так как два виртуальных ядра начинают конфликтовать между собой при попытке определить приоритет обработки потоков данных.

Технология AMD позволит объединять ресурсы двух физических ядер для ускорения задач, оптимально работающих на одноядерных процессорах. Соответствующая функциональность уже встроена в двухъядерные процессоры Athlon 64 X2 в исполнении Socket AM2. Для её активации понадобится лишь обновить драйвер процессора и BIOS материнской платы. Компания Microsoft должна выпустить соответствующий патч для операционных систем, который позволит воспринимать два ядра Athlon 64 X2 как одно.

Многоядерные проекты IBM

IBM планирует внести в процессоры Power5 и Power6 аппаратный элемент, по имени «FastPath», который будет выполнять задачи, ранее возложенные на плечи программного обеспечения. Также процессор Power6 сможет выполнять такие задачи, как сжатие данных для отправки по сети. Power6 тоже предоставит широкие возможности этого плана, а именно он будет аппаратно выполнять многие функции, которые сейчас поддерживаются программным обеспечением (БД IBM или Oracle, IBM WebSphere — программное решение для e-commerce).

Лекция № 9
Коммутаторы для многопроцессорных вычислительных систем. Простые коммутаторы.
Коммуникационные среды вычислительных систем (ВС) состоят из адаптеров вычислительных модулей (ВМ) и коммутаторов, обеспечивающих соединения между ними. Используются как простые коммутаторы, так и составные, компонуемые из набора простых. Простые коммутаторы могут соединять лишь малое число ВМ в силу физических ограничений, однако обеспечивают при этом минимальную задержку при установлении соединения. Составные коммутаторы, обычно строящиеся из простых в виде многокаскадных схем с помощью линий «точка-точка», преодолевают ограничение на малое количество соединений, однако увеличивают и задержки.

Простые коммутаторы

Типы простых коммутаторов:

- с временным разделением
- с пространственным разделением

Достоинства: простота управления и высокое быстродействие. Недостатки: малое количество входов и выходов.

Примеры использования:

- простые коммутаторы с временным разделением используются в системах SMP Power Challenge от SGI,
- простые коммутаторы с пространственным разделением (Gigaplane) используются в семействе Sun Ultra Enterprise.

Простые коммутаторы с временным разделением

Простые коммутаторы с временным разделением называются также шинами или шинными структурами. Все устройства подключаются к общей информационной магистрали, используемой для передачи информации между ними. Обычно шина является пассивным элементом, управление передачами осуществляется передающими и принимающими устройствами.

Процесс передачи выглядит следующим образом.

Передающее устройство сначала получает доступ к шине, далее пытается установить контакт с устройством-адресатом и определить его способность к приему данных. Принимающее устройство распознает свой адрес на шине и отвечает на запрос передающего. Далее передающее устройство сообщает, какие действия должно произвести принимающее устройство в ходе взаимодействия. После этого происходит передача данных.

Так как шина является общим ресурсом, за доступ к которому соревнуются подключенные к ней устройства, необходимы методы управления предоставлением доступа устройств к шине. Возможно использование центрального устройства для управления доступом к шине, однако это уменьшает масштабируемость и гибкость системы.

Для разрешения конфликтов, возникающих при одновременном запросе устройств на доступ к шине, используются различные приемы, в частности:

назначение каждому устройству уникального приоритета (статического или динамического),
использование очереди запросов FIFO,
выделение фиксированных временных интервалов каждому устройству.

Алгоритмы арбитража

Статические приоритеты

Каждое устройство в системе получает уникальный приоритет, при одновременном запросе нескольких устройств на передачу доступ к шине предоставляется устройству с наивысшим приоритетом. На практике часто используется соединение устройств в цепь, при котором приоритет устройства определяется местом его подключения к шине. Для контроля доступа к шине используется отдельный блок управления.

Динамические приоритеты

Так же, как и в предыдущем алгоритме, устройства получают уникальные приоритеты, однако в отличие от него эти приоритеты непостоянны во времени. Приоритеты динамически изменяются, предоставляя устройствам более или менее равные шансы получения доступа к шине. Чаще всего применяются следующие способы изменения приоритетов: предоставление наивысшего приоритета устройству, наиболее долго не использовавшему шину, и циклическая смена приоритетов. Контроль доступа к шине осуществляет устройство, получившее доступ к шине в предыдущем цикле арбитража.

Фиксированные временные интервалы

Все устройства по порядку получают одинаковые временные интервалы для осуществления передачи. Если устройство не имеет данных для передачи, то интервал, тем не менее, следующему устройству не предоставляется.

Очередь FIFO

Создается очередь запросов “первый пришел – первый ушел”, однако сохраняется проблема арбитража между почти одновременными запросами, а также возникает необходимость поддержания очереди запросов достаточной длины. Преимуществом данного алгоритма является возможность достижения максимальной пропускной способности шины.

Особенности реализации шин

Внутри микросхем шины используются для объединения функциональных блоков микропроцессоров, микросхем памяти, микроконтроллеров. Шины используются для объединения устройств на печатных платах и печатных плат в блоках. В последнее время широко применяются шины следующих стандартов:

ISA – Industry Standard Architecture
EISA – Extended ISA
VESA – Video Electronics Standards Association
PCI – Peripheral Computer Interconnect
I2C – Inter Integrated Circuit
AGP – Accelerated Graphic Port

Шины используются также в мезонинной технологии, где на большой плате устанавливается один или несколько шинных разъемов для установки меньших плат, так называемых мезонинов.

Шины, объединяющие устройства, из которых состоит вычислительная система, являются критическим ресурсом, отказ которого может привести к отказу всей системы. Шины обладают также рядом принципиальных ограничений. Возможность масштабируемости шинных структур ограничивается временем, затрачиваемым на арбитраж, и количеством устройств, подключенных к шине. При этом чем больше подключенных устройств, тем больше время, затрачиваемое на арбитраж. Время арбитража ограничивает и пропускную способность шины. Кроме того, в каждый момент времени шина используется для передачи только одним устройством, что становится узким местом при увеличении количества подключенных устройств. Пропускная способность шины ограничивается ее шириной – количеством проводников, используемых для передачи данных – и тактовой частотой ее работы. Данные величины имеют физические ограничения.

Простые коммутаторы с пространственным разделением

Простые коммутаторы с пространственным разделением позволяют одновременно соединять любой вход с любым одним выходом (ординарные) или несколькими выходами (неординарные). Такие коммутаторы представляют собой совокупность мультиплексоров, количество которых соответствует количеству выходов коммутатора, при этом каждый вход коммутатора должен быть заведен на все мультиплексоры.

Достоинства:
• возможность одновременного контакта со всеми устройствами
• минимальная задержка

Недостатки:
• высокая сложность порядка n x m, где n – количество входов, m – количество выходов
• сложность обеспечения надежности.

Лекция № 10
Коммутаторы для многопроцессорных вычислительных систем. Составные коммутаторы. Распределенные составные коммутаторы.
Составные коммутаторы

Простые коммутаторы имеют ограничения на число входов и выходов, а также могут требовать большого количества оборудования при увеличении этого числа (в случае пространственных коммутаторов). Поэтому для построения коммутаторов с большим количеством входов и выходов используют совокупность простых коммутаторов, объединенных с помощью линий “точка-точка”.

Составные коммутаторы имеют задержку, пропорциональную количеству простых коммутаторов, через которые проходит сигнал от входа до выхода, т.е. числу каскадов. Однако объем оборудования составного коммутатора меньше, чем простого с тем же количеством входов и выходов.

Чаще всего составные коммутаторы строятся из прямоугольных коммутаторов 2х2 с двумя входами и выходами. Они имеют два состояния: прямое пропускание входов на соответствующие выходы и перекрестное пропускание. Коммутатор 2 х 2 состоит из собственно блока коммутации данных и блока управления. Блок управления в зависимости от поступающих на него управляющих сигналов определяет, какой тип соединения следует осуществить в блоке коммутации: прямой или перекрестный. При этом если оба входа хотят соединиться с одним выходом, то коммутатор разрешает конфликт и связывает с данным выходом только один вход, а запрос на соединение со стороны второго блокируется или отвергается.

Коммутатор Клоза

Коммутатор Клоза может быть построен в качестве альтернативы для прямоугольного коммутатора с (m x d) входами и (m x d) выходами. Он формируется из трех каскадов коммутаторов: m коммутаторов (d x d) во входном каскаде, m коммутаторов (d x d) в выходном и d промежуточных коммутаторов (m x m).

Соединения внутри коммутатора устроены следующим образом:

j-й выход i-ого коммутатора входного каскада соединен с i-ым входом j-ого промежуточного коммутатора
j-й вход k-ого коммутатора выходного каскада соединен с k-ым выходом j-ого промежуточного коммутатора

Данный тип составных коммутаторов позволяет соединять любой вход с любым выходом, однако при установленных соединениях добавление нового соединения может потребовать разрыва и переустановления всех соединений.

Баньян-сети

Коммутаторы этого типа строятся на базе прямоугольных коммутаторов таким образом, что существует только один путь от каждого входа к каждому выходу.

Наиболее важной разновидностью баньян-сетей является дельта-сеть. Она формируется из прямоугольных коммутаторов (a x b) и представляет собой n-каскадный коммутатор с an входами и bn выходами. Составляющие коммутаторы соединены так, что для соединения любого входа и выхода образуется единственный путь одинаковой для всех пар входов и выходов длины.

Распределенные составные коммутаторы

В распределенных вычислительных системах ресурсы разделяются между задачами, каждая из которых исполняется на своем подмножестве процессоров. В связи с этим возникает понятие близости процессоров, которая является важной для активно взаимодействующих процессоров. Обычно близость процессоров выражается в различной каскадности соединений, различных расстояниях между ними.

Один из вариантов создания составных коммутаторов заключается в объединении прямоугольных коммутаторов (v+1 x v+1), v > 1, таким образом, что один вход и один выход каждого составляющего коммутатора служат входом и выходом составного коммутатора. К каждому внутреннему коммутатору подсоединяются процессор и память, образуя вычислительный модуль с v каналами для соединения с другими вычислительными модулями. Свободные v входов и v выходов каждого вычислительного модуля соединяются линиями “точка-точка” с входами и выходами других коммутаторов, образуя граф межмодульных связей.

Наиболее эффективным графом межмодульных связей с точки зрения организации обмена данными между вычислительными модулями является полный граф. В этом случае между каждой парой вычислительных модулей существует прямое соединение. При этом возможны одновременные соединения между произвольными вычислительными модулями.

Однако обычно создать полный граф межмодульных связей невозможно по ряду причин. Обмен данными приходится производить через цепочки транзитных модулей. Из-за этого увеличиваются задержки, и ограничивается возможность установления одновременных соединений. Таким образом, эффективный граф межмодульных связей должен минимизировать время межмодульных обменов и максимально увеличить количество одновременно активизированных соединений. Кроме того, на выбор графа межмодульных связей влияет учет отказов и восстановлений вычислительных модулей и линий связи.

Граф межмодульных связей Convex Exemplar SPP1000

траница 1ями.

ими.

выходу.

________________________________________________________________________________________________В качестве примера реального графа межмодульных связей рассмотрим структуру системы Convex Exemplar SPP1000. В основе каждого составного блока системы лежит прямоугольный коммутатор (5х5), до 16 подобных блоков объединяются каналами “точка-точка” в кольцо (одномерный тор), состоящее из четырех независимых подканалов.

Внутри каждого блока четыре входа и выхода прямоугольного коммутатора (5х5) используются для взаимодействия устройств внутри блока (при этом в каждом блоке располагается по два процессора), пятые вход и выход используются для объединения блоков в кольцо. При этом каждый из четырех кольцевых каналов рассматривается как независимый ресурс, и система сохраняет работоспособность до тех пор, пока существует хотя бы один функционирующий кольцевой канал.

Граф межмодульных связей МВС-100

Система МВС-100 предлагает блочный подход к построению архитектуры параллельной вычислительной системы. Структурный модуль системы состоит из 16 вычислительных узлов, образующих матрицу 4х4 (рис.). Угловые узлы соединяются попарно по диагонали, таким образом, максимальная длина пути между любой парой элементов равна трем. В исходной же матрице 4 х 4 эта длина равна шести. Каждый блок имеет 12 выходов, что позволяет объединять их в более сложные структуры.

Для МВС-100 базовый вычислительный блок содержит 32 узла. Такой блок строится из двух структурных модулей в соответствии со схемой, приведенной на рис. В этом случае максимальная длина пути между любой парой вычислительных узлов равна пяти. При этом остается 16 свободных связей, что позволяет продолжить объединение. При объединении двух базовых блоков по схеме, приведенной на рис. 6 (64 вычислительных узла) максимальная длина пути составит 6, как и в гиперкубе, а количество свободных связей будет равно 16.

Граф межмодульных связей МВС-1000

Архитектура системы МВС-1000 аналогична архитектуре МВС-100. Основой системы является масштабируемый массив процессорных узлов. Каждый узел содержит вычислительный микропроцессор Alpha 21164 с производительностью 2 GFLOPS при тактовой частоте 500 MHz и оперативную память объемом 128 MB, с возможностью расширения. Процессорные узлы взаимодействуют через коммуникационные процессоры TMS320C44 производства Texas Instruments, имеющие по 4 внешних канала (линка) с общей пропускной способностью 80 Мбайт/с (20 Мбайт/с каждый). Также разрабатывается вариант системы с использованием коммуникационных процессоров SHARC (ADSP 21060) компании Analog Devices, имеющих по 6 каналов с общей пропускной способностью до 240 Мбайт/с (40 Мбайт/с каждый).

Процессорные узлы связаны между собой по оригинальной схеме, сходной с топологией двухмерного тора (для 4-линковых узлов). Аналогично МВС-100, структурный модуль МВС-1000 состоит из 16 вычислительных модулей, образующих матрицу 4x4, в которой четыре угловых элемента соединяются через транспьютерные линки по диагонали попарно. Оставшиеся 12 линков предназначаются для подсоединения внешних устройств (4 линка угловых ВМ) и соединений с подобными ВМ.

Конструктивным образованием МВС-1000 является базовый вычислительный блок, содержащий 32 вычислительных модуля. Максимальная длина пути между любыми из 32 вычислительных модулей равна пяти, при этом число свободных линков после комплектации блока составляет 16, что позволяет продолжить процедуру объединения.

Лекция №11

Решения в области архитектуры межпроцессорных коммуникаций

Общие характеристики

Наиболее часто используемые типы коммуникаций для суперкомпьютеров:

Myrinet

Наиболее широко применяемый для построения кластеров тип коммуникационной среды. Большая часть кластерных установок из списка Top500 самых мощных компьютеров мира построены с применением Myrinet.

Производитель: компания Myricom (http://www.myri.com).

Пропускная способность: 250 Мб/сек.

Время задержки — около 10 мкс.

Топология: коммутируемая, элементом коммутации является матрица 8х8. Коммутаторы на её основе поддерживают до 128 портов. Для построения больших сетей используются различные варианты топологии Fat Tree, наилучшая производительность достигается с использованием Clos Network.

Программное обеспечение: низкоуровневый интерфейс программирования GM, MPICH/GM, PVM/GM, стек TCP/IP (распространяется свободно в исходных текстах), а также коммерческие продукты — MPIPro, Scali MPI Connect.

Gigabit Ethernet

Это наиболее доступный тип коммуникационной среды. Оптимальное решение для недорогих кластеров и решения задач, не требующих интенсивных обменов данными (например, визуализация трёхмерных сцен). Выбор Gigabit Ethernet так же может быть в немалой степени обусловлен наличием одного или двух встроенных контроллеров на материнской плате.

Производители: наиболее производительными на сегодняшний день являются контроллеры производства Broadcom (серия микросхем 57xx) и Intel (Pro/1000).

Пропускная способность: контроллеры Gigabit Ethernet позволяют достичь скорости передачи данных на уровне TCP/IP около 120 Мб/сек, что практически приближается к аппаратной пропускной способности этого типа интерконнекта. При использовании стандартных реализаций MPI (MPICH, LAM) скорость передачи данных несколько снижается (примерно до 70 Мб/сек), наилучшей производительности можно добиться с помощью MPICH/GAMMA. GAMMA не использует TCP/IP, а работает на уровне Ethernet, поэтому требует модификации ядра Linux.

Время задержки (латентность) достаточно велико — около 50 мкс.

Топология: коммутируемая, современное оборудование позволяет осуществлять неблокирующую коммутацию нескольких десятков портов.

SCI

SCI-кластеры имеют преимущество при решении задач, требующих большого количества пересылок коротких сообщений, так как в таких задачах время задержки (латентность) играет решающую роль.

Производитель: компания Dolphin, в настоящее время полный аналог этих адаптеров производится в России ОАО «НИЦЭВТ».

Пропускная способность: физическая скорость передачи — 667 Мбайт/с, в зависимости от используемых аппаратных платформ пропускная способность на уровне MPI — от 200 до 325 Мбайт/с.

Время задержки: этот тип коммуникационной среды отличается рекордно низким временем задержки: 2—3 мкс — аппаратное и около 4 мкс — на уровне MPI.

Топология: кольцо, двух- или трёхмерный тор, а также коммутируемые кольца. В связи с такой топологией, при увеличении размеров тора происходит насыщение аппаратной пропускной способности, поэтому нецелесообразно строить кластеры с размером тора больше 6—8 по каждому измерению. Тороидальная топология не требует применения коммутаторов.

Программное обеспечение: свободно распространяемое по лицензии GNU GPL низкоуровневое ПО от компании Dolphin (драйверы и библиотека SISCI), SCI-MPICH из Аахенского университета, а также коммерческое ПО от Scali.

QsNet

Это наиболее производительная коммуникационная среда, обеспечивающая латентность на уровне SCI и пропускную способность до 900 Мб/сек (QsNet II). Ввиду высокой стоимости оборудования QsNet, как правило, применяется для построения особо крупных кластеров терафлопного диапазона.

Производитель: компания Quadrics.

Пропускная способность: на уровне MPI около 900 Мб/сек.

Время задержки: 3 мкс.

Топология: Fat Tree. Архитектура поддерживает до 1024 узлов (QsNet) и до 4096 узлов (QsNet II).

Программное обеспечение под Linux распространяется с исходными текстами по лицензии GNU GPL и поддерживает MPI (специализированную версию MPICH) и TCP/IP.

InfiniBand

Это быстро развивающаяся технология, поддержанная большой группой производителей оборудования. В настоящее время используется оборудование InfiniBand, поддерживающее спецификацию 4x, обеспечивающую соединение на скорости 10 Гбит/сек. Уже анонсированы продукты, поддерживающие спецификацию 12х (30 Гбит/сек). Специалисты компании «Т-Платформы» рекомендуют InfiniBand в качестве коммуникационной среды для построения высокопроизводительных решений оптимальных по соотношению «цена/производительность».

Производители: наиболее распространены аппаратные решения от компании Mellanox, SilverStorm Technologies, Voltaire и Topspin.

Тесты производителей показывают пропускную способность на уровне MPI около 800 Мб/сек и время задержки — 5-7 мкс.

Топология: коммутируемая с использованием Fat Tree для больших конфигураций, существующие коммутаторы поддерживают до 96 портов.

Программное обеспечение: драйверы от производителей аппаратных средств, версия MPICH университета Огайо, а также коммерческие продукты от Scali и MPI Software Technology.

Fast Ethernet

Сама технология Ethernet (пакетная обработка файлов) была разработана вместе со многими первыми проектами корпорации Xerox PARC. Известно, что Ethernet был изобретён 22 мая 1973 года. Стандарты Ethernet определяют проводные соединения и электрические сигналы на физическом уровне, формат пакетов и протоколы управления доступом к среде — на канальном уровне модели OSI. Ethernet в основном описывается стандартами IEEE группы 802.3. Ethernet стал самой распространённой технологией LAN в середине 90-х годов прошлого века, вытеснив такие технологии, как Arcnet, FDDI и Token ring.

Количество узлов в одном разделяемом сегменте сети ограничено предельным значением в 1024 рабочих станции (спецификации физического уровня могут устанавливать более жёсткие ограничения, например, к сегменту тонкого коаксиала может подключаться не более 30 рабочих станций, а к сегменту толстого коаксиала — не более 100). Однако сеть, построенная на одном разделяемом сегменте, становится неэффективной задолго до достижения предельного значения количества узлов.

В 1992 году группа производителей сетевого оборудования, включая таких лидеров технологии Ethernet как SynOptics, 3Com и ряд других, образовали некоммерческое объединение Fast Ethernet Alliance для разработки стандарта на новую технологию, которая обобщила бы достижения отдельных компаний в области Ethernet-преемственного высокоскоростного стандарта. Новая технология получила название Fast Ethernet.

Одновременно были начаты работы в институте IEEE по стандартизации новой технологии. Там была сформирована исследовательская группа для изучения технического потенциала высокоскоростных технологий. За период с конца 1992 года и по конец 1993 года группа IEEE изучила 100-Мегабитные решения, предложенные различными производителями. Наряду с предложениями Fast Ethernet Alliance группа рассмотрела также и другую высокоскоростную технологию, предложенную компаниями Hewlett-Packard и AT&T.

Fast Ethernet — это спецификация IEЕЕ 802.3u, официально принятая 26 октября 1995 года, определяет стандарт протокола канального уровня для сетей, работающих при использовании как медного, так и волоконно-оптического кабеля со скоростью 100 Мбит/с. Новая спецификация является наследницей стандарта Ethernet IEЕЕ 802.3, используя такой же формат кадра, механизм доступа к среде CSMA/CD и топологию «звезда». Эволюция коснулась нескольких элементов конфигурации средств физического уровня, что позволило увеличить пропускную способность, включая типы применяемого кабеля, длину сегментов и количество концентраторов

Технология Fast Ethernet является эволюционным развитием классической технологии Ethernet. 10-Мегабитный Ethernet устраивал большинство пользователей на протяжении около 15 лет. Однако в начале 90-х годов начала ощущаться его недостаточная пропускная способность. Поэтому многие сегменты 10-Мегабитного Ethernet'а стали перегруженными, реакция серверов в них значительно упала, а частота возникновения коллизий существенно возросла, что ещё более снизило номинальную пропускную способность.

Отличия Fast Ethernet от Ethernet сосредоточены на физическом уровне, что видно на рисунке 4.3.

Более сложная структура физического уровня технологии Fast Ethernet вызвана тем, что в ней используется три варианта кабельных систем: оптоволокно, 2-х парная витая пара категории 5 и 4-х парная витая пара категории 3, причём по сравнению с вариантами физической реализации Ethernet (а их насчитывается шесть), здесь отличия каждого варианта от других глубже: меняется и количество проводников, и методы кодирования. А так как физические варианты Fast Ethernet создавались одновременно, а не эволюционно, как для сетей Ethernet, то имелась возможность детально определить те подуровни физического уровня, которые не изменяются от варианта к варианту, и остальные подуровни, специфические для каждого варианта.

Рисунок 8 Отличия стека протоколов 100Base-T от стека протоколов 10Base-T.

Основными достоинствами технологии Fast Ethernet являются:

увеличение пропускной способности сегментов сети до 100 Мбайт/c;

сохранение метода случайного доступа Ethernet;

сохранение звездообразной топологии сетей и поддержка традиционных сред передачи данных (витой пары и оптоволоконного кабеля).

Указанные свойства позволяют осуществлять постепенный переход от сетей 10Base-T, — наиболее популярного на сегодняшний день варианта Ethernet, — к скоростным сетям, сохраняющим значительную преемственность с хорошо знакомой технологией: Fast Ethernet не требует коренного переобучения персонала и замены оборудования во всех узлах сети.

Gygabit Ethernet

Эта технология оказывается самой доступной для организации сети передачи данных и подходит для инсталляций, которые не требуют интенсивного обмена данных между узлами кластера (как правило, на установках, использующих Gigabit Ethernet (GbE), части задачи независимо рассчитываются на различных узлах, а уже потом собираются в единый результат). Помимо невысокой пропускной способности, Gigabit Ethernet обладает довольно большими задержками порядка 50 мкс при работе библиотек MPI. Основным преимуществом этой технологии является простота ее внедрения, потому что порты GbE сегодня есть на любой плате, а коммутатор стоит относительно недорого.

Новая версия этой же технологии носит вполне объяснимое название: 10 Gigabit Ethernet. Он в 10 раз быстрее, время задержки значительно меньше, чем у GbE, что позволяет считать данную технологию одной из самых перспективных на рынке, к тому же наследует повсеместно распространенный Gigabit Ethernet.

Myrinet

Этот интерконнект тоже весьма часто используется. Основные его преимущества: невысокая цена, накопленный опыт использования и наличие различного ПО и отдельных библиотек, работающих на кластерах, использующих Myrinet, как показано на рисунке 4.4. В отношении интерконнекта от компании Myricom, все отраслевое сообщество уже несколько лет находилось в ожидании нового продукта, поддерживающего пропускную способность до 10 Гбит/с. Наконец, на конференции в Гейдельберге в 2005 году это произошло, и сегодня рынок интерконнекта получил доступ к продуктам с пропускной способностью 10 Гбит/с. Что интересно, новые адаптеры производства Myricom, Myri-10G, обладают совместимостью с коммутаторами 10 Gigabit Ethernet. Это позволяет подключать их к более распространённым, но пока относительно дорогим коммутаторам 10 Gigabit Ethernet.

До этого Myrinet хотя и оставался одной из самых освоенных технологий для кластерных сетей, но позволял достигать пропускную способность лишь в 2 Гбит/с (либо 4 Гбит/с, при использовании двух каналов). При этом задержка на MPI-транзакциях составляет порядка 3 мкс. Теперь у этой технологии есть неплохой шанс, тем более что стоимость порта колеблется в районе $1000, как и для других высокопроизводительных решений.

Впрочем, для России Myrinet вряд ли можно назвать оптимальным решением, хотя бы в виду экспортных ограничений, так как при заказе этого интерконнекта всегда надо указывать конечного потребителя.

Рисунок 9 — Схема работы адаптера Myrinet.

Quadrics

У технологии Quadrics есть два критических преимущества, которые пока почти никем не были перекрыты. Одно из них, очень небольшое время задержки, порядка 2 мкс. Второе состоит в том, что Quadrics имеет на своем счету самые крупные инсталляции. Это значит, что при сборке большой системы можно гарантировать работу только для Quadrics, так как подобные проекты уже были реализованы в мире. Поэтому Quadrics пока остается лидером по части масштабности проектов. Однако о самой технологии, которая используется в решениях Quadrics уже более трёх лет, сказать ничего определенного нельзя. Дело в том, что изначально этот интерконнект разрабатывался для американских оборонных и других специальных учреждений, потому его очень сложно экспортировать, в частности, в Россию.

Вообще говоря, сейчас планируется большая инсталляция в Европе (во Франции), которая будет обладать вычислительной мощностью порядка 50 Тфлоп/с, в рамках которой будет использоваться Quadrics. Этот кластер предназначается для исследования в области ядерной физики.

Infiniband

Решения на основе архитектуры InfiniBand используются на четырёх основных рынках: корпоративные центры данных (включая хранилища данных), высокопроизводительные компьютерные кластеры (HPCC), встроенные приложения и коммуникации. Технология InfiniBand позволяет объединять стандартные серверы в кластерные системы для обеспечения центрам данных производительности, масштабируемости и устойчивости к сбоям, т.е. предоставляют те возможности, которые обычно предоставляеются только платформами высшего класса стоимостью в миллионы долларов. Кроме того, хранилища InfiniBand могут быть подключены к кластерам серверов, позволяя связать все ресурсы хранения данных напрямую с вычислительными ресурсами. InfiniBand обладает большой пропускной способностью, низкой латентностью и хорошей масштабируемостью. Надёжность и гибкость соединений InfiniBand дают преимущества для встроенных приложений, таких как военные системы, системы, работающие в реальном времени, обработка видеопотоков и т.д. Кроме того, рынок коммуникаций, постоянно требует увеличения пропускной способности соединений, которая может быть увеличена, благодаря 10 и 30 Гбит/с соединениям InfiniBand.

Коммутаторы InfiniBand построены на основе чипов Mellanox InfiniScale and InfiniScale III и поддерживают 10 и 30 Гбит/с порты в гибкой конфигурации. InfiniBand более производителен по сравнению с коммутаторами Ethernet, а также с другими, более дорогими локальными сетями. Преимущество InfiniBand даёт производительность в 10 Гбит/с и удалённый прямой доступ к памяти (RDMA).

Рисунок 10 - 128-ядерный кластер компании Mellanox Technologies.

В качестве примера приведём новый 128-ядерный кластер компании Mellanox Technologies, который показан на рисунке 4.5. Эта компания специализируется на высокоскоростных внутренних соединениях, используемых в кластерах. Она представила кластер Neptune, в составе которого работают узлы на базе двухъядерных процессоров AMD Opteron, связанные между собой каналом InfiniBand пропускной способностью 20 Гб/с. Основное назначение Neptune — это разработка, тестирование и сравнение эффективности приложений.

Конфигурация Neptune включает 32 сервера производства Colfax International, в каждом из которых установлено по два двухъядерных процессора AMD Opteron модели 275, то есть, в общей сложности, 128 ядер. Каждый узел оснащен 6 Гбайт оперативной памяти и адаптерами Mellanox 20 Гбайт/с InfiniBand PCI Express. Для коммутации используются 24-портовые коммутаторы Flextronics, обеспечивающие пропускную способность 20 Гбайт/с. Благодаря использованию архитектуры Fat Tree (известной так же под обозначением Constant Bisectional Bandwidth — CBB, постоянной пропускной способностью сечения), разработчики смогли обойти проблему блокировок и получить высокие показатели эффективности использования внутренних соединений. Результаты тестов Linpack, выполненных на кластере в полной конфигурации, показали, что производительность кластера равна 425,9 Гфлоп/с, а эффективность сети находится на уровне не ниже 95%. Neptune может работать под управлением ОС производства Microsoft, Novell и RedHat

1 2 3 4 5 6 7 8 9 10 11

	Выпускной вечер 2004г Владимир Жириновский, Ирина Хакамада и Владимир Владимирович Путин с супругой …не приехали. Но только сегодня и только для вас у...		Прокопьев Валерий Викторович Методист: Гончаров Владимир Борисович... Образовательная – дать преставление о составе программного обеспечения компьютера
	Реферат Вячеслав Геннадьевич, Богославский Дмитрий Дмитриевич, Бодягин Владимир Михайлович, Бодягин Андрей Владимирович, Волков Сергей Денисович,...		К статьям журнала «Компьютерная оптика» Юрий Владимирович Микляев3 (доцент, e-mail: ), Владимир Евгеньевич Дмитриенко4 (ведущий научный сотрудник, e-mail: ), Владимир Сергеевич...
	Президентская программа подготовки управленческих кадров для организаций... Авторский коллектив: Владилен Быстров, Александр Кобышев, Евгений Кобышев, Александр Козлов, Владимир Лысков-Штреве		Урок на тему: «Ансамблевое музицирование в классе баяна, аккордеона» Проводит лауреат Международных конкурсов, преподаватель рам им. Гнесиных селиванов александр Владимирович
	Директор школы: Передвигин Владимир Владимирович Приоритетные цели и задачи развития школы, деятельность по их решению в отчетный период 20		Программа дисциплины Безопасность жизнедеятельности для направления... Автор программы: к т н., доцент кафедры физического воспитания Полшков Александр Владимирович
	Общественного объединения «белорусский республиканский союз молодежи»... Координатор конференции – Председатель Совета молодых ученых нан беларуси Казбанов Владимир Владимирович		Комаров владимир борисович (10. 05. 1890 08. 10. 1971) Комаров Владимир... Цели и задачи дисциплины: Дать студентам представление о принципах формирования компьютерного изображения, работы с фото и видео...
	Урок физики в 7 классе по теме «Давление газов, жидкостей и твердых тел» Разработал учитель физики мбоу «Ладомировская сош» Ломакин Александр Владимирович		Боб Фьюсел Александр Владимирович Лихач Супермозг. Тренинг памяти, внимания и речи ...
	Владимира Владимировича Набокова 1899-1977 Набо́ков владимир Владимирович (12 (24) апреля 1899, Петербург — 3 июля 1977, Монтре, Швейцария), русский и американский писатель;...		Александр Александрович Бушков Владимир Путин. Полковник, ставший капитаном I. порядок применения правил землепользования и застройки городского округа лыткарино и внесения в них изменений
	Тема: Разработка автоматизированного программного комплекса управления... Омский институт водного транспорта (филиал) фбоу впо «Новосибирская государственная академия водного транспорта»		Программа по формированию навыков безопасного поведения на дорогах... Аббакумов Сергей, Чехлов Александр, Шайдуров Владимир, мбоу инженерный лицей нгту, г. Новосибирск

Лекция №8

Перспективы развития многоядерной индустрии

Похожие: