Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна





НазваниеАрхитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна
страница5/11
Дата публикации26.08.2013
Размер1.52 Mb.
ТипУчебный курс
100-bal.ru > Информатика > Учебный курс
1   2   3   4   5   6   7   8   9   10   11

Многоядерные процессоры AMD64


Многоядерные чипы, спроектированные инженерами AMD, отличаются более низким энергопотреблением, поскольку выполнены на единой подложке, в отличие от кристаллов Intel, где механически соединяются несколько отдельных ядер. Конструкция AMD обеспечивает наиболее тесные связи между всеми ядрами, что позволяет не только повысить производительность, но и оптимизировать потребление электроэнергии.

Корпорация AMD предложила двухъядерную технологию, которая является оптимальным способом повышения производительности системы. Двухъядерный процессор AMD Opteron позволяет воспользоваться всеми преимуществами симметричной мультипроцессорной обработки (SMP), так как всё необходимое для этого размещено внутри самого процессора.

AMD предлагает 64-разрядные двухъядерные процессоры Opteron для серверных систем и рабочих станций и 64-разрядные двухъядерные Athlon64 X2 — для настольных систем. Серверные применения многоядерных процессоров сегодня более естественны и многообразны, чем для настольных систем.

Ключевые составляющие новых процессоров:

  • архитектура х86-64

  • ядро процессора

  • интегрированный контроллер памяти

  • шина ввода/вывода на основе Hyper Transport

Для перехода на 64-разрядную архитектуру компания AMD предложила расширение существующей архитектуры i386 в отличие от Intel с её кардинально новым решением IA-64. При этом процессоры AMD сохраняют непосредственную совместимость с 32-х разрядными приложениями, в то время как процессоры на базе IA-64 вынуждены использовать специальный режим эмуляции, заметно снижающий производительность таких приложений.

В процессорах с таким ядром в 64-х разрядном режиме применяется «плоская» модель памяти, количество регистров общего назначения расширено до 16. Процессор имеет несколько режимов работы: кроме стандартных, существовавших еще в i386; введён особый режим — Long mode. При этом переключения частных режимов Long mode происходят весьма быстро, в отличие от переключения режимов работы процессора.

Процессоры Opteron и до появления двухъядерных версий опережали своих х86-конкурентов от Intel по производительности на большинстве приложений. Opteron является лидером среди всех серверных процессоров по целочисленной производительности, хотя на тестах SPECint2000 и уступает «настольному» Pentium 4/3,8 ГГц. На тестах SPECfp2000 он уступает IBM Power5 и Intel Itanium 2. Однако последние процессоры достигают столь высоких показателей в том числе и за счёт очень большой ёмкости кэша. Можно сравнить данные SPECfp2000 для Itanium 2/1,4 ГГц с 1,5-мегабайтным кэшем третьего уровня (сравнимо с 1 Мбайт у Opteron) и для Itanium 2 с той же частотой и кэшем в 3 Мбайт. При таком увеличении ёмкости кэша производительность Itanium 2 возрастает на 15% (данные для SGI Altix 350), а Opteron отстает от Itanium 2 с кэшем на 9 Мбайт всего на 30%.

На сложных приложениях, плохо локализуемых в кэше, относительные показатели Opteron должны улучшаться, особенно по сравнению с Itanium 2, которые не имеют, как Opteron и Power5, встроенных контроллеров оперативной памяти, и разделяют при доступе к ней общую шину. Да и стоимость процессоров со столь большим кэшем, как у Itanium 2 и Power5, также велика.

Архитектура Direct Connect

Архитектура Direct Connect Architecture (архитектура с прямым соединением) позволяет соединять несколько процессоров, контроллер памяти и устройства ввода/вывода непосредственно с центральным процессорным устройством, что помогает устранить узкие места, характерные для внешней шины. Архитектура Direct Connect позволяет достичь частоты 1,6 ГГц.

В настоящее время Opteron поддерживает память DDR400, что обеспечивает пропускную способность 6,4 Гбайт/с на процессор. С ростом числа процессоров пропускная способность памяти растёт линейно.

Архитектура, используемая в серверах на базе Xeon, предполагает наличие посредника между процессором и памятью в лице северного моста, что увеличивает задержки. При этом пропускная способность памяти не растёт с числом процессоров: наоборот, они разделяют пропускную способность (до 6,4 Гбайт/с) между собой. В двухпроцессорном сервере пропускная способность памяти в расчёте на процессор вдвое ниже, а в 4-процессорном SMP-cервере с Xeon MP — ещё хуже (там системная шина имеет пропускную способность только 5,3 Гбайт/с, и ситуацию пытаются исправить увеличением ёмкости кэша).

В двухъядерном процессоре Athlon64 пропускная способность памяти в расчёте на ядро также становится вдвое меньше; то же самое характерно и для двухъядерных процессоров Intel. Однако в будущих двухпроцессорных серверах с двухъядерными процессорами Xeon DP Paxville, имеющими четыре ядра на сервер, будет применяться набор микросхем Intel E7520, и пропускная способность памяти в расчёте на ядро составит только 1,6 Гбайт/с, так как пропускная способность разделяется между всеми ядрами, подключенными к FSB. В двухъядерных Opteron пропускная способность памяти делится только между двумя ядрами каждого процессора.

Имеющееся процессорная архитектура AMD позволила интегрировать на тот же кристалл второе ядро при переходе на технологический процесс 90 нм. В процессорах архитектуры AMD64 с двумя ядрами дублированию подвергнуто само вычислительное ядро и кэш-память, в то время как контроллер памяти и контроллер HyperTransport остаются в двухядерных процессорах в неизменном виде. В этой связи ключевое значение начинает играть блок System Request Interface (SRI), на который возлагается обязанность арбитража потоков команд и данных между двумя ядрами.



Рисунок 3 — Использование технологии HyperTransport (HT) для обеспечения высокоскоростных связей между компонентами системы.

Суммарная пропускная способность ввода/вывода для 8-процессорных систем на базе Opteron 8xx достигает 30,4 Гбайт/с, для двухпроцессорных систем на базе Opteron 2xx — 22,4 Гбайт/с. С точки зрения архитектуры памяти построение серверов с Opteron отвечает архитектуре ccNUMA с небольшим, до 8, числом процессоров.

У процессора Opteron низкие величины задержек при работе с иерархией памяти. Так, задержка Opteron при выборке из кэша данных первого уровня равна трем тактам, и имеется два порта чтения, дающие возможность двух одновременных операций. В Xeon DP эта задержка равна 4 тактам, а порт чтения только один.

Архитектура PowerPC от IBM

Архитектура компьютера на RISC-процессоре, разработанная совместно IBM, Apple Computer и Motorola Corporation. Название процессора — это начальные буквы принятого в IBM наименования: Performance Optimization With Enhanced RISC (Оптимизация Производительности С Расширенным RISC).

Power5 производится по технологии 130-мкм техпроцесса кремний-на-диэлектрике (silicon-on-insulator, SOI) с медными проводниками. Каждый чип обладает площадью 389 кв. мм, содержит по 276 млн. транзисторов (предыдущая версия процессоров компании, Power4, содержала 174 млн. транзисторов). В микропроцессор интегрировано 2313 сигнальных модулей ввода-вывода (I/O) и 3057 модулей мощности (power I/O).

Также Power5 поддерживает технологию SMT (simultaneous multi-threading — одновременной многопоточности,), обеспечивающей одновременную работу двух процессорных ядер Power5.

64-х разрядный двухъядерный IBM Power5 был представлен в 2005 году. У ядер раздельный кэш 1-го уровня (64 Кбайт для инструкций, 32 Кбайт для данных), но общий — 2-го уровня (1,875 Мбайт). За пределами чипа остался кэш 3-го уровня (обычно 36 Мбайт). Они используются в основном в собственных серверах корпорации, работающих под ОС AIX, Unix и Linux.

POWER5 — это девятое поколение 64-разрядной RISC-архитектуры IBM, и хотя в нём использованы многие решения, появившиеся в POWER4, разработчики нового процессора подчеркивают, что его нельзя рассматривать как всего лишь модификацию предшественника, так как значительно изменилась конструкция кристалла, что позволило создавать более эффективные суперскалярные комплексы.

Кристалл POWER5 (рисунок 4) состоит из 276 млн. транзисторов, занимает площадь 389 кв. мм и изготовляется по проектным нормам 0,13 мкм с применением технологий медных проводников и «кремний-на-изоляторе», позволяющих достичь большей производительности и снизить энергопотребление (площадь кристалла POWER4, изготовлявшегося по технологии 0,18 мкм, была равна 414 кв. мм, а у его выпущенной в конце 2002 г. модификации POWER4+ она уменьшилась до 267 кв. мм благодаря переходу на технологию 0,13 мкм). На нем размещены два одинаковых процессорных ядра PowerPC и общая кэш-память второго уровня (L2) объёмом 1,875 Мбайт, выполненная в виде трёх отдельных блоков, у каждого из которых имеется свой отдельный контроллер (у POWER4 объем L2 составлял 1,5 Мбайт). Физический адрес данных определяет, в каком блоке L2 находятся данные. Каждое из процессорных ядер может независимо обращаться к любому из трех контроллеров L2. Тактовая частота POWER5 сейчас составляет от 1,5 до 1,9 ГГц.



Рисунок 4 — Схема блоков процессора POWER5.

Многоядерные процессоры Intel

Весной 2005 года корпорация Intel объявила о выходе первых двухъядерных продуктов для настольных систем, созданных на базе 90-нм технологического процесса: процессора Intel Pentium Extreme Edition 840, который обрабатывает до 4 потоков инструкций за счёт поддержки технологии Hyper-Threading, процессоров семейства Intel Pentium D серии 8xx, а также наборов микросхем семейства Intel 945/955X Express с поддержкой двухъядерных процессоров. В начале 2006 года линейка двухъядерных процессоров была дополнена моделями, созданными на базе нового, 65-нм технологического процесса: процессором Intel Pentium Extreme Edition 955 и процессорами Intel Pentium D серии 9хх, а также набором микросхем Intel 975X Express.

В 1993 году корпорация Intel выпустила процессор Intel Pentium, обладавший способностью декодировать и выполнять команды вычислительного потока параллельно. Годом позже специалисты Intel реализовали двухпроцессорную обработку (два полноценных процессора помещались в два разъёма на одной системной плате), создав аппаратную многопоточную среду для серверов и рабочих станций. В 1995 году был представлен процессор Intel Pentium Pro, поддерживавший эффективное объединение четырёх процессоров на одной системной плате, что позволило обеспечить более высокую скорость обработки данных в многопоточных приложениях, ориентированных на серверные платформы и рабочие станции.

Появление в 2002 году технологии Hyper-Threading (HT) ознаменовало приход многопоточного параллелизма, т.е. возможности выполнять разные потоки приложений одновременно на одноядерном процессоре. Тестирование производительности, проведенное корпорацией Intel, показало, что на процессорах с технологией HT скорость работы некоторых приложений возрастает в среднем на 30%.

Восемнадцатого июля 2006 года корпорация Intel представила пять новых двухъядерных процессоров Intel Itanium 2 серии 9000. Эти процессоры, известны были ранее под кодовым наименованием Montecito. Благодаря удвоенной производительности и пониженному энергопотреблению, соотношение «производительность на ватт» для процессоров этой серии в 2,5 раза выше, чем у предыдущих одноядерных версий.

Базовая модель Intel Itanium 2 9050 имеет два полнофункциональных вычислительных ядра и почти втрое больший объём кэш-памяти по сравнению с процессорами предыдущего поколения этого семейства. Кроме того, благодаря поддержке технологии Hyper-Threading, этот процессор может выполнять четыре потока команд одновременно. На сегодняшний день новые двухъядерные процессоры Intel Itanium 2 содержат более 1,7 млрд. транзисторов.

В отличие от продукции поставщиков RISC-систем процессоры Intel Itanium 2 серии 9000 поддерживаются широким спектром ПО и разрабатываемых приложений, число которых уже превысило 8000, что обеспечивает конечным пользователям свободу выбора. Серверы и высокопроизводительные вычислительные системы на базе процессоров семейства Intel Itanium уникальны в компьютерной индустрии. Они обеспечивают работу критически важных корпоративных и научных приложений под управлением Windows, Linux, UNIX и других операционных систем, а также поддерживают новые инструментальные средства для переноса приложений с серверов и мэйнфреймов с закрытыми архитектурами, обеспечивают высокую гибкость и повышенную надежность.

Производительность систем на базе двухъядерных процессоров Intel Itanium 2 серии 9000 значительно выше, чем у конкурирующих решений с RISC-архитектурой. Новыми процессорами Intel Itanium 2 были установлены несколько мировых рекордов в важнейших серверных тестах производительности, включая результат 4230 баллов в тесте SPEC_int_rate_base_20001, что почти втрое выше предыдущего рекордного значения.

В настоящее время более 70% крупнейших мировых компаний из списка Global 100 сделали выбор в пользу технологии Itanium. Кроме того, группа Itanium Solutions Alliance до 2010 года планирует израсходовать 10 млрд. долларов на поддержку этой архитектуры.

Системы на базе двухъядерных процессоров Intel Itanium 2 предназначены для применения в областях, требующих наиболее интенсивных вычислений, таких как аналитические исследования бизнес-данных, крупные информационные хранилища и HPC-вычисления. EPIC-архитектура процессора Intel Itanium 2 обеспечивает высокий уровень параллелизма и вычислительных возможностей.

Чтобы расширить поддержку мониторов виртуальных машин (VMM) OEM-производителями и отраслью в целом, в процессоры Intel Itanium 2 интегрирована технология Intel Virtualization Technology (VT). Двухъядерные процессоры Intel Itanium 2 серии 9000 поддерживаются двумя серверными системами Intel, предназначенными для монтирования в стойку: SR870BH2 и SR870BN4.

Летом 2006 года корпорация Intel обновила все семейства своих серверных процессоров. 20 октября Intel продемонстрировала первый в отрасли четырехъядерный процессор для многопроцессорных серверных систем под кодовым названием Tigerton (на пресс-брифинге в Сан-Франциско был показан в работе четырехпроцессорный сервер, созданный на его основе), который завершит переход семейства процессоров Intel Xeon к микроархитектуре Intel Core во всех секторах рынка – одно, двух и многопроцессорных серверов.

Первые четырехъядерные процессоры Intel Xeon серии 5300 (прежнее кодовое название Clovertown) для двухпроцессорных серверов и рабочих станций, созданные на базе микроархитектуры Intel Core. Ожидается, что их производительность будет почти на 50% выше, чем у современного поколения двухъядерных процессоров, при сохранении того же уровня энергопотребления. Процессоры этой серии будут содержать четыре полнофункциональных вычислительных ядра, их поставки в составе платформы Bensley начались в ноябре 2006 года.

Продемонстрированный 20 октября 2006 г. серверный процессор с кодовым названием Tigerton — это процессор Intel Xeon нового поколения, созданный на базе 65-нанометровой производственной технологии и предназначенный для установки в многопроцессорные серверы в составе новой платформы Caneland. Поставки процессора Tigerton начнутся в III квартале 2007 г. Четырехъядерный процессор Tigerton, созданный на базе микроархитектуры Intel Core, будет поддерживать новое высокоскоростное межкомпонентное соединение. Специализированное высокоскоростное межкомпонентное соединение, соединяющее каждый процессор непосредственно с набором микросхем, обеспечивает более чем двукратный рост производительности и пропускной способности системы. Набор микросхем для платформы Caneland (кодовое название Clarksboro) поддерживает модули памяти FB-DIMM и будет оснащен четырьмя каналами для подключения к модулям памяти, что расширит полосу пропускания и увеличит поддерживаемый объем памяти. Инновационная архитектура, использованная в наборе микросхем Clarksboro, предназначена для оптимизации системного трафика на основе высокоскоростных межкомпонентных соединений в целях повышения общей производительности системы. Поддержка технологии I/O Acceleration Technology (IOAT), впервые реализованная на многопроцессорных платформах.

Корпорация Intel на выставке-конференции LinuxWorld 2006 (Сан-Франциско, США, август 2006 г.) продемонстрировала серверы, построенные на базе нового процессора Xeon с кодовым названием Tulsa. Intel уже начала поставки Tulsa, однако официально эти чипы ещё не представлены. Новые процессоры изготавливаются по 65-нанометровой технологии на базе архитектуры NetBurst и содержат 1,3 миллиарда транзисторов. Чипы снабжены двумя ядрами, каждое из которых имеет 1 Мбайт кэш-памяти второго уровня. Кроме того, Tulsa имеют объединённый кэш третьего уровня объёмом в 16 Мбайт. Общий кэш, по утверждениям Intel, позволит поднять производительность системы при работе обоих ядер с одним и тем же приложением примерно на десять процентов.

Тактовая частота Tulsa составляет 3,4 ГГц. Процессор будет предлагаться в двух вариантах: для серверов, устанавливающихся в стойки, и высокопроизводительных систем. В первом случае энергопотребление составит 95 Вт, во втором - 150 Вт. По сравнению с двуядерным чипом Xeon Paxville новый процессор, как утверждают в Intel, обеспечит прирост производительности на 20-70 процентов (в зависимости от выполняемой задачи).

В ходе выставки LinuxWorld 2006 процессоры Tulsa демонстрировались в составе серверов Intel. Кроме того, вычислительный комплекс PowerEdge 6850 на основе Tulsa показала компания Dell.

Технология Hyper Threading

Технология Hyper Threading (HT) была создана корпорацией Intel в целях повышения производительности и эффективности серверных систем. Схемы, добавленные в процессор, позволяют ему выглядеть как два логических процессора, в результате одиночный физический процессор воспринимается операционной системой и многопоточными приложениями как два логических процессора. Каждый логический процессор может исполнять отдельный поток вычислений многопоточной программы. Это достигается за счет дублирования архитектурного состояния при совместном использовании единого набора ресурсов процессора.

Программные приложения, способные работать с несколькими процессорами, могут без изменений выполняться на удвоенном числе логических процессоров, имеющихся в системе. Каждый логический процессор отвечает на прерывания независимо от других. Первый логический процессор может отслеживать потоки одной программы, в то время как второй логический процессор занимается потоками другой программы. Такое улучшение использования ресурсов процессора приводит и к повышению пропускной способности при обработке многопоточных приложений. Например, один логический процессор может выполнять операции с плавающей точкой, а второй в то же время выполняет сложение и операцию загрузки.

Технология HT расширяет возможности мультипроцессорных систем, поскольку ОС может запланировать одновременное выполнение отдельных потоков не только на каждом физическом процессоре, но и одновременно на каждом логическом процессоре.

Технология Foxtron

Новая технология Intel под кодовым наименованием Foxton предоставляет механизм, настраивающий тактовую частоту ядра процессора Intel Itanium 2 в зависимости от рабочей нагрузки, чтобы предоставить максимальную вычислительную мощность каждому исполняемому приложению в пределах допустимого энергопотребления. Впервые эта функциональная возможность появилась в двухъядерном процессоре Intel Itanium под кодовым наименованием Montecito. Она в корне меняет подход, при котором разработчики учитывают тактовую частоту как необходимый фактор при разработке программного и аппаратного обеспечения.

Как известно, производители микросхем выпускают микропроцессоры с самыми разными тактовыми частотами. Несмотря на то, что энергопотребление всего один из параметров, которые определяют тактовую частоту вычислительного ядра микропроцессора, оно играет значительную роль для вычислений с плавающей точкой, которые чаще всего встречаются в научных и технических приложениях, а также при обработке изображений и при решении других задач с высокой интенсивностью вычислений. Напротив, для целочисленных вычислений энергопотребление играет меньшую роль. К таким вычислениям относится значительная часть корпоративных приложений: базы данных, планирование и управление ресурсами предприятия, а также интеллектуальные ресурсы предприятия. Такие приложения не задействуют ресурсы процессора целиком и в конечном счёте используют меньшие вычислительные мощности, чем те, которые могли бы им быть предоставлены.

Технология Foxtron помогает повысить быстродействие приложений и максимально эффективно использовать электроэнергию. Данная технология постоянно следит за энергопотреблением процессора, регулируя соответствующим образом частоту последнего.

Для того чтобы разрешить эту проблему, специалисты Intel разработали технологию, которая позволяет при необходимости регулировать тактовую частоту от базовой до максимальной, в зависимости от выполняемых приложений. Для приложений, требующих больших энергозатрат, например, для вычислений с плавающей точкой, обычно устанавливается базовая тактовая частота, а для приложений, не требующих высокого энергопотребления, например, для целочисленных вычислений, процессор может работать с тактовой частотой, превышающей номинальное значение. Например, процессор с базовой тактовой частотой 1,6 ГГц может работать на максимальной тактовой частоте 1,8 ГГц, в зависимости от энергопотребления выполняемых приложений. Этот подход и стал известен как технология Foxton, что отображено на рисунке 5.



Рисунок 5 — Принцип технологии Foxton.

В процессоре с технологией Foxton предусмотрены встроенные измерительные схемы (вольтметр и амперметр), которые каждые 8 мкс оценивают потребляемую мощность, позволяя изменять тактовую частоту процессора в соответствии с полученными параметрами. Если потребляемая мощность при работе приложений меньше той, на которую рассчитан процессор, его тактовая частота ступенчато повышается (одна ступень равна примерно 1% частоты) до тех пор, пока не будет достигнут порог энергопотребления или максимальное значение тактовой частоты. Наоборот, если потребляемая мощность при работе приложений превышает ту, на которую рассчитан процессор, технология Foxton будет уменьшать тактовую частоту до тех пор, пока процессор не вернется в рамки допустимого энергопотребления или не будет достигнуто базовое значение тактовой частоты. Идея данной технологии заключается в том, чтобы добиться максимальной производительности процессора при выполнении каждой операции, а также повысить среднюю производительность на каждый ватт потребляемой мощности.

Технология Foxton призвана повысить производительность работы всех приложений, но в целом за её счет бизнес-приложения получают больше преимуществ по сравнению с техническими приложениями. Это происходит из-за того, что при работе бизнес-приложений, наиболее распространенных в корпоративной вычислительной среде, задействовано меньше компонентов процессора, чем при работе технических приложений, следовательно, энергопотребление тоже уменьшается.

Вообще говоря, идея, на которой основана технология Foxton, далеко не нова, но до последнего времени возникали трудности в реализации такого типа технологий. Одна из проблем заключалась в динамической природе внутренней компоновки процессоров. Из-за нагрева при работе сопротивление внутренних компонентов микросхемы постоянно изменяется, что затрудняет измерение напряжения и силы тока и не позволяет точно настроить тактовую частоту. Чтобы устранить эту проблему, специалисты Intel разработали специальную измерительную схему, которая предусматривает постоянную рекалибровку для новых значений сопротивления.

Еще одна проблема связана с тактовым генератором процессора, который синхронизирует работу всех транзисторов (а их, например, в процессоре Montecito 1,72 млрд.) и регулирует процессы обработки и обмена данными. Кстати, в любом процессоре эта проблема усугубляется наличием технологии Hyper-Threading, а также его двухъядерной структурой. Для разрешения этой проблемы Intel разработала тактовый генератор с развитыми возможностями подстройки, а также методику взаимодействия с арбитром системной шины, работающим на фиксированной частоте, которая обеспечивает фиксированный частотный коэффициент при обмене данными между арбитром и шиной.

Лекция №7

Многоядерные процессоры различных фирм-производителей

Многоядерный процессор нового поколения Cell (IBM) с архитектурой Cell Broadband Engine

Общие сведения

Процессор Cell спроектирован совместно компаниями IBM, Toshiba и Sony и был представлен в августе 2005 года. Этот 8-ядерный чип с архитектурой IBM Power должен работать с тактовой частотой в 3,2 ГГц, а его ядра, называемые Synergistic Processing Elements (SPE), связывает шина Element Interconnect Bus (EIB). Эта шина содержит несколько кольцевых межсоединений для передачи данных между процессорами и контроллерами памяти (два Rambus XDR с адресацией до 64 Гбайт) и ввода/вывода. Технология EIB обеспечивает Cell скоростью двустороннего обмена информацией около 16 Гбайт/c.

Процессор изготовлен по 0,09 мкм тех. процессу (8-слоёв медных соединений) с использованием «кремния-на-изоляторе» (SOI, Silicon-on-Insulator). Количество транзисторов в чипе составляет 234 миллиона, площадь кристалла — 221 мм2 (приблизительно таким же был прототип Emotion Engine).

Каждый SPE в Cell состоит из 21 млн. транзисторов, из которых 14 млн. отводится на локальную память, а 7 млн. — на логику. При этом его размеры составляют 5,81 мм  2,8 мм (0,09 мкм тех. процесс с применением SOI).

Кристалл Cell размещён внутри BGA-корпуса с размерами 42,5  42,5 мм. Из 1236 контактов процессора 506 являются сигнальными, а остальные предназначены для питания и заземления.

Области применения процессора Cell

Чип можно будет использовать как отдельно, так и в многопроцессорной сборке; к его порту ввода-вывода можно подключать также сопроцессор Super Companion Chip (SCC) от Toshiba, предназначенный для повышения скорости кодирования/декодирования видеоданных (вместе с Cell он сможет обрабатывать параллельно до 48 видеопотоков телевизионного качества). По результатам первоначального тестирования оборудования, максимальная тактовая частота процессора превышает 4 ГГц.

Рабочие станции на базе Cell предназначены не только для создания консольных игр. Они должны найти применение во всех областях, требующих больших вычислительных возможностей, таких как видеомонтаж, создание компьютерных спецэффектов, научных расчётов и моделирования, большие базы данных, CAD-системы. Главный продукт, для которого процессор разработан — это игровая приставка PlayStation 3.

PlayStation 3 будет оснащена четырьмя чипами Cell с частотой 4,6 ГГц (пиковая производительность 32 SPE — 1 Терафлоп. И это не считая четырёх PPE и их блоков VMX. Благодаря использованию четырёх процессоров, пропускная способность подсистемы памяти составит 100 Гбайт/с. Каждая консоль будет обладать портом интерфейса Flex I/O, благодаря чему подключать к ней аналогичные PlayStation 3 и другие устройства, оснащённые Cell, не составит особого труда.

Благодаря высокой производительности, малому энергопотреблению и изначальной ориентированности на распределённые вычисления, новый процессор может найти применение и в суперкомпьютерах.

Другая область применения Cell — это компьютеры Macintosh.

Одной из областей применения Cell аналитики считают рынок цифровых сигнальных процессоров (DSP — Digital Signal Processor), высокая скорость которых обусловлена многопоточным просчётом векторных инструкций. Восемь параллельно работающих SPE позволяют составить достойную конкуренцию специализированным DSP-процессорам. Если использовать Cell для построения видеокарты, то SPE могут служить пиксельными шейдерами и будут использоваться для конвейера просчёта. IBM считает Cell комбинацией процессора и графического чипа. Благодаря прямой связи между всеми SPE с помощью шины EIB, а также локальной памяти в их составе, существует возможность динамически переключать различные процессорные элементы на выполнение той или иной части конвейера просчёта.

Возможности использования SPE:

  • Просчёт физических моделей,

  • Тесселяция поверхностей высшего порядка в полигональные модели,

  • Инверсная кинематика,

  • Скелетная анимация,

  • Обработка воксельных данных,

  • Анимация частиц,

  • Компрессия/декомпрессия видеоданных в формате MPEG4,

  • Просчёт алгоритма ray-tracing,

  • Преобразование аудиоданных из одного формата в другой,

  • Обработка алгоритмов шифрования,

  • Искусственный интеллект.

Архитектура Cell

Принципы, заложенные в архитектуру нового чипа, были разработаны в начале 2000 года инженерами IBM. Cell работает на основе идеи массового параллелизма, которая, была заложена в так называемую клеточную архитектуру (cellular architecture), представленной на рисунке 3.4. В такой архитектуре для создания суперкомпьютеров используется множество однотипных процессоров (от 10 тыс. до 1 миллиона), каждый из которых оснащён собственным контроллером RAM и определённым объёмом самой оперативной памяти. Можно провести и аналогию с Beowolf-кластерами, построенных на базе простых компьютеров («кирпичиков») и объединённых в единую систему.

Cell может работать не только в качестве процессора, но и в качестве элемента большой системы. Путём объединения различных компонент, содержащих чипы Cell, можно построить сеть, которая будет функционировать, как единое устройство. Таким образом, производительность отдельных Cell-устройств в сети может повышаться за счёт процессоров других устройств. Причём месторасположение других элементов сети не имеет значения. Сами устройства могут быть абсолютно разными: от уже упоминавшихся игровых консолей и телевизоров до персональных компьютеров, КПК и даже мобильных телефонов.



Рисунок 6 — Блок-схема архитектуры Cell.
Как видно из рисунка 6, архитектура Cell состоит из следующих компонентов:

  • Процессорного элемента на основе POWER-архитектуры (PPE — POWER Processor Element);

  • Восьми синергических процессорных элементов (SPE — Synergistic Processor Element), ранее называвшихся присоединяемыми процессорными устройствами (APU — Attached Processing Unit);

  • Шины взаимосвязываемых элементов (EIB — Element Interconnect Bus);

  • Контроллера интерфейса памяти (MIC — Memory Interface Controller);

  • Контроллера интерфейса шины ввода/вывода (BIC — Bus Interface Controller).

Процессорный элемент на основе POWER-архитектуры

PPE представляет собой два 64-разрядных процессорных ядра (на основе POWER-архитектуры) с поочерёдным выполнением команд, в отличие от внеочередного выполнения, присущего всем современным процессорам. PPE поддерживает технологию одновременной обработки двух потоков (SMT — Simultaneous Multi-Threading), примерным аналогом которой является Hyper-Threading в Pentium 4. В PPE присутствует блок VMX (VMX — Vector Multimedia eXtensions, более известный как AltiVec). Объём кэша L1 составляет 64 Кбайт (по 32 Kбайт на кэши инструкций и данных), L2-кэша — 512 Кбайт. Несмотря на сравнительно небольшой 11-стадийный конвейер PPE, представители STI заверяют, что запас по наращиванию частоты у Cell очень большой.

Синергический процессорный элемент

Синергический процессорный элемент (рисунок 7) представляет собой специализированный векторный процессор, обрабатывающий SIMD-инструкции (аналог SSE в Pentium и 3Dnow! в Athlon).



Рисунок 7 — Блок-схема архитектуры cинергического процессорного элемента или SPE.

Архитектура SPE довольно простая: четыре блока для работы с целочисленными векторными операциями и четыре блока для работы с числами с плавающей запятой. Большинство арифметических инструкций представляют собой 128-разрядные векторы, разделённые на четыре 32-х разрядные элемента. Каждый SPE оснащён 128 регистрами, разрядность которых 128. Вместо кэша L1 процессор содержит 256 Кбайт собственной локальной памяти (local memory, также называемой local store), разделённой на четыре отдельных сегмента по 64 Кбайт каждый, а также DMA-контроллер. Последний предназначен для обмена данными между основной памятью (RAM) и локальной (LM/LS), минуя PPE.

Локальная память, по сути, исполняет роль кэша L1, но при этом полностью контролируется программистом, вследствие чего организована значительно проще. Достигается это путём переноса логики контроля над переполнением кэша из самого чипа в программный код, что способствует облегчению архитектуры локальной памяти (отсутствует поиск в RAM при каждом обращении к LM, упреждающая выборка и т.д.).

Благодаря наличию динамического механизма защиты памяти доступ к каждому SPE в Cell может быть закрыт, вследствие чего данные, обрабатывающиеся этим процессором, будут недоступны другим (например, в Cell другого устройства).

Несмотря на то, что SPE представляет собой векторный процессор, он не является аналогом VMX/AltiVec. Как уже говорилось, SPE — это отдельный микропроцессор, выполняющий собственные команды, а VMX являются блоком (подмножеством команд), выполняемых PowerPC (G4/G5).

В результате всего вышеперечисленного можно сделать вывод, что SPE довольно похож на векторные блоки Emotion Engine: локальная память, четыре 32-х разрядных векторных регистра, команды инициализации DMA и т.д. В принципе, в этом нет ничего особенного: Sony и Toshiba работали над созданием Emotion Engine (равно как и Graphics Synthesizer), и часть архитектуры старого процессора легла в основу нового.
1   2   3   4   5   6   7   8   9   10   11

Похожие:

Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconВыпускной вечер 2004г
Владимир Жириновский, Ирина Хакамада и Владимир Владимирович Путин с супругой …не приехали. Но только сегодня и только для вас у...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconПрокопьев Валерий Викторович Методист: Гончаров Владимир Борисович...
Образовательная – дать преставление о составе программного обеспечения компьютера
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconРеферат
Вячеслав Геннадьевич, Богославский Дмитрий Дмитриевич, Бодягин Владимир Михайлович, Бодягин Андрей Владимирович, Волков Сергей Денисович,...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconК статьям журнала «Компьютерная оптика»
Юрий Владимирович Микляев3 (доцент, e-mail: ), Владимир Евгеньевич Дмитриенко4 (ведущий научный сотрудник, e-mail: ), Владимир Сергеевич...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconПрезидентская программа подготовки управленческих кадров для организаций...
Авторский коллектив: Владилен Быстров, Александр Кобышев, Евгений Кобышев, Александр Козлов, Владимир Лысков-Штреве
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconУрок на тему: «Ансамблевое музицирование в классе баяна, аккордеона»
Проводит лауреат Международных конкурсов, преподаватель рам им. Гнесиных селиванов александр Владимирович
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconДиректор школы: Передвигин Владимир Владимирович
Приоритетные цели и задачи развития школы, деятельность по их решению в отчетный период 20
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconПрограмма дисциплины Безопасность жизнедеятельности для направления...
Автор программы: к т н., доцент кафедры физического воспитания Полшков Александр Владимирович
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconОбщественного объединения «белорусский республиканский союз молодежи»...
Координатор конференции – Председатель Совета молодых ученых нан беларуси Казбанов Владимир Владимирович
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconКомаров владимир борисович (10. 05. 1890 08. 10. 1971) Комаров Владимир...
Цели и задачи дисциплины: Дать студентам представление о принципах формирования компьютерного изображения, работы с фото и видео...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconУрок физики в 7 классе по теме «Давление газов, жидкостей и твердых тел»
Разработал учитель физики мбоу «Ладомировская сош» Ломакин Александр Владимирович
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconБоб Фьюсел Александр Владимирович Лихач Супермозг. Тренинг памяти, внимания и речи
...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconВладимира Владимировича Набокова 1899-1977
Набо́ков владимир Владимирович (12 (24) апреля 1899, Петербург — 3 июля 1977, Монтре, Швейцария), русский и американский писатель;...
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconАлександр Александрович Бушков Владимир Путин. Полковник, ставший капитаном
I. порядок применения правил землепользования и застройки городского округа лыткарино и внесения в них изменений
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconТема: Разработка автоматизированного программного комплекса управления...
Омский институт водного транспорта (филиал) фбоу впо «Новосибирская государственная академия водного транспорта»
Архитектуры многопроцессорных вычислительных систем Авторы: Богданов Александр Владимирович Дегтярев Александр Борисович Корхов Владимир Владиславович Мареев Владимир Владимирович Станкова Елена Николаевна iconПрограмма по формированию навыков безопасного поведения на дорогах...
Аббакумов Сергей, Чехлов Александр, Шайдуров Владимир, мбоу инженерный лицей нгту, г. Новосибирск


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск