1. Показать развитие и классификацию однопроцессорных архитектур Архитектура общая функциональная и структурная организация машины, определяющая методы

Скачать 0.99 Mb.

Название	1. Показать развитие и классификацию однопроцессорных архитектур Архитектура общая функциональная и структурная организация машины, определяющая методы
страница	6/11
Дата публикации	04.04.2015
Размер	0.99 Mb.
Тип	Документы

100-bal.ru > Информатика > Документы

1 2 3 4 5 6 7 8 9 10 11

64. Назначение, количество, принцип действия исполнительных устройств Intel Nehalem

Усовершенствованное вычислительное ядро, Многопоточная технология, 3 уровня кэш-памяти(общий разделяемый L3 размером до 24 Мб), Интегрированный в процессор контроллер памяти с поддержкой нескольких каналов DDR3, Новая шина QPI(точка-точка) для связи процессоров и процессора с чипсетом, Модульная структура, Монолитная конструкция, Технологический процесс – 45 нм, 2 4 или 8 ядер, Управление питанием и Turbo-режим.

Алгоритм работы кэш-памяти не отличается от Core

Многопоточность Внедрение SMT в Nehalem не потребовало существенного увеличения сложности процессора. Продублированы в ядре лишь процессорные регистры. Все остальные ресурсы при включении SMT разделяются в процессоре между потоками динамически, либо жёстко пополам. Активация SMT в Nehalem приводит к тому, что каждое физическое ядро видится операционной системой как пара логических ядер.

Контроллер памяти - уменьшении латентности подсистемы памяти. Ещё одно косвенное преимущество - его функционирование теперь не зависит ни от чипсета, ни от материнской платы. В результате, Nehalem показывает одинаковую скорость работы с памятью при работе в платформах различных разработчиков и производителей.

Шина QPI - представляет собой два 20-битных соединения, ориентированных на передачу данных в прямом и обратном направлении. 16 бит предназначаются для передачи данных, оставшиеся четыре – носят вспомогательный характер, они используются протоколом и коррекцией ошибок. Работает на максимальной скорости 6,4 миллиона передач данных в секунду (GT/s) и имеет, соответственно, пропускную способность 12,8 Гбайт/с в каждую сторону или 25,6 Гбайт/с суммарно.
Управление питанием и Turbo-режим. PCU (Power Control Unit) представляет собой встроенный в процессор программируемый микроконтроллер, целью которого является «интеллектуальное» управление потреблением энергии. Основным предназначением PCU является управление частотой и напряжением питания отдельных ядер, для чего этот блок имеет все необходимые средства. Он получает от всех ядер со встроенных в них датчиков всю информацию о температуре, напряжении и силе тока.

Основываясь на этих данных, PCU может переводить отдельные ядра в энергосберегающие состояния, а также управлять их частотой и напряжением питания. В частности, PCU может независимо друг от друга отключать неактивные ядра, переводя их в состояние глубокого сна,

Если нет риска выйти за границу типичного энергопотребления и тепловыделения, PCU может повышать частоты процессорных ядер на один шаг выше номинала (133 МГц). Это может происходить, например, при слабо распараллеленной нагрузке, когда часть ядер находится в состоянии простоя. Частота одного из ядер может быть увеличена и на два шага выше номинала (266 МГц).

65. Особенности процессорного ядра AMD K10

Микроархитектура AMD К10 является логическим продолжением вполне удачной в свое время (2003 г.) микроархитектуры К8 (AMD Athlon64), обладавшей двумя важными достоинствами: встроенным в кристалл процессора контроллером памяти и независимой шиной Hyper-Transport. AMD удалось опередить Intel в выпуске настоящего четырехъядерного процессора (AMD Phenom). В то время, как CPU семейства Core 2 Quad представляли собой склейку пары двухъядерных CPU, выполненных в одном процессорном корпусе, AMD Phenom являлся полноценным четырехъядерным решением. Такие полупроводниковые кристаллы, произведенные по 65-нм технологии, получили достаточно большие геометрические размеры. Это, естественно, привело к ощутимому снижению выхода годных кристаллов и повышению себестоимости производства. Компания начала поставки трехъядерных и двухъядерных процессоров, которые изготавливались из кристаллов Phenom с одним или двумя бракованными ядрами (AMD Phenom X3, Phenom X2). Другая проблема, вытекающая из большого размера кристалла процессоров первого поколения К10 – относительно невысокие тактовые частоты, диктуемые необходимостью держать тепловыделение CPU в приемлемых рамках. Каждое ядро процессора имеет выделенный кэш L1 данных и инструкций размером по 64 Кбайт (КВ) каждый, а также выделенный кэш L2 размером 512 КВ (см. рис. 3.11). Кроме того реализован разделяемый между всеми ядрами кэш L3 размером 2 МВ (такой кэш отсутствовал в микроархитектуре AMD K8). Процессор К10 производит выборку инструкций (Instruction Fetch Unit) из кэша команд L1 выровненными 32-байтными блоками, в отличие от процессоров К8 и Intel Core, которые производили выборку 16- байтными блоками.

В архитектуре AMD K8 длина блока выборки инструкций была согласована с возможностями декодера. В архитектуре К10 возможности декодера изменились, в результате чего потребовалось изменить и размер блока выборки, чтобы темп выборки инструкций был сбалансирован со скоростью работы декодера.

В К10 предсказание переходов (Branch Prediction Unit) существенно улучшено. Во-первых, появился механизм предсказания косвенных переходов, т. е. переходов, которые производятся по указателю, динамически вычисляемому при выполнении кода программы. Во-вторых, предсказание выполняется на основе анализа 12 предыдущих переходов, что повышает точность предсказаний. В-третьих, вдвое (с 12 до 24 элементов) увеличена глубина стека возврата.

66. Декодирование команд х86 в ядре AMD K10

Как большинство современных х86-процессоров, имеющих внутреннюю RISC-архитектуру, в процессоре К10 внешние х86-команды декодируются во внутренние RISC-инструкции, для чего используется декодер команд. Процесс декодирования состоит из двух этапов. На первом этапе выбранные из кэша L1 блоки инструкций длиной 32 байта (256 бит) помещаются в специальный буфер преддекодирования (Predecode/Pick Buffer), где происходит выделение инструкций из блоков, определение их типов и отсылка в соответствующие каналы декодера. Декодер транслирует х86-инструкции в простейшие машинные команды (микрооперации), называемые micro-ops (µOp). Сами х86-команды могут быть переменной длины, а вот длина микроопераций уже фиксированная. Инструкции х86 разделяются на простые и сложные. Простые инструкции при декодировании представляются с помощью одной-двух микроопераций, а сложные команды – тремя и более микрооперациями. Простые инструкции отсылаются в аппаратный декодер, построенный на логических схемах и называемый Direct Path, а сложные – в микропрограммный декодер, называемый Vector Path. Он содержит память микрокода, в которой хранятся последовательности микроопераций.

Аппаратный декодер Direct Path является трехканальным и может декодировать за один такт: три простые инструкции, если каждая из них транслируется в одну микрооперацию; либо одну простую инструкцию, транслируемую в две микрооперации, и одну простую инструкцию, транслируемую в одну микрооперацию; либо две простые инструкции за два такта, если каждая инструкция транслируется в две микрооперации (полторы инструкции за такт). Таким образом, за каждый такт аппаратный декодер выдает три микрооперации.

Микропрограммный декодер Vector Path также способен выдавать по три микрооперации за такт при декодировании сложных инструкций. При этом сложные инструкции не могут декодироваться одновременно с простыми, т. е. при работе трехканального аппаратного декодера микропрограммный декодер не используется, а при декодировании сложных инструкций, наоборот, бездействует аппаратный декодер.

Микрооперации, полученные в результате декодирования инструкций в декодерах Vector Path и Direct Path поступают в буфер Pack Buffer, где они объединяются в группы по три микрооперации. В том случае, когда за один такт в буфер поступает не три, а одна или две микрооперации (в результате задержек с выбором инструкций), группы заполняются пустыми микрооперациями, но так, чтобы в каждой группе было ровно три микрооперации. Далее группы микроинструкций отправляются на исполнение.

Кроме того в микроархитектуре К10 в декодер добавлен специальный блок, называемый Sideband Stack Optimizer. Не вникая в подробности, отметим, что он повышает эффективность декодирования инструкций работы со стеком и, таким образом, позволяет переупорядочивать микрооперации, получаемые в результате декодирования, чтобы они могли выполняться параллельно.

После прохождения декодера микрооперации (по три за каждый такт) поступают в блок управления командами, называемый Instruction Control Unit (ICU). Главная задача ICU заключается в диспетчеризации трех микроопераций за такт по функциональным устройствам, т. е. ICU распределяет инструкции в зависимости от их назначения. Для этого используется буфер переупорядочивания Reorder Buffer (ROB), который рассчитан на хранение 72 микроопераций. Из буфера переупорядочивания микрооперации поступают в очереди планировщиков целочисленных (Int Scheduler) и вещественных (FP Mapper) исполнительных устройств в том порядке, в котором они вышли из декодера.

67. Количество, назначение, принцип действия исполнительных устройств ядра AND K10

Планировщик для работы с вещественными числами образован тремя станциями резервирования (RS), каждая из которых рассчитана на 12 инструкций. Его основная задача заключается в том, чтобы распределять команды по исполнительным блокам по мере их готовности. Просматривая все 36 поступающих инструкций, FP-Renamer переупорядочивает следование команд, строя спекулятивные предположения о дальнейшем ходе программы, чтобы создать несколько полностью независимых друг от друга очередей инструкций, которые можно выполнять параллельно. В микроархитектурах К8 и К10 имеется 3 исполнительных блока для работы с вещественными числами, поэтому FP-планировщик должен формировать по три инструкции за такт, направляя их на исполнительные блоки. Планировщик инструкций для работы с целыми числами (Int Scheduler) образован тремя станциями резервирования, каждая из которых рассчитана на 8 инструкций. Все три станции таким образом образуют планировщик на 24 инструкции. Этот планировщик выполняет те же, функции, что и FP-планировщик. Различие между ними заключается в том, что в процессоре имеется 7 функциональных исполнительных блоков для работы с целыми числами (три устройства ALU, три устройства AGU и одно устройство IMUL).

После того, как все микрооперации прошли диспетчеризацию и переупорядочивание, они могут быть выполнены в соответствующих исполнительных устройствах. Блок операций с целыми числами состоит из трех распараллеленных частей. По мере готовности данных планировщик может запускать на исполнение из каждой очереди одну целочисленную операцию в устройстве ALU и одну адресную операцию в устройстве AGU (устройство генерации адреса). Количество одновременных обращений к памяти ограничено двумя. Таким образом, за каждый такт может запускаться на исполнение три целочисленных операции, обрабатываемых в устройствах ALU, и две операции с памятью, обрабатываемых в устройствах AGU.

В процессоре К8 после вычисления на AGU адресов обращения к памяти операции загрузки и сохранения направляются в LSU (Load/Store Unit) – устройство загрузки/сохранения. В LSU находятся две очереди LS1 и LS2. Сначала операции загрузки и сохранения попадают в очередь LS1 глубиной 12 элементов. Из очереди LS1 в программном порядке по две операции за такт производятся обращения к кэш-памяти первого уровня. В случае кэш-промаха операции перемещаются во вторую очередь LS2 глубиной 32 элемента, откуда выполняются обращения к кэш-памяти второго уровня и оперативной памяти. В процессоре К10 в LSU были внесены изменения. Теперь в очередь LS1 попадают только операции загрузки, а операции сохранения направляются в очередь LS2. Операции загрузки из LS1 теперь могут исполняться во внеочередном порядке с учетом адресов операций сохранения в очереди LS2. 128-,битные операции сохранения обрабатываются в процессоре К10 как две 64-битные, поэтому в очереди LS2 они занимают по две позиции.

Для работы с вещественными числами реализовано три функциональных устройства FPU: FADD – для вещественного сложения, FMUL – для вещественного умножения и FMISC (он же FSTORE) – для команд сохранения в памяти и вспомогательных операций преобразования. В микроархитектурах К8 и К10 планировщик для работы с вещественными числами каждый такт может запускать на исполнение по одной операции в каждом функциональном устройстве FPU. Подобная реализация блока FPU теоретически позволяет выполнять до трех вещественных операций за такт. В микроархитектуре К10 устройства FPU являются 128-битными. Соответственно 128-битные SSE-команды обрабатываются с помощью одной микрооперации, что теоретически увеличивает темп выполнения векторных SSE-команд в два раза, по сравнению с микроархитектурой К8.

Одной из основных составляющих микроархитектур К8, К10 является интегрированный в процессор контроллер памяти. В последних процессорах К10 (2010 г.) используется двухканальный контроллер памяти DDR3 – 1333 МГц. Вместе с внесением изменений в архитектуру процессорных ядер инженеры AMD уделили пристальное внимание модернизации интерфейсов, по которым процессоры К10 общаются с внешним миром. В первую очередь необходимо отметить увеличенную скорость шины Hyper Transport (высокоскоростная шина передачи данных между «точка-точка», разработанная AMD), которая в новых CPU приведена в соответствие со спецификацией версии 3.0. В то время, как процессоры Athlon 64 использовали шину Hyper Transport с пропускной способностью 8 GB/сек процессоры Phenom могут обмениваться данными с чипсетом уже на скорости, достигающей 14,4–16,0 GB/сек. При этом спецификация Hyper Transport 3.0 позволяет дополнительно нарастить пропускную способность шины до 20,8 GB/сек. В то же время версии протоколов Hyper Transport 3.0 обратно совместимы, что позволяет без каких бы то ни было проблем использовать процессоры Phenom в старых материнских платах, построенных на наборах логики, поддерживающих только предыдущую версию шины Hyper Transport 2.0. В спецификацию Hyper Transport 3.0 введена поддержка частот 1,8 ГГц, 2,0 ГГц, 2,4 ГГц, 2,6 ГГц; функции «горячего подключения»; динамического изменения частоты шины и энергопотребления и других инновационных решений. Улучшена поддержка многопроцессорных конфигураций, добавлена возможность автоматического конфигурирования для достижения наибольшей производительности.

68. Стратегия развития процессоров Intel

Стратегия развития Intel заключается во внедрении новых микроархитектур процессоров, основанных на новых поколениях полупроводниковой производственной технологии. Темпы выпуска инновационных микроархитектур и полупроводниковых технологий основаны на принципе, который корпорация Intel называет моделью «TICK-TOCK». Каждый «TICK» обозначает новый этап развития полупроводниковых технологий (техпроцесс – 65 нм, 45 нм, 32 нм), а каждый «TOCK» – создание новой микроархитектуры (Intel Core, Nehalem, Sandy Bridge). Переход на новый техпроцесс сопровождается выпуском соответствующих семейств процессоров (Penryn, Westmere).

Этот цикл, как правило, повторяется каждые 2 года. Новаторская микроархитектура «обкатывается» на текущем производственном процессе, затем переносится на новую производственную технологию. Данная модель развития позволяет осуществлять внедрение единообразной процессорной микроархитектуры во всех сегментах рынка.

table3.1.jpg

Стратегия развития архитектуры и полупроводниковой технологии, реализуемая корпорацией Intel, не только позволяет выпускать новые решения в соответствии с запланированными темпами, но и способствует внедрению инновационных решений в отрасли на уровне платформ, расширяя использование преимуществ высокой производительности и энергоэкономичности.

1 2 3 4 5 6 7 8 9 10 11

	1. Показать развитие и классификацию однопроцессорных архитектур. 2 В чем суть матричного и векторно-конвейерного способов организации simd-архитектуры? 5		Книга фгуп «Санкт-Петербургское окб «Электроавтоматика» Рассматриваются основные принципы построения перспективных бортовых цифровых вычислительных систем в авиационном приборостроении....
	Сто алтгту 14. 62 2433. 2012 Приложение в силлабус (памятка) Тема Общая теория управления. Функции и методы менеджмента. Основные понятия менеджмента. Развитие и становление менеджмента. Развитие...		Конспект урока биологии 10 класс Учитель: Полиектова Е. Ф. Тема:... Оборудование: компьютер, макет челюсти, плакаты «Строение зуба», «Развитие кариеса». Зеркала (индивидуальные), карточки для практических...
	Темы рефератов по ферментологии Строение и роль простых ферментов. Активный центр как структурная и функциональная часть фермента		Экзаменационные вопросы Морфологическая и функциональная характеристика сменного прикуса ...
	Пояснительная записка к курсовой работе на тему: “Цифровой диктофон” ...		Методы и средства программирования софт-архитектур для реконфигурируемых вычислительных систем Специальность 05. 13. 11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
	Государственный образовательный стандарт высшего профессионального... Общая характеристика направления подготовки “Технологические машины и оборудование”		План-конспект урока Тема : Машиноведение. История швейной машины Цель урока: научить учащихся читать и выполнять эскиз, технический рисунок, чертёж, показать правила построения чертежей. Практический...
	I этап теоретическое задание 1 Цель и содержание Методы обследования и функциональная диагностика в терапии (73 вопроса)		Марий эл республикын туризм шотышто комитетше Методы обследования и функциональная диагностика в терапии (73 вопроса)
	И. А. Демидова Московская городская онкологическая больница №62 Методы обследования и функциональная диагностика в терапии (73 вопроса)		Стандарт медицинской помощи больным рассеянным склерозом Методы обследования и функциональная диагностика в терапии (73 вопроса)
	Рабочая программа дисциплины «Общая и неорганическая химия» «Общая и неорганическая химия» по направлению 240800 – "Энерго- и ресурсосберегающие процессы в химической технологии, нефтехимии...		Программа вступительного экзамена для поступающих в магистратуру... Поступающий в магистратуру по направлению 551800 «Технологические машины и оборудование» должен показать владение знаниями пакета...

1. Показать развитие и классификацию однопроцессорных архитектур Архитектура общая функциональная и структурная организация машины, определяющая методы

Похожие: