Параллельная обработка данных в процессоре Pentium MMX

Процессор Pentium MMX (MultiMedia extension) является раз­витием процессора Pentium. Он выполнен по более совершенной технологии с проектной нормой 0,35 мкм. Это позволило повы­сить уровень интеграции кристалла (4,5 млн транзисторов) и уве­личить тактовую частоту работы до 233 МГц. Разработчики архи­тектуры процессора Pentium MMX использовали увеличение ап­паратного ресурса процессора для включения в его структуру до­полнительных устройств, обеспечивающих повышение произво­дительности, при этом особое внимание было обращено на ре­ализацию высокопроизводительной обработки видео и аудиоин­формации.

С ростом вычислительной мощности процессоров типа Pentium появилась возможность обрабатывать потоки данных мультимедиа без дополнительных аппаратных рас­ширений и процессоров. При решении задач, связанных с обра­боткой видео и аудиоинформации (двумерная фильтрация, быст­рое преобразование Фурье, умножение матриц, свертки и т.п.), обрабатываемые данные в большинстве случаев являются одно­родными, и над ними совершаются одинаковые операции. Для повышения производительности процессора при обработке по­добной информации разработчики процессора Pentium ММХ пред­ложили использовать параллельную обработку многих данных од­ной командой — SIMD-обработку (Single Instruction — Multiple Data), сохранив при этом полную совместимость с ранее создан­ным ПО и ОС. При SIMD-обработке используется векторная об­работка данных, необходимая во многих мультимедийных и ком­муникационных алгоритмах.

Развитие принципов суперскалярной(более 1 конвеера) и суперконвейерной(больше 5 ступеней) организации в процессорах Pentium 6-го поколения

Процессор Pentium Pro является представителем следующего после Pentium 6-го поколения МП компании Intel. К этому поко­лению также относятся все модификации процессоров Celeron, Pentium II, Pentium III. Обобщенное название процессоров 6-го поколения — Р6. Они имеют архитектуру, которая одновременно является суперскалярной и суперконвейерной.

По сравнению с МП Pentium в МП Р6 реализованы следующие нововведения:

- Суперконвейерная архитектура дополнена средствами изменения последовательности исполнения команд (out-of-orderexecution). Исполнение программ с изменением последователь­ности команд — это совокупность методов, позволяющих пере­давать команды в сполнительные блоки в порядке, отличном от предписанного программой.

- Применены более совершенные методы предсказания ветвлений и обеспечена возможность исполнения по предположению.Основываясь на предсказании ветвления, процессор продолжает выборку и декодирование команд выбранной им ветви программы, более того он начинает выполнять выбранные команды заранее, не дожидаясь проверки самого условия. Результаты исполнения записываются в промежуточный буфер, где они находятся до подтверждения правильности предсказания.

- Увеличено число регистров, используемых при исполнении команд, что особенно важно при организации исполнения команд с измене­нием последовательности.

МП Р6 назвали все перечисленные технические решения одним простым выражением, используемым для марке­тинга, — «динамическое выполнение» (Dynamic Execution Architecture), которое отражает способность МП Р6 оптимизиро­вать исполнение программы, предсказывая его дальнейший ход, выполняя некоторые команды до разрешения условия перехода и выбирая лучший порядок исполнения команд программы.

Первым МП 6-го поколения является МП Pentium Pro. Он изготовлен по технологии с проектной нормой 0,35 мкм (5,5 млн транзисторов) и содержит размещенные на кристалле процессо­ра блоки кэш-памяти 1-го и 2-го уровней.

Процессор Pentium II. МП Pentium II объединяет архитектур­ные решения МП Pentium Pro и МП Pentium MMX. Первые МП Pentium II (1997) изготовлялись по CMOS-технологии с проектной нормой 0,35 мкм. Они имели напряжение питания 2,8 В, содержали 7,5 млн транзисторов и работали на частоте до 300 МГц.

Упрощенным и значительно более дешевым вариантом МП Pentium II является модель процессора, названная Celeron. Пер­вые МП Celeron выпускались без микросхем вторичного кэша, более поздние модели содержат вторичный кэш размером 128 Кбайт. Одной из главных особенностей процессоров Celeron является то, что они предназначены только для построения однопроцессор­ных систем.

Процессор Pentium III. МП Pentium III — последний предста­витель 6-го поколения процессоров х86. Его главным от­личием от МП Pentium II является SSE-расширение (Streaming SIMD Extensions) набора векторных SIMD-команд для обработ­ки упакованных данных в формате чисел с плавающей точкой (одинарная точность). Использование команд SSE-расширения обеспечило увеличение производительности процессора Pentium III при выполнении прикладных программ обработки изображе­ний и 3-мерной графики.

Процессор Pentium III содержит 28 млн транзисторов(0,25 мкм) и устой­чиво работает на частотах до 1,2 ГГц.

Процессор Pentium IV.МП Pentium IV (2000) является предста­вителем следующего (7-го) поколения процессоров х86. С программной точки зрения МП Pentium IV принципиаль­ных архитектурных расширений не содержит. Его можно рассматривать как МП Pentium III с расширенным набором векторных команд, оперирующих с регистрами ХММ и ММХ. Новые коман­ды МП Pentium IV, работающие с числами разных форматов, включая учетверенные слова (64 бит) и числа двойной точности с плавающей точкой, получили название SSE2-расширение.

МП Pentium IV изготовлен по CMOS-технологии с проектной нормой 0,18 мкм, содержит около 42 млн транзисторов и рассчи­тан на работу с тактовыми частотами свыше 1,4 ГГц. Процессор требует мощного охлаждения — при напряжении питания 1,6 В он потребляет ток до 40 А, что соответствует рассеиваемой мощно­сти 65 — 70 Вт. Как и во всех МП Pentium, разрядность шины дан­ных процессора Pentium IV составляет 64 разряда. Шина адреса имеет ширину 36 бит, обеспечивая адресацию 64 Гбайт памяти, из которых кэшируются только первые 4 Гбайт. В МП Pentium IV обработка команд выполняется на 20-ступен-чатом конвейере (по определению Intel — гиперконвейере).

Pentium D, двухъядерный (Dual-core) микропроцессор, частота системной шины: 800 (4x200) МГц. Ядро Smithfield — 90 нм технологический процесс (2,8—3,4 ГГц), Представлен: 26 мая 2005 года, 2,8—3,4 ГГц (номера моделей 820—840), Количество транзисторов: 230 миллионов, Кэш L2: 1 МБ x 2 (non-shared, 2 МБ всего). Производительность увеличилась примерно на 60 % по сравнению с одноядерным микропроцессором Prescott. Ядро Presler — 65 нм технологический процесс (2.8—3.6 ГГц), представлен: 16 января 2006 года, 2,8—3,6 ГГц (номера моделей 920—960), количество транзисторов: 376 миллионов, кэш L2: 2 МБ x 2 (non-shared, 4 МБ всего). Последний процессор микроархитектуры NetBurst.

Микроархитектура Intel Core является многоядерной микропроцессорной архитектурой, представленной фирмой Intel в 1-м квартале 2006 года. Микроархитектура Intel Core основана на обновлённой версии ядра Yonah и может рассматриваться в качестве последней итерации(основна) микроархитектуры Intel P6, которая ведёт свою историю с Pentium Pro, представленного в 1995 году. Чрезмерно высокое энергопотребление и завышенные требования к охлаждению процессоров, основанных на микроархитектуре NetBurst, и, в результате, неспособность эффективно увеличивать тактовую частоту, а также другие узкие места, такие, как неэффективность конвейера, являются главными причинами, почему Intel отказалась от микроархитектуры NetBurst. Микроархитектура Intel Core была разработана командой Intel Israel (IDC), которая ранее разработала мобильный процессор Pentium M. Микроархитектура Intel Core обеспечивает высокую производительность, энергосбережение и быстродействие в многозадачных средах. Она имеет несколько ядер и аппаратную поддержку виртуализации (Intel VT), а также Intel 64 и SSSE3.

Представители:

Intel Core 2, ядро Conroe — 65 нм технологический процесс, микропроцессор для настольных систем, Представлен: 27 июля 2006 года. Поддержка инструкций SIMD: SSE3, количество транзисторов: 291 миллион у моделей с 4 МБ кэш-памяти. Реализованы технологии: Intel Virtualization Technology — аппаратная виртуализация, LaGrande Technology — аппаратная технология защиты информации, Execute Disable Bit, EIST (Enhanced Intel Speed Step Technology), iAMT2 (Intel Active Management Technology) — удаленное управление компьютерами. Сокет: LGA775.

Intel Core i7 Extreme Edition. Ядро Bloomfield — 45 нм технологический процесс. Микропроцессор для настольных систем со встроенным трехканальным контроллером DDR3 памяти, представлен: 16 ноября 2008 года.Поддержка инструкций SIMD: SSE3, SSSE3, SSE4.1, SSE4.2, количество транзисторов: 731 млн. Реализованы технологии: Hyper-Threading, QPI, Turbo Boost, Intel Virtualization Technology — поддержка нескольких операционных систем на одном компьютере, LaGrande Technology — аппаратная технология защиты информации, Execute Disable Bit, EIST (Enhanced Intel Speed Step Technology), iAMT2 (Intel Active Management Technology) — удаленное управление компьютерами. Сокет: LGA1366. Ядро Gulftown — 32 нм технологический процесс, микропроцессор для настольных систем, 6 процессорных ядер, 6×256 Кбайт L2-кэш,12 Мбайт L3. Поддержка инструкций SIMD: SSE3, SSSE3, SSE4.1, SSE4.2. Реализованы технологии: Hyper-Threading, Turbo Boost, QPI, Intel Virtualization Technology, Execute Disable Bit, EIST (Enhanced Intel Speed Step Technology), сокет: LGA1366.

 

2. Особенности процессоров, архитектурно близких к процессорам семейства Pentium

 

Процессоры, архитектурно близкие к МП семейства Pentium, производят ряд фирм, в том числе AMD (Advanced Micro Devises), IBM, Cyrix. В основном процессоры этих фирм обладают близкими, а в ряде случаев и лучшими характеристиками по срав­нению с процессорами Intel, но имеют меньшую стоимость. Улуч­шение характеристик достигается за счет технологии и некоторых оригинальных архитектурных решений.

 

3. Процессоры архитектуры IA-64

 

Суперскалярная архитектура IA-64 (Intel Architecture 64) явля­ется результатом совместной разработки компаний Intel и Hewlett Packard [29, 35]. Эта архитектура радикально отличается от всего, что до нее использовалось на рынке ПК. Архитектура IA-64 не является ни 64-разрядным расширением 32-разрядной архитекту­ры х86 компании Intel, ни переработкой 64-разрядной архитекту­ры процессора РА-RISC компании Hewlett Packard. В IA-64 реали­зуется ряд новых подходов, обеспечивающих больший паралле­лизм при исполнении кода программы и существенное повыше­ние производительности. К ним относятся «предикация» (способ обработки ветвлений) и «загрузка данных по предположению».

Одной из наиболее существенных особенностей архитектуры IA-64 является использование очень длинных командных слов (VLIW-команд) и большого числа регистров. В суперскалярных VLIW-процессорах реализуется принцип планирования исполне­ния команд во время компиляции. Ответственность за параллель­ное выполнение операций при этом возлагается на внешние сред­ства, не участвующие непосредственно в управлении исполнением машинных команд. С помощью оптимизирующего компилятора ис­ходный текст программы преобразуется в пакеты несвязанных опе­раций.

I IA-64 — полностью 64-разрядная архитектура. В ней определе­ны 64-разрядное адресное пространство и 64-разрядные форматы целых чисел и чисел с плавающей запятой. Первым процессором с архитектурой IA-64 стал МП Itanium фирмы Intel. Как и любой суперскалярный процессор, МП Itanium содержит большое число исполнительных блоков, способных одновременно выполнять не­сколько независимых команд различных типов: целочисленных, мультимедийных, с плавающей запятой. Конвейер МП Itanium (10-ступенчатый) в каждый такт работы процессора выдает на исполнение до восьми машинных команд.

 

4. Семейство процессоров SPARC

 

Название SPARC (Scaleable Processor ARChitecture — нара­щиваемая архитектура процессора) определено не для конкрет­ного процессора, а для системы команд, которой соответствует семейство процессоров. Основным производителем процессоров SPARC является компания SUN, которая и предложила эту ар­хитектуру.

Название SPARC (Scaleable Processor ARChitecture — нара­щиваемая архитектура процессора) определено не для конкрет­ного процессора, а для системы команд, которой соответствует семейство процессоров. Основным производителем процессоров SPARC является компания SUN, которая и предложила эту ар­хитектуру.

Первые реализации SPARC-архитектуры были выполнены ком­панией SUN в середине 80-х гг. XX в. на базе процессора RISC-II, разработанного в университете города Беркли. Это был 32-разряд­ный суперскалярный процессор с адресуемым пространством па­мяти 4 Гбайт, расширенным набором регистров и фиксирован­ным форматом 3-адресных команд.

SPARC — открытая архитектура, поэтому любые производите­ли могут строить свои процессоры в соответствии с этой архитек­турой [29, 35]. В настоящее время известны несколько версий спе­цификации архитектуры SPARC: 32-битные MicroSPARC, SuperSPARC, HyperSPARC и 64-битные UltraSPARC. Последняя 64-битная версия с адресами и регистрами по 64 бит получила название SPARC-V9. Архитектура UltraSPARC реализована в се­мействе процессоров с одноименным названием: процессоры UltraSPARC I, UltraSPARC II и UltraSPARC III. На базе этих про­цессоров компания SUN разрабатывает 64-битные рабочие стан­ции, предназначенные для решения широкого круга задач, в том числе для работы с мультимедийными приложениями (графиче­скими изображениями, ауди- и видеообъектами). В настоящее время стандарт UltraSPARC является стандартом для высокопроизводительных рабочих станций.

 

5. Микропроцессоры семейства MIPS

 

Процессоры архитектуры MIPS предложены компанией MIPS Technology в 1986 г. Первые процессоры MIPS R2000, R3000 рабо­тали на частоте до 40 МГц. Они были 32-разрядными с 32-разряд­ной шиной адреса. В состав этих процессоров входили блоки вы­полнения команд целочисленной арифметики и команд опера­ций с плавающей запятой. Они содержали 32 РОН для целочи­сленных вычислений, 16 регистров блока выполнения операций с плавающей запятой и специальную пару регистров для хране­ния результатов выполнения операций целочисленного умноже­ния и деления. Формат команд был фиксирован и составлял 32 разряда. Для обращения к операндам в памяти использовались только команды Load/Store и один способ адресации. Процессоры R2000, R3000 имели стандартный 5-ступенчатый конвейер. Они достаточно долго служили основой для построения рабочих стан­ций и серверов компаний Silicon Graphics, Digital и др. Позднее после упразднения фирмы MIPS основным производителем про­цессоров семейства MIPS стала компания Silicon Graphics.

Наиболее «продвинутым» процессором семейства MIPS явля­ется суперскалярный 64-битовый процессор R10000 [13]. По срав­нению с процессором R8000 он более универсален и может ис­пользоваться как в качестве процессора ПК, так и в рабочих стан­циях, а также в многопроцессорных серверах баз данных. Процес­сор R10000 содержит около 7 млн транзисторов (из них 4,5 млн транзисторов расходуется на внутренний кэш 1-го уровня L1) и работает на частоте до 200 МГц.

Процессор R10000 содержит следующие основные блоки:

- системный интерфейс;

- два блока внутренней кэш-памяти 1-го уровня: раздельные кэш команд и кэш данных емкостью 32 Кбайт каждый;

- блок управления вторичным кэшем;

- блок предварительной выборки команд, обеспечивающийупреждающую выборку команд, их частичную дешифрацию и переименование регистров;

- блок предсказания ветвлений;

- три очереди команд;

- блок вычисления адресов, обеспечивающий вычисление ис­полнительных адресов операндов в памяти;

- блок выполнения команд целочисленной арифметики, в со­ став которого входят АЛУ1, АЛУ2 и блок целочисленных регист­ров, соединенный через коммутатор с внутренней кэш-памятью данных;

- блок выполнения команд с плавающей точкой (в его состав входят cумматор, умножитель и блок регистров с плавающей то­чкой).

 

6. Микропроцессоры семейства PowerPC

 

Архитектура МП PowerPC разработана в середине 90-х гг. XX в. совместными усилиями трех фирм: IBM, Motorola, Apple для ПК. Основой архитектуры этого семейства является RISC-про­цессор POWER фирмы IBM. POWER является аббревиатурой на­звания Performance Optimization With Enhanced — оптимизация работы с использованием усовершенствованного RISC. По срав­нению с традиционным RISC-процессором МП POWER имеет ряд дополнительных свойств:

- МП POWER — суперскалярный процессор, содержащий в своем составе три независимых исполнительных блока: целочи­сленных вычислений, операций с плавающей запятой и обработ­ки переходов. Для каждого исполнительного блока определен соб­ственный набор регистров и обеспечена независимость работы этих блоков. Благодаря такой организации исполнительных блоков ко­манды могут заканчиваться не в порядке поступления.

- Система простых RISC-команд МП POWER расширена не­большим числом «сложных» команд, которые реализуют относи­тельно сложные операции, например групповую загрузку и чте­ние памяти. Использование «смешанных» команд позволяет ми­нимизировать размер программного кода, устраняя основной не­достаток RISC-архитектур — большой размер программного кода.

- В МП POWER усовершенствован механизм обработки ко­манд условного перехода. Традиционно в RISC-процессорах при выполнении любой команды арифметических и логических опе­раций в регистре флагов фиксируются признаки результата. Един­ственный регистр флагов результата существенно ограничивает возможности процессора выполнять несколько команд одновре­менно, особенно в случае неупорядоченной обработки. В МП POWER для устранения указанного ограничения используется несколько (восемь) регистров условий и условные переходы об­рабатываются с помощью специального блока обработки ветвле­ний. Работа этого блока основана на том, что ветви большинства условных переходов являются короткими и при выполнении ко­манд ветви происходит возврат к основной программной после­довательности. Блок обработки ветвлений выделяет в потоке вход­ных команд условные переходы и заранее выбирает ветвь продол­жения программы. Если переход не предсказывается, выполнение программы происходит так, будто команды перехода не было. При предсказании перехода блок ветвления запрашивает из кэша последовательность команд, расположенных по адресу ветвления. В МП POWER реализовано статическое предсказание переходов. Формат команд МП POWER расширен специальным битом усло­вий. Модифицируя этот бит, компилятор может изменить прави­ла предсказания переходов.

В однокристальных МП семейства PowerPC сохранены свой­ства архитектуры МП POWER и усовершенствован процесс па­раллельного выполнения команд. Семейство представлено несколь­кими процессорами: МП PowerPC 601, МП PowerPC 603, МП PowerPC 604, МП PowerPC 620, МП PowerPC 750, МП PowerPC G4, МП PowerPC G5 и некоторыми другими. Младшие модели суперскалярных процессоров семейства (МП PowerPC 601, МП PowerPC 603, МП PowerPC 604) являются 32-разрядными, а стар­шие модели (МП PowerPC 620) — 64-разрядными. МП PowerPC содержат в своем составе несколько исполнительных блоков: блок целочисленных вычислений, блок операций с плавающей точкой и блок обработки переходов. Все блоки конвейеризированы. МП PowerPC допускают внеочередное исполнение команд и обеспе­чивают одновременную выдачу на исполнение до четырех команд. В каждом такте работы МП PowerPC 601 и МП PowerPC 603 могут завершать исполнение до трех команд, а процессор PowerPC 604 — до шести команд.

Суперскалярный процессор PowerPC 620 стал первой 64-раз­рядной реализацией архитектуры PowerPC. Он предназначен для построения высокопроизводительных ВМ, серверов и мульти­процессорных систем. МП PowerPC 620 совместим по коду с ран­ними моделями процессоров PowerPC. Благодаря этому он может выполнять не только новые, специально разработанные для него 64-битовые программы, но и ранее созданные 32-битовые про­граммы МП PowerPC.

Архитектура МП PowerPC развивается и дополняется новыми моделями. Кроме компании IBM, процессоры этой архитектуры производит компания Motorola, использующая в обозначении своих процессоров префикс МРС. Отличительной особенностью новых моделей процессоров PowerPC является использование в них технологии обработки мультимедийных данных AltiVec, пред­ложенной компанией Motorola. В обеспечение этой технологии в труктуру процессора вводят специальные аппаратные средства — блок векторной обработки. В его состав входят 32 регистра (128- разрядных) для хранения мультимедийных (векторных) данных и специализированные арифметико-логические блоки для обра­ботки этих данных. Технология AltiVec близка к обработке муль­тимедийных данных командами ММХ и SSE в процессорах Penti­um II, Pentium III, Pentium IV. Она обеспечивает параллельную обработку упакованных данных (векторов) длиной 4, 8 или 16 эле­ментов. Команды AltiVec ускоряют работу мультимедийных прило­жений и приложений цифровой обработки сигналов. Общее число команд блока векторной обработки составляет 162 команды.

7. Семейство процессоров Alpha

 

Высокопроизводительные суперскалярные МП Alpha компа­нии DEC (Digital Equipment) представлены семейством Alpha21x64 (х = 0, 1, 2, 3). Высокая производительность этих процес­соров (по данному показателю они являются лидерами среди од­нокристальных МП) в основном обеспечивается за счет высокой тактовой частоты работы и использования длинных конвейеров выполнения операций. Упрощенная логика работы отдельных сту­пеней конвейеров позволяет минимизировать время исполнения операций в каждой ступени и благодаря этому повысить частоту работы конвейеров.

Первый член семейства 64-разрядный RISC-процессор Alpha 21064, разработанный в 1993 г. практически одновременно с МП Pentium, работает на частоте 200 МГц (частота работы МП Pentium была 66 МГц). В его составе имеются четыре конвейеризирован­ных операционных блоков: целочисленных вычислений, опера­ций с плавающей запятой, обработки переходов и загрузки (за­поминания) с числом ступеней 7, 10, 6 и 7 соответственно. Реги­стровый файл процессора содержит по 32 регистра (64-битовых) блоков целочисленных вычислений и операций с плавающей за­пятой. Внутренние раздельные кэши команд и данных, размещен­ные на кристалле процессора, имеют емкость 8 Кбайт каждый. Первые четыре ступени конвейеров являются общими для всех конвейеров. За такт процессор может выполнять до двух команд: команду целочисленной арифметики и команду операций с пла­вающей запятой или команду перехода. В процессоре Alpha 21064 не используются сложная логика переупорядочения команд и пе­реименование регистров. Обеспечение эффективной загрузки ис­полнительных блоков возлагается на компилятор.

Последним членом семейства процессоров Alpha 21x64 являет­ся процессор Alpha 21364 компании Compaq (в конце 90-х гг. XX в. Compaq приобрела компанию DEC). Процессор производится по тех­нологии с проектной нормой 0,18 мкм, содержит около 100 млн транзисторов (из них 92 млн расходуются на кэш). МП Alpha 21364 является развитием процессора Alpha 21264. В нем наряду с ядром МП Alpha 21264 использован ряд архитектурных решений, обес­печивших существенное повышение производительности. Но­выми блоками процессора Alpha 21364 являются 6-канальный час­тично ассоциативный кэш 2-го уровня объемом 1,5 Мбайт, конт­роллер управления внешней динамической памятью и встроенный сетевой интерфейс. Значительный объем кэша 2-го уровня и встро­енные средства управления внешней памятью удешевляют постро­ение систем на основе данного процессора, а благодаря наличию встроенного сетевого интерфейса существенно упрощается объ­единение процессоров в высокопроизводительные ВС.

 

 

8. Тенденции развития архитектур процессоров

 

Самым существенным фактором, влияющим на архитектурные решения современных МП, является постоянное совершенствова­ние технологии производства ИС и, как следствие, — рост уровня интеграции, уменьшение задержек в вентилях и связях, снижение энергопотребления при переключениях вентиля. В целом с ростом уровня интеграции увеличиваются ресурсы на кристалле и повы­шается тактовая частота работы микросхем. Большое число венти­лей на кристалле делает возможным применить в одном МП все известные приемы повышения производительности процессора. Важнейшими являются два: уменьшение относительного числа об­менов данными с внешними по отношению к кристаллу устрой­ствами и использование параллельной обработки на всех уровнях организации вычислительного процесса. Разработчики процессо­ров используют увеличивающие ресурсы кристалла для повыше­ния производительности именно по эти двум направлениям. Пер­вое направление связано с увеличением объема внутренней кэш­памяти и совершенствованием способов ее организации. Второе направление характеризуется реализацией в процессорах принци­пов конвейеризации и параллельной обработки в нескольких кон­вейерах на разных стадиях выборки и исполнения команд.

На сегодняшний день можно выде­лить три основных тенденции развития архитектур современных процессоров:

- применение суперскалярной обработки с динамическим па­
раллелизмом в процессорах с чисто аппаратным механизмом вы­
борки несвязанных команд программы из памяти и параллельном
запуске их на исполнение (процессоры Pentium, PowerPC, Alpha,
SPARC и др.);

- развитие суперскалярной обработки со статическим паралле­
лизмом, при котором выявление скрытого параллелизма и опре­
деление возможности параллельного исполнения команд возлага­
ется на оптимизирующий компилятор (VLIW-процессоры Е2К,
Itanium, Crusoe);

- использование аппаратных средств, обеспечивающих вектор­
ную обработку данных.

Современный процессор — это 64-разрядный суперконвейвейерный, суперскалярный процессор с RISC-операционным ядром и большим числом исполнительных блоков, реализующий дина­мическое исполнение команд. Для эффективной обработки дан­ных мультимедиа и графики система команд современных про­цессоров расширяется за счет специализированных команд муль­тимедийной обработки: команд расширений ММХ, SSE, SSE2 в процессорах компании Intel; AltiVec — IBM, Motorola; VIS — SPARC; 3DNow! - AMD.

Для объединения процессоров в высокопроизводительные ВС большинство современных процессоров содержат средства поддер­жки симметричной мультипроцессорной обработки SMP.