Конвейеризация вычислений

Основные направления в архитектуре процессоров

Ранее уже были рассмотрены основные составляющие центрального процессора. Б данном разделе основное внимание уделено вопросам общей архитектуры процессоров как единого устройства и способам повышения их производительности.

Совершенствование элементной базы уже не приводит к кардинальному росту производительности ВМ. Более перспективными в этом плане представляются архитектурные приемы, среди которых один из наиболее значимых — конвейеризация.

Для пояснения идеи конвейера сначала обратимся к рис. 50, а, где показан отдельный функциональный блок (ФБ). Исходные данные помещаются во входной регистр Рг_вх, обрабатываются в функциональном блоке, а результат обработки фиксируется в выходном регистре Рг_вых. Если максимальное время обработки в ФБ равно Т_т_a_х, то новые данные могут быть занесены во входной регистр Р_вх не ранее, чем спустя Т_max.

Теперь распределим функции, выполняемые в функциональном блоке ФБ (см рис. 50, а), между тремя последовательными независимыми блоками: ФБ₁, ФБ₂ и ФБ₃, причем так, чтобы максимальное время обработки в каждом ФБ, было одинаковым и равнялось T_max/3. Между блоками разместим буферные регистры Рг_i (рис.50, б), предназначенные для хранения результата обработки в ФБ_i, на случай, если следующий за ним функциональный блок еще не готов использовать этот результат. В рассмотренной схеме данные на вход конвейера могут подаваться с интервалом T_max/3 (втрое чаще), и хотя задержка от момента поступления первой единицы данных в Рг_вх до момента появления результата ее обработки на выходе Рг_вых по-прежнему составляет Т_т_a_х, последующие результаты появляются на выходе Рг_выхуже с интервалом Т_тах/3.

На практике редко удается добиться того, чтобы задержки в каждом ФБ_i были одинаковыми. Как следствие, производительность конвейера снижается, поскольку период поступления входных данных определяется максимальным временем их обработки в каждом функциональном блоке. Для устранения этого недостатка или, по крайней мере, частичной его компенсации каждый буферный регистр Рг_i, следует заменить буферной памятью БП_i, способной хранить множество данных и организованной по принципу FIFO — «первым вошел — первым вышел» (рис. 50, в). Обработав элемент данных, ФБ_i заносит результат в БП_i, извлекает из БП_i_-1 новый элемент данных и приступает к очередному циклу обработки, причем эта последовательность осуществляется каждым функциональным блоком независимо от других блоков. Обработка в каждом блоке может продолжаться до тех пор, пока не ликвидируется предыдущая очередь или пока не переполнится следующая очередь. Если емкость буферной памяти достаточно велика, различия во времени обработки не сказываются на производительности, тем не менее желательно, чтобы средняя длительность обработки во всех ФБ_i была одинаковой.

В архитектуре вычислительных машин можно найти множество объектов, где конвейеризация обеспечивает ощутимый прирост производительности ВМ. Ранее уже рассматривались два таких объекта — операционные устройства и память, однако наиболее ощутимый эффект достигается при конвейеризации этапов машинного цикла.

По способу синхронизации работы ступеней конвейеры могут быть синхронными и асинхронными. Для традиционных ВМ характерны синхронные конвейеры. Связано это, прежде всего, с синхронным характером работы процессоров. Ступени конвейеров в процессоре обычно располагаются близко друг от друга, благодаря чему тракты распространения сигналов синхронизации получаются достаточно короткими и фактор «перекоса» сигналов становится не столь существенным. Асинхронные конвейеры оказываются полезными, если связь между ступенями не столь сильна, а длина сигнальных трактов между разными ступенями сильно рознится. Примером асинхронных конвейеров могут служить систолические массивы (систолическая обработка будет рассмотрена в последующих разделах).

5rik.ru

Материалы для учебы и работы

Конвейеризация вычислений