Структура сервера


Шасси Superdome 2 построено на стандартной стойке 18U, а сам сервер может содержать несколько корпусов (узлов). Общая схема сервера Superdome 2 основана на объединении через коммутаторы ячеек (сell), реализованных в форме «лезвий», содержащих процессоры, оперативную память и базовые средства ввода-вывода (I/O), которые могут дополняться подсоединяемыми через коммутаторы средствами расширения ввода-вывода IOX (I/O Expansion Enclosure).

Основу для такой структуры составляет набор микросхем фирмы HP sx3000, пришедший на смену использовавшемуся ранее набору sx2000. Набор sx3000 состоит из трех микросхем: контроллер лезвия Agent, коммутаторная микросхема (crossbar switch) и адаптер шин PCI Express. Платы коммутаторов и ячеек-лезвий вставляются в слоты пассивной системной платы (midplane).

Каждое лезвие (рис. 1) содержит два процессорных разъема, две напрямую соединенные между собой микросхемы Agent, по 16 слотов памяти RDIMM на каждый разъем, IOH, два двухпортовых адаптера 10 Gigabit Ethernet и три слота плат в мезонинном конструктиве. В корпусе 18U может содержаться до 8 лезвий, содержащих 16 процессорных разъемов, 256 слотов DIMM, 32 порта 10 Gigabit Ethernet и 24 слота дочерних плат.

 

 

Между собой и Agent процессоры связаны пятью двунаправленными каналами QPI с пиковой пропускной способностью 19,2 Гбайт/с каждый. Пиковая пропускная способность памяти, локально подсоединенной к каждому процессору, составляет 34 Гбайт/с или 68 Гбайт/с на ячейку, что вдвое выше, чем в sx2000. Каждый процессор связан с 4 масштабируемыми буферами памяти (Scalable Memory Buffers, SMB), и уже через них происходит обмен данными с RDIMM. Структура sx3000 позволяет каждому процессору напрямую обращаться к локальной памяти, не «консультируясь» при этом с другими процессорами и Agent. Подобное прямое подсоединение позволяет уменьшить задержки и улучшить масштабирование.

Процессор Tukwilla имеет два независимых контроллера памяти, каждый из которых работает через интерфейс SMI c двумя SMB. Cтрока кэша расщепляется между двумя модулями DIMM, поэтому для достижения максимальной пропускной способности необходимо иметь минимум 8 DIMM. В Superdome 2 поддерживаются продвинутые средства расслоения памяти (interleave) — низкоуровневое расслоение обеспечивают оба Agent и все шесть каналов, связывающих их с коммутатором, при доступе к памяти удаленного лезвия, а микросхемы IOH вместе с Agent поддерживают тонкозернистое расслоение страниц. Кроме того, возможно распределение памяти для процессорного разъема. Такая схема показала свою эффективность в серверах стандартной структуры. Для уменьшения задержек обращения к удаленной оперативной памяти в лезвиях применяется кэш L4 емкостью 64 Мбайт (два кэша по одному для каждого процессора), который использует схему с обратной записью, построен по технологии встраиваемой памяти (eDRAM) и подсоединяется через Agent. Когда строка кэша разделяется всеми четырьмя ядрами одного процессора, то в соответствующем кэше L4 содержится только одна копия строки, а когда одно ядро имеет доступ к строке кэша по чтению и по записи, то эта же строка используется другим ядром того же процессора, а их согласование идет через Agent.

Применение Agent обеспечивает расширенную масштабируемость по числу процессоров, интерфейс к средствам ввода/вывода, когерентность кэша, а также управление кэшем L4 (рис. 1). Каждый Agent имеет по три канала с пропускной способностью 13 Гбайт/с, идущих к коммутатору системы (Crossbar Fabric), и, соответственно, на плату лезвия приходится всего шесть каналов. Эти каналы являются дифференциальными двунаправленными, используют технологию SERDES и объединяют в себе 10 последовательных каналов, обеспечивая 5,2 млрд передач в секунду (GigaTransfer, GT/s). Каждый Agent имеет еще один такой же канал с IOH. Собственно, через эти концентраторы подсоединяются все аппаратные средства подсистемы ввода-вывода, которая базируется на применении дифференциальных каналов PCI-E (v.2) х8; каждая микросхема IOH обеспечивает шесть таких интерфейсов с пропускной способностью 5 GT/s каждый.

Как видно из рис. 1, схема соединения процессоров, Agent, IOH и коммутатора обеспечивает избыточность всех основных узлов ячейки, резервирование путей и возможности балансировки нагрузки, что, безусловно, значительно повышает надежность Superdome 2.

Каждый Agent использует три канала к системному коммутатору, итого шесть каналов на ячейку. Коммутатор системы реализован в виде набора коммутаторных плат-модулей XFM (Crossbar Fabric Module), вставляемых в слоты срединной платы. Всего в одном узле имеется до восьми ячеек и до 4 XFM. Узлов, в свою очередь, может быть до четырех, и они соединяются между собой кабелями через порты системного коммутатора.

Из 20 портов неблокирующегося коммутатора XFM 12 являются «внутренними» — они соединяются с ячейками. Оставшиеся 8 «внешних» портов предназначены для соединения с IOX или соединения узлов между собой посредством кабелей. Для конфигураций Superdome 2 c одним узлом модули XFM не имеют прямых соединений друг с другом — они соединяются через ячейки или IOX. Для максимальной конфигурации с 32 ячейками они задействуют 192 порта на системном коммутаторе (фабрике).

Каждый Agent ячейки подсоединен к «своей» паре XFM, так что любая ячейка соединена со всеми четырьмя XFM. Аналогичная ситуация имеет место для IOX: каждая из двух микросхем IOH соединяется со своей парой модулей XFM, что обеспечивает резервирование и балансировку нагрузки.

Общая схема построения системного коммутатора обеспечивает необходимую для отказоустойчивости избыточность. Пиковая пропускная способность портов коммутатора составляет 12-13 Гбайт/с и зависит от подключаемого оборудования (Agent или IOX) [3]. Умножив на 6 эту величину в расчете на ячейку, получаем 78 Гбайт/с.

На срединную плату (точнее было бы назвать ее «верхней» системной платой) приходится 8U из общей высоты узла (18U), а оставшиеся 10U объема отведены для аппаратных средств коммутаторов I/O, соединяемых с нижней системной платой. Эта нижняя часть узла аналогична HP c7000 — здесь располагаются, в частности, средства управления (Onboard Administrator, OA), модули коммутаторов Fibre Channel (8 Гбит), Infiniband, Ethernet, SAS и вентиляторы. Верхняя часть узла является уникальной для Superdome 2 надстройкой.

В Superdome 2 имеется возможность прямой передачи данных между ядрами процессора без обращения к памяти (из кэша в кэш) за три «прыжка» (hops) коммутатора. Другой важнейшей, зависящей от межсоединения характеристикой общей структуры ccNUMA-системы являются величины задержек по обращению в локальную и удаленную память. Для SMP-системы вся память является однородной — программисту нет необходимости учитывать разные скорости обращения.

Подсистема ввода/вывода имеется в ячейках и в корпусах IOX высотой 4U (рис. 2а). Концентраторы IOH используют два канала PCI-E x8 к сетевым адаптерам 10 Gigabit Ethernet и три таких же канала к слотам дочерних плат ввода/вывода. И сетевые адаптеры, и интерфейсы дочерних плат соединяются с портами коммутаторов ввода/вывода c обеспечением отказоустойчивости благодаря дублированию соединений. Кроме того, к IOH подключается управляющий контроллер ячейки iLO.

 

 

Благодаря двум каналам между IOH и Agent общая пиковая пропускная способность ввода/вывода ячейки равна 26 Гбайт/с, а поддерживаемая в дуплексном режиме — 11,8 Гбайт/с (в Superdome — 8,2 Гбайт/с). Масштабирование подсистемы ввода/вывода обеспечивается путем подключения новых ячеек, а дополнительные корпуса IOX позволяют не добавлять новые ячейки.

Каждая микросхема IOH в IOX имеет по два канала и подсоединяется к двум разным платам XFM (рис. 2). Эти каналы к коммутатору основаны на 10 последовательных соединениях по 5 GT/s. Пиковое значение пропускной способности канала составляет 12,5 Гбайт/с, а поддерживаемое значение для дуплексной двунаправленной передачи — 5,7 Гбайт/с. Для всего IOX пропускная способность составляет 50 Гбайт/с. В структуре серверов Superdome модули IOX отсутствовали.

 

Рис. 2б. Структура модуля IOX.