
Modern veri merkezlerinde, yüksek performanslı cluster, HPC, yapay zeka, storage ve Kubernetes altyapıları için en kritik bileşenlerden biri ağ mimarisidir. 10GbE ağlar artık birçok workload için yetersiz kalırken, 25GbE Ethernet günümüzde veri merkezlerinde en dengeli performans / maliyet çözümü haline gelmiştir.
Bu yazıda aşağıdaki konuları detaylı şekilde ele alacağız:
25GbE ağ teknolojisinin avantajları
Mellanox / NVIDIA ConnectX NIC kartlarının rolü
25G cluster için ideal switch ve NIC kombinasyonu
PPS (packet per second) ve latency farkları
SFP28 modül ve kablo seçimleri
Dell, HPE ve Supermicro sunucularla uyumluluk
Veri merkezi için önerilen topoloji
Bu içerik özellikle veri merkezi mühendisleri, sistem yöneticileri ve AI / HPC cluster kuran ekipler için hazırlanmıştır.
Son yıllarda veri merkezlerinde ağ trafiği ciddi şekilde arttı. Bunun başlıca sebepleri:
container ve microservice mimarileri
dağıtık storage sistemleri
Kubernetes cluster yapıları
yapay zeka ve GPU compute clusterları
NVMe over Fabrics gibi yüksek throughput gerektiren protokoller
Bu nedenle birçok kurum 10GbE → 25GbE → 100GbE geçişini hızlandırdı.
25GbE'nin avantajları:
10GbE’ye göre 2.5 kat daha yüksek throughput
daha düşük latency
daha iyi energy efficiency
veri merkezlerinde yüksek port yoğunluğu
25GbE ağlarda en çok kullanılan NIC çözümleri NVIDIA (eski Mellanox) ConnectX serisidir.
ConnectX NIC’ler özellikle şu özellikleri nedeniyle veri merkezlerinde tercih edilir:
RDMA desteği (RoCE)
düşük latency
yüksek PPS
gelişmiş offload özellikleri
sanallaştırma desteği (SR-IOV)
NVMe-oF optimizasyonu
Mellanox resmi dokümantasyonu:
https://docs.nvidia.com/networking/
Teknik dokümantasyon:
https://docs.nvidia.com/networking/display/connectx5en
Özellikler:
Dual port SFP28
10 / 25GbE destek
PCIe 3.0 x8
RDMA (RoCE v2)
yaklaşık 200 Mpps packet rate
latency ~750 ns
Bu kart veri merkezlerinde uzun süre en yaygın 25G NIC olarak kullanılmıştır.
Teknik dokümantasyon:
https://docs.nvidia.com/networking/display/connectx6lxen
Özellikler:
dual port SFP28
PCIe Gen4 x8
gelişmiş virtualization offload
RDMA ve NVMe-oF optimizasyonu
220-250 Mpps packet rate
latency ~600-700 ns
ConnectX-6 Lx mimarisi, ConnectX-5'e göre:
daha yüksek host throughput
daha iyi packet pipeline
daha düşük CPU yükü sağlar.
NIC performansını değerlendirirken iki önemli metrik vardır:
Bu değer, NIC’in saniyede işleyebildiği paket sayısını gösterir.
| NIC | PPS |
|---|---|
| ConnectX-5 | ~200 Mpps |
| ConnectX-6 Lx | ~220-250 Mpps |
NIC seviyesinde latency çok düşüktür ve genellikle:
| NIC | latency |
|---|---|
| ConnectX-5 | ~750 ns |
| ConnectX-6 Lx | ~600-700 ns |
Ancak gerçek cluster latency genellikle:
5 – 20 microseconds
arasında olur.
Bu değer switch, kernel stack ve uygulama tasarımına bağlıdır.
25GbE cluster kurarken en yaygın kullanılan switch mimarileri leaf-spine topolojisidir.
Leaf switch node’lara bağlanır, spine switch ise leaf’leri birbirine bağlar.
Teknik referans:
https://www.nvidia.com/en-us/networking/ethernet-switching/sn2010/
Özellikler:
18 × 25Gb SFP28
4 × 100Gb uplink
~300 ns switch latency
Spectrum ASIC
Bu switch genellikle:
küçük clusterlar
storage node ağları
edge veri merkezleri
için kullanılır.
Teknik referans:
https://www.nvidia.com/en-us/networking/ethernet-switching/sn2410/
Özellikler:
48 × 25Gb port
8 × 100Gb uplink
~300 ns latency
Bu switch büyük clusterlar için çok popülerdir.
25GbE ağlarda aşağıdaki markalar da yaygındır:
Cisco
Nexus 93180YC-FX
Arista
7050X3 serisi
Juniper
QFX5120
Ancak RDMA optimizasyonu açısından Mellanox switchler genellikle daha iyi çalışır.
25GbE ağlarda üç farklı bağlantı tipi kullanılır.
Mesafe:
1-3 metre
Avantajlar:
düşük maliyet
düşük latency
rack içi bağlantılar için ideal
Mesafe:
100 metre
Fiber tipi:
OM4 multimode
Genellikle:
rack-to-rack bağlantılar
için kullanılır.
Mesafe:
10 km
Single-mode fiber kullanır.
Mellanox NIC’ler standart PCIe ağ kartlarıdır ve birçok sunucu platformu ile çalışır.
Uyumlu modeller:
R640
R650
R740
R750
R760
Uyumlu modeller:
DL360 Gen10
DL380 Gen10
DL360 Gen11
DL380 Gen11
Uyumlu platformlar:
SYS-1029
SYS-2029
SYS-1114
H12 / H13 EPYC sistemleri
Supermicro sistemler genellikle Mellanox NIC’lerle en sorunsuz çalışan platformlar arasındadır.
node
│
25G NIC
│
single 25G switch
nodes
│
25G
│
leaf switches
│
100G
│
spine switch
nodes
│
25G NIC
│
leaf switches
│
100G
│
spine layer
Bu yapı veri merkezlerinde yüksek ölçeklenebilirlik sağlar.
En dengeli çözüm:
NIC
MCX631102AN-ADAT
(ConnectX-6 Lx)
Switch
NVIDIA Spectrum SN2410
Kablo
rack içi → DAC
rack arası → SFP28 SR
Bu kombinasyon:
düşük latency
yüksek PPS
RDMA desteği
yüksek ölçeklenebilirlik
sunmaktadır.
25GbE Ethernet altyapısı günümüzde veri merkezleri için en ideal performans / maliyet dengesi sunar.
Mellanox ConnectX NIC kartları ise:
düşük gecikme
yüksek paket işleme kapasitesi
gelişmiş offload özellikleri
ile cluster ağlarında önemli avantaj sağlar.
Özellikle ConnectX-6 Lx serisi, modern veri merkezleri ve yapay zeka clusterları için güçlü bir çözümdür.
Doğru NIC, switch ve fiber altyapısı seçildiğinde 25GbE cluster ağları çok düşük latency ve yüksek throughput ile çalışabilir.
Kaynaklar
NVIDIA Networking Documentation
https://docs.nvidia.com/networking/
ConnectX-5 Ethernet Adapter
https://docs.nvidia.com/networking/display/connectx5en
ConnectX-6 Lx Ethernet Adapter
https://docs.nvidia.com/networking/display/connectx6lxen
NVIDIA Spectrum SN2010
https://www.nvidia.com/en-us/networking/ethernet-switching/sn2010/
NVIDIA Spectrum SN2410
https://www.nvidia.com/en-us/networking/ethernet-switching/sn2410/