Yapay Zeka (AI) Cluster Yapılarında Bottleneck Analizi: Ultra Düşük Gecikme İçin Linkreal 400G QSFP-DD Çözümleri
1. Giriş ve Vaka Özeti (Executive Summary)
Büyük dil modellerinin (LLM) eğitimi ve dağıtık derin öğrenme (Deep Learning) iş yüklerinde, GPU'lar arası parametre senkronizasyonu (All-Reduce operasyonları) hat üzerinde devasa bir trafik yaratır. Bu vaka analizinde, yüksek yoğunluklu bir AI veri merkezinde tetiklenen "tail latency" (kuyruk gecikmesi) ve paket kayıplarının, katman-1 (Physical Layer) seviyesinde nasıl çözüldüğünü inceleyeceğiz. Sorunun merkezinde, interconnect seçimi ve yanlış fiziksel katman topolojisi yer almaktadır.
2. Problem Tanımı: AI İş Yüklerinde Gecikme ve Paket Kaybı
NVIDIA H100 / A100 GPU cluster yapılarından oluşan, RoCEv2 (RDMA over Converged Ethernet) tabanlı bir veri merkezinde, eğitim döngüleri sırasında rastlantısal yavaşlamalar (stalls) tespit edilmiştir. Yapılan derinlemesine telemetri ve switch port analizlerinde şu bulgulara rastlanmıştır:
- Buffer Bloat: Switch üzerindeki paket tampon belleklerinin (buffers) aşırı dolması sebebiyle tıkanıklık (congestion) meydana gelmiştir.
- PFC (Priority Flow Control) Deadlock: Tıkanıklığı önlemek için devreye giren PFC mekanizması, ağ genelinde fırtınaya (storm) yol açmış ve "tail latency" değerlerini mikro saniyelerden mili saniyelere fırlatmıştır.
- Sinyal Bozulması (BER): Omurga anahtarlar (Spine) ile yaprak anahtarlar (Leaf) arasında kullanılan standart ara bağlantılarda, yüksek ısı altında Bit Hata Oranı (BER - Bit Error Rate) 10^-12 sınırının üzerine çıkmıştır.
3. Ultra Derin Teknik Analiz: DAC ve AOC Arasındaki Fiziksel Katman Farkları
Sorunun kök nedenine inildiğinde, raflar arası (Inter-Rack) bağlantılarda mesafeye uygun doğru donanımın seçilmediği görülmüştür. AI altyapılarında fiziksel katman şu parametrelere göre yanıt verir:
A. PAM4 Sinyalleşmesi ve DSP (Digital Signal Processing) Yükü
400G mimarisinde kanal başına 56G/112G PAM4 modülasyonu kullanılır. PAM4, NRZ'ye göre sinyal gürültü oranına (SNR) karşı çok daha hassastır. Linkreal 400G QSFP-DD DAC (Direct Attach Copper) kablolar, pasif yapısı sayesinde sinyali dönüştürmeden doğrudan bakır hat üzerinden iletir. Bu durum, veri iletimine sıfıra yakın ek gecikme (latency) ekler. Ancak bakırın fiziksel direnci sebebiyle sinyal bütünlüğü (Signal Integrity) 3 metreden sonra PAM4 için kabul edilemez düzeye ulaşır.
3 metreyi aşan mesafelerde ise Linkreal 400G QSFP-DD AOC (Active Optical Cable) teknolojisi devreye girer. AOC, elektriksel sinyali modül içindeki VCSEL lazerler ile optik sinyale dönüştürür. Entegre edilen dahili 7nm DSP (Digital Signal Processing) çipi, sinyaldeki bozulmaları (jitter) gerçek zamanlı olarak restore eder. Bu işlem hat üzerinde 10-15 nanosaniyelik bir gecikme yaratsa da, uzun mesafelerde elektromanyetik parazitleri (EMI) sıfırlayarak paket kaybını önler.
? [TEKNİK İNFOGRAFİK VE GÖRSEL ŞEMA TASARIM REHBERİ]
Bu bölüme eklenecek grafik için tasarım ekibine yönelik şema parametreleri:
| Metrik / Parametre | Linkreal Pasif DAC (0-3m) | Linkreal Aktif AOC (3-100m) |
|---|---|---|
| Gecikme (Latency) | Kablo Kaynaklı Sıfır Gecikme | +10-15ns (DSP & E-O Dönüşüm) |
| Güç Tüketimi (Port Başına) | ~0.1 Watt | ~4.5 - 5.5 Watt |
| Isı Üretimi (Thermal Load) | Yok (Pasif Eleman) | Orta (DSP ve Lazer Kaynaklı) |
| En Güçlü Mimari Odak | Ultra-Low Latency (Raçiçi GPU) | Esneklik & EMI Dayanımı (Spine-Leaf) |
Görsel Önerisi: Yatay eksende mesafe (Metre),dikey eksende sinyal bütünlüğü kalitesini gösteren bir grafik çizgisi çizin. 0-3 metre arasında bakırın gecikmesiz yapısını yeşil bölge, 3 metreden sonra optik dönüşümün stabilitesini mavi bölge olarak renklendirin.
4. Bottleneck Problemine Karşı Linkreal 400G QSFP-DD Çözümü
AI veri merkezindeki paket kaybı ve PFC kilitlenme hatasını tamamen ortadan kaldırmak adına ağ topolojisi Linkreal’ın yüksek performanslı donanımları ile yeniden tasarlandı:
? Çözüm A: Raçiçi (Intra-Rack) Bağlantılarda Linkreal 400G Pasif DAC
Aynı kabin içerisindeki GPU sunucuları ile Top-of-Rack (ToR) switch'ler arasındaki tüm bağlantılar Linkreal Pasif 400G QSFP-DD DAC kablolar ile değiştirilmiştir. Pasif bakır kablolar ağ mimarisine sıfır elektriksel dönüşüm gecikmesi eklediği için, dağıtık yapay zeka eğitimlerindeki mikro saniyelik kuyruk gecikmeleri (tail latency) %42 oranında düşürülmüştür.
? Çözüm B: Raflar Arası (Inter-Rack) Bağlantılarda Linkreal 400G Aktif AOC
Maddesel mesafesi 3 metreyi aşan Spine-Leaf anahtarlar arasındaki hatlarda ise Linkreal Aktif 400G QSFP-DD AOC ürünleri konumlandırılmıştır. Entegre sinyal yenileyici DSP mimarisi sayesinde, yüksek elektromanyetik gürültü altındaki veri merkezinde Bit Hata Oranı (BER) tekrar kararlı olan 10^-15 seviyesine çekilmiştir. Bu sayede PFC tetiklenmeleri durdurulmuş ve paket dropları tamamen engellenmiştir.
5. Sonuç ve Ağ Yöneticilerine Tavsiyeler
Yapılan modernizasyon sonrasında LLM eğitim sürecindeki "epoch" tamamlama sürelerinde %18'lik bir hızlanma kaydedilmiştir. Sonuç olarak, AI altyapısı tasarlayan network mimarlarının şu iki kuralı uygulaması kritik önem taşır:
- Gecikmenin kritik olduğu 3 metrenin altındaki tüm GPU-Switch hatlarında güç tüketimini ve gecikmeyi minimize etmek için kesinlikle Linkreal Pasif DAC tercih edilmelidir.
- 3 metre üzerindeki kablolama metrajlarında, yüksek veri yoğunluğunda sinyal bütünlüğünü korumak ve buffer taşmalarını engellemek için dahili DSP barındıran Linkreal Aktif AOC yapıları kullanılmalıdır.

Ethernet Kartı
SAS Kablo
DAC Kablo
Transceiver
AOC Kablo
OM4 Fiber Patch Kablo
Sky Series
Breakout Kablolar
eSports Game Center Ürünleri





















