TurboQuant vs Groq LPU:軟硬雙劍,誰能真正終結記憶體牆?
AI 推理的最大痛點,從來不是算力不足,而是 記憶體牆(Memory Wall) 。 LLM 每生成一個 token,就必須把前面的 Key-Value Cache(KV Cache)全搬進記憶體。上下文一長,記憶體用量就爆炸式成長:128K 上下文下,一個使用者可能吃掉數十 GB GPU 記憶體,還伴隨動態排程、cache miss 導致的延遲抖動。 2026 年 3 月,Google Research 丟出 TurboQuant 這顆軟體核彈;同一時期, Groq LPU 則用硬體革命在另一條戰線猛攻。這兩把「軟硬雙劍」,究竟誰能真正終結記憶體牆?還是它們其實是最佳拍檔? 1. TurboQuant:軟體極限壓縮,把 KV Cache 壓到只剩 1/6 Google Research 於 3 月 24 日發表 TurboQuant (將於 ICLR 2026 發表),這是一套 無需訓練、資料無關 的向量量化演算法,專攻 LLM 推理階段最吃記憶體的 KV Cache。 核心兩階段機制: miro.medium.com miro.medium.com PolarQuant :將向量從直角座標轉為極座標,讓角度分佈更集中,省去傳統量化常見的 per-block 正規化,減少偏差。 Quantized Johnson-Lindenstrauss (QJL) :再用 1-bit 投影修正剩餘誤差,確保 attention 計算的內積幾乎零失真。 實測成果(Gemma、Mistral、Llama-3.1 等模型): KV Cache 壓縮至 3~3.5 bit ,記憶體用量減少 至少 6 倍 (逾 83%)。 在 NVIDIA H100 上,4-bit TurboQuant 計算 attention logits 最高快 8 倍 。 Needle-in-a-Haystack、LongBench 等長上下文任務完全零精度損失。 這意味著: 現有 GPU 不換硬體,就能立刻省下 80% 以上 KV Cache 記憶體 ,同一張卡能服務更多請求、支援更長上下文,推理成本大幅下降。 2. Groq LPU:硬體「可程式化輸送帶」,從根本消除等待 TurboQuant 是「把資料壓小」,Groq LPU 則是「從頭設計就不讓資料等記憶體」。 Groq LPU 的核...