Rainlin

发表于2026-06-17|模型格式

对象： GGUF（llama.cpp 生态） vs SafeTensors（HuggingFace 生态）前置阅读： llama.cpp 量化全解 · GPTQ · AWQ 一句话总结： SafeTensors 是训练侧的安全交换格式，GGUF 是部署侧的自包含分发包——前者管”存得安全”，后者管”拿到就跑”。一、为什么需要两种格式深度学习模型本质上就是一堆张量加上描述它们怎么组装的元数据。但”怎么存这堆张量”这件事，训练和部署有完全不同的需求： 123456训练侧：部署侧：├─ 需要原始精度（F32/BF16/F16） ├─ 需要量化（Q4_K_M / Q6_K / IQ2_S）├─ 多文件分片 → 多卡并行加载 ├─ 单文件 → 拷一个文件就能跑├─ 权重和配置分开存 → 灵活组合 ├─ 全部打包 → 不依赖任何外部文件├─ 安全反序列化 → 替代 pickle ├─ mmap 零拷贝 → CPU/边端快速启动└─ ...

llama.cpp（一）：K-Quant 与 I-Quant — GGUF 量化格式全解

发表于2026-06-17|llama.cpp

项目： llama.cpp — 社区驱动的 C/C++ 推理引擎，GGUF 格式的事实标准前置阅读：大模型量化系列 · GPTQ · AWQ参考： K-Quant PR #1684 · Importance Matrix PR #4861 · 2-bit I-Quant PR #4897 · 统一评测 arXiv:2601.14277 一句话总结： llama.cpp 的 GGUF 量化不是单一算法，而是一套面向本地部署的格式族——Legacy 块量化打底，K-Quant 用 super-block 分层混合精度把 4 bit 做稳，I-Quant 再靠 Importance Matrix 和非线性映射把 2–3 bit 从「不可用」拉到「能跑」。一、为什么需要单独讲 llama.cpp 量化大模型量化系列里我们聊过 LLM.int8()、GPTQ、AWQ——它们的目标大多是 W8A8 或 W4A16 的 GPU 推理，评估也集中在 PyTorch 生态。 llama.cpp 走的是另一条路： 123目标：在 CPU / Apple Silicon / 混合 of...

DFlash：块扩散 + KV 注入，让投机解码的草稿不再串行

发表于2026-06-16|投机解码

来源： The next generation of speculative decoding: DFlash and Spec V2 — Z Lab / Modal / SGLang，2026-06-15模型： z-lab/Qwen3.5-397B-A17B-DFlash · modal-labs/Qwen3.5-397B-A17B-DFlash · lmsys/Qwen3.5-397B-A17B-DFlash前置阅读： Speculative Decoding · EAGLE 系列 · MTP 一句话总结： EAGLE / MTP 把草稿模型砍到只剩一两层，但草稿本身仍然是逐 token 自回归的，对 GPU 不友好。DFlash 用「块扩散」一次并行吐出整块草稿、用「KV 注入」把 target 的上下文特征直接灌进草稿模型的 KV cache，同时压低草稿开销、抬高接受率，在 Qwen3.5-397B-A17B 上相对 baseline 拿到 >4.3×、相对原生 MTP 拿到 1.5× 的吞吐。一、瓶颈：草稿还是串行的经典投机解码的逻辑是「小模型猜、...

Qwen3.5 架构解析：Gated DeltaNet + Full Attention 混合架构

发表于2026-06-15|模型架构

模型： Qwen3.5-9B机构：阿里巴巴 / 通义实验室Gated DeltaNet 论文： Gated Delta Networks: Improving Mamba2 with Delta Rule (ICLR 2025) | arXiv:2412.06464 一句话总结： Qwen3.5 用 3 层 Gated DeltaNet（线性注意力）+ 1 层 Full Attention 的混合架构，在保持模型质量的前提下大幅压缩 KV cache 和推理开销，并内置 MTP module 支持投机解码。一、Qwen3.5-9B 参数概览以 Qwen3.5-9B 为例，核心配置如下：参数值总层数 32 隐藏维度 4096 FFN 中间维度 12288 词表大小 248,320 最大上下文 262,144（原生），1,010,000（YaRN 扩展） MTP module 1 层架构布局 8 × (3 × Gated DeltaNet + 1 × Full Attention) 32 层里有 24 层是 Gated ...

大模型投机解码（三）：Multi-token Prediction — 让模型自己当 Draft

发表于2026-06-15|投机解码

论文： Better & Faster Large Language Models via Multi-token Prediction作者： Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve机构： Meta / FAIR发表： 2024 | arXiv:2404.19737 一句话总结：训练时让模型同时预测未来 n 个 token，推理时用额外的预测头充当 draft model，实现”自己给自己投机解码”，无需额外小模型即可获得 3X 加速。一、回顾：经典投机解码的痛点Speculative Decoding 的核心框架：用小模型猜、大模型验。这个框架优雅且精确等价，但在实际落地时有一个挥之不去的问题——你需要一个额外的 draft model。 12345经典 Speculative Decoding 的部署代价：1. 选型：draft model 要足够小（推理快）又足够好（猜得准），怎么选？2. 显存：大模型已经快把 G...

NanoSpec：用上下文最小词表给投机解码再提速

发表于2026-06-11|投机解码

论文： NanoSpec: Accelerating Speculative Decoding using Minimalist In-Context Vocabularies作者： Zhiyang Chen, Daliang Xu, Yinyuan Zhang, Chenghua Wang, Mengwei Xu, Yun Ma机构：北京大学 / 北京邮电大学发表： ICML 2026 | arXiv:2605.26444 一句话总结：每步根据上下文动态构造一个 <3k 的 draft 词表，与 EAGLE-2/3 搭配时 draft 时间约减半，端到端 1.17–1.29×。一、问题：被忽视的 LM head 瓶颈经典 Speculative Decoding（详见这篇）依赖一个简单的等式：只要 draft 足够快，就能用大模型一次并行验证一串猜测。EAGLE、Medusa 把 draft 砍到只剩一两层 Transformer 之后，draft backbone 已经非常瘦，但加速比却卡住了。瓶颈跑哪儿去了？藏在 LM head 里。现代 LLM...

大模型投机解码（二）：EAGLE 系列 — 从特征外推到动态草稿树

发表于2026-06-08|投机解码

论文： EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty (ICML 2024) EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees (EMNLP 2024) EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test (2025) 作者： Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang机构：北京大学 / Microsoft Research / University of Waterloo / Vector Institute代码： github.com/SafeAILab/EAGLE 一句话总结： EAGLE 系列通过在特征层自回归+树状草稿+动态剪枝，在不改变输出分布的前提下，把 LLM 推理从 2.7x 一路加速到...

大模型投机解码（一）：Speculative Decoding — 奠基之作

发表于2026-06-05|投机解码

论文： Fast Inference from Transformers via Speculative Decoding作者： Yaniv Leviathan, Matan Kalman, Yossi Matias发表： ICML 2023 | arXiv:2211.17192 一句话总结：在不改变输出分布的前提下，用小模型猜测 + 大模型并行验证，把自回归解码从串行瓶颈中解放出来，实现 2-3X 加速。一、问题：自回归解码的串行瓶颈大语言模型生成个 token 需要串行跑次 forward pass。而 decode 阶段通常是 memory bandwidth bound——GPU 大部分时间在等数据而不是在算数据，算力严重闲置。 12GPU 有大量闲置算力，但自回归解码无法利用它。因为下一个 token 的计算依赖上一个 token 的结果，天然串行。 Speculative Decoding 的核心问题是：能不能让 GPU 同时验证多个 token，而不是一个一个生成？二、核心思想：猜测 + 验证借鉴 CPU 分支预测的投机执行思想：用...

大模型量化系列（四）：AWQ — 用 Activation 找到关键 Weight

发表于2026-06-04|量化

论文： AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration作者： Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang 等发表： MLSys 2024 Best Paper | arXiv:2306.00978 一句话总结： AWQ 用 activation 找到关键 weight channel，再通过等价缩放降低它们的相对量化误差，在不做重构、不引入混合精度路径的情况下实现高质量 W4A16 部署。一、GPTQ 之后，AWQ 在问什么问题上一篇 GPTQ 解决的是 weight-only 低比特量化里的一个核心问题：如果只把 weight 压到 3/4 bit，怎样避免简单取整把 layer output 搞坏？ GPTQ 的答案是二阶补偿：用 calibration activation 构造 Hessian 信息，量化后再调整剩余...

大模型量化系列（三）：GPTQ — 把大模型权重量化到 3/4 bit

发表于2026-06-04|量化

论文： GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers作者： Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh发表： ICLR 2023 | arXiv:2210.17323 一句话总结： GPTQ 证明了二阶补偿式 post-training weight quantization 可以扩展到大模型，让低比特 weight-only 量化从简单取整走向真正可用。一、为什么 SmoothQuant 之后还需要 GPTQLLM.int8() 发现了大模型里的 activation outlier：少数 hidden dimension 会出现稳定且幅度极大的异常值，导致朴素 INT8 量化失效。它的处理方式是把 outlier channel 拆出来，用 FP16 单独计算。 SmoothQuant 则进一步问：能不能不保留 FP16 outlier 分支，而是把 activatio...