avatar
文章
11
标签
6
分类
3
首页
归档
分类
标签
关于
友鏈
留言板
LogoRainlin
首页
归档
分类
标签
关于
友鏈
留言板

Rainlin

大模型量化系列(一):LLM.int8() — 重新定义量化领域的问题空间
发表于2026-06-03|量化
论文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale作者: Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer发表: NeurIPS 2022 | arXiv:2208.07339 一句话总结: LLM.int8() 首次揭示了 LLM 中的 outlier(emergent feature)现象,成为此后大模型量化研究的重要出发点。 一、为什么传统量化在大模型上会崩溃在讨论 LLM.int8() 之前,我们需要先理解一个看起来理所当然、实则并不显然的问题:为什么简单的 INT8 量化,在小模型上跑得飞起,一到 6.7B 以上的大模型就全面崩溃? 要回答这个问题,得从量化最基础的两套方法讲起。 1. Absmax 量化:最简单,但也最脆弱Absmax(绝对最大值量化)是工程中最常用的方案。核心思想一句话:找到整个张量的绝对最大值,等比例缩放到 INT8 的 [-127, 127] 范围。 量化公式: 缩放因子: 反...
12
avatar
Rainlin
专注于大模型系统、推理优化与高性能计算。
文章
11
标签
6
分类
3
最新文章
DFlash:块扩散 + KV 注入,让投机解码的草稿不再串行2026-06-16
Qwen3.5 树形投机解码:混合架构下的验证策略2026-06-15
Qwen3.5 架构解析:Gated DeltaNet + Full Attention 混合架构2026-06-15
大模型投机解码(三):Multi-token Prediction — 让模型自己当 Draft2026-06-15
NanoSpec:用上下文最小词表给投机解码再提速2026-06-11
分类
  • 投机解码6
  • 模型架构1
  • 量化4
标签
模型架构 大模型推理 LLM 投机解码 大模型量化 论文解读
归档
  • 六月 2026 11
网站信息
文章数目 :
11
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By Rainlin