针对大语言模型(LLM)的量化方法层出不穷,近期三值量化(1.58Bit)在LLM中使用的越来越广,比如BitNet等方法。腾讯近期发布了1.58Bit量化的新算法 Tequila,提出一种QAT阶段解决“死区陷阱”的新算法,性能效果达到新SOTA。模型使用 1.58Bit 的位宽达到的性能,能对……

阅读全文