為破解大模型部署與推理成本高昂的困境,近日,北京大學楊仝教授團隊首次提出名為iFairy的超低比特量化方案。該方案創(chuàng)新性地利用復數(shù){1, i}對模型權重進行2-bit量化,在實現(xiàn)1/8極致壓縮與無乘法推理加速的同時,語言建模能力和下游任務表現(xiàn)反超了同尺寸的全精度LLaMA基座模型。相關論文題為iFairy: the First 2-bit Complex LLM with All Parameters in {1, i}。 研究聚焦于大語言模型在真實應用中的空間和時間瓶頸。傳統(tǒng)全精度模型參數(shù)量大、推理能耗高;盡管已有低比特量化降低了模型體積,但核心矩陣乘法仍廣泛依賴乘法運算,難以從根