資料內(nèi)容:
三、模型 加入PEFT策略
3.1 模型加載 策略有哪些?
模型加載雖然很簡單,這里涉及到2個(gè)時(shí)間換空間的大模型顯存壓縮技巧,主要說下load_in_8bit和
prepare_model_for_int8_training。
3.2 模型顯存占用的部分有哪些?
這里需要介紹一下 兩個(gè)模型顯存占用的部分:
1. 靜態(tài)顯存基本由模型參數(shù)量級(jí)決定;
2. 動(dòng)態(tài)顯存在向前傳播的過程中每個(gè)樣本的每個(gè)神經(jīng)元都會(huì)計(jì)算激活值并存儲(chǔ),用于向后傳播時(shí)的梯度計(jì)算,
這部分和batchsize以及參數(shù)量級(jí)相關(guān);
3.3 模型顯存占用 優(yōu)化策略?
模型顯存占用 有以下兩種方式:
1. 8bit量化優(yōu)化。該方式只要用于優(yōu)化 靜態(tài)顯存;
2. 梯度檢查優(yōu)化。該方式只要用于優(yōu)化 動(dòng)態(tài)顯存;