微调的显存占用很高

#43
by laaok - opened

Qwen3-0.6B的模型,在用sentence-transformer微调时,在训练批次大小固定的情况下,显存占用为bge-M3的2倍,为什么会这样?embedding和rerank模型都是这样

Sign up or log in to comment