Qwen3-0.6B的模型,在用sentence-transformer微调时,在训练批次大小固定的情况下,显存占用为bge-M3的2倍,为什么会这样?embedding和rerank模型都是这样
· Sign up or log in to comment