如题: 我在用新的模型做ptuning微调的时候,在广告生成数据集上损失一直是4.0左右。模型后几层权重均为1,checkpoint文件大小从13g降低到了400M。
ptuning训练 LR=2e-3 PRE_SEQ_LEN=128 TRAIN_DATA_DIR=xxx/AdvertiseGenMini
MODEL_DIR=xxx/lm/chatglm-6bMODEL_DIR=xxx/adgen-chatglm-6b-pt--128-2e-2/new NEW_MODEL_DIR=xxx/data/lm/AdvertiseGen
CUDA_VISIBLE_DEVICES=0 python3 main.py \ --do_train \ --train_file $TRAIN_DATA_DIR/train.json \ --validation_file $TRAIN_DATA_DIR/train.json \ --prompt_column content \ --response_column summary \ --overwrite_cache \ --model_name_or_path $MODEL_DIR \ --output_dir xxx/adgen-chatglm-6b-pt--128-2e-2 \ --overwrite_output_dir \ --max_source_length 32 \ --max_target_length 100 \ --per_device_train_batch_size 16 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 1 \ --predict_with_generate \ --max_steps 100000 \ --logging_steps 2 \ --save_steps 1000 \ --learning_rate $LR \ --pre_seq_len $PRE_SEQ_LEN
Environment- OS:deepin
- Python: 3.10.0
- Transformers:4.27.1
- PyTorch:2.0.0
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :