[THUDM/ChatGLM-6B][BUG/Help] <使用deepspeed对模型进行了全量参数的微调，发现模型直接微调崩了，完全不说人话，系统响应全是,,,>, ,。等>

使用的是官方给出的ds_train_finetune.sh进行微调。

在4卡80G的A100上运行sh ds_train_finetune.sh。

Environment

- OS:Linux
- Python:3.7
- Transformers:4.27.1
- PyTorch:1.13.0
- CUDA Support 11.8 :

MseXing

使用main.py中print_dataset_example输出一下训练数据样例看一下？

Jaren1907

使用main.py中print_dataset_example输出一下训练数据样例看一下？感觉没问题

MseXing

请问您跑deepspeed微调，用了几台服务器？服务器的cpu和内存都是多少呢？我用了一台240GB内存的服务器，做checkpoint保存模型的时候，内存不够用

MDGBDGMG

我用的ptuning微调，官方的广告数据，只改了batch_size：16，iters：300，然后结果跟你这个很像，不说人话，都是标点符号

dpcross

我用的ptuning微调，官方的广告数据，只改了batch_size：16，iters：300，然后结果跟你这个很像，不说人话，都是标点符号

我也是，请问这个问题你解决了吗？（我猜测会不会是batch_size大小设置的问题

Rhine97

回答