[THUDM/ChatGLM-6B][BUG/Help] <使用deepspeed对模型进行了全量参数的微调,发现模型直接微调崩了,完全不说人话,系统响应全是,,,>, ,。等>

2024-05-20 545 views
2

使用的是官方给出的ds_train_finetune.sh进行微调。

在4卡80G的A100上运行sh ds_train_finetune.sh。

Environment
- OS:Linux
- Python:3.7
- Transformers:4.27.1
- PyTorch:1.13.0
- CUDA Support 11.8 :

回答

3

使用main.pyprint_dataset_example输出一下训练数据样例看一下?

4

使用main.pyprint_dataset_example输出一下训练数据样例看一下? 感觉没问题 image

3

请问您跑deepspeed微调,用了几台服务器?服务器的cpu和内存都是多少呢?我用了一台240GB内存的服务器,做checkpoint保存模型的时候,内存不够用

1

我用的ptuning微调,官方的广告数据,只改了batch_size:16,iters:300,然后结果跟你这个很像,不说人话,都是标点符号

5

我用的ptuning微调,官方的广告数据,只改了batch_size:16,iters:300,然后结果跟你这个很像,不说人话,都是标点符号

我也是,请问这个问题你解决了吗?(我猜测会不会是batch_size大小设置的问题