[THUDM/ChatGLM-6B]训练数据labels打印出来全是-100

2024-06-12 271 views
9

执行 bash train.sh 打印labels全是-100,训练完成之后调用模型,输出的全是空

1.训练数据 参考的示例 2.模型训练成功,训练完成也能调用。查看日志发现打印的labels全是-100,调用pt模型,输出为空

Environment
- OS:centos7
- Python:3.9
- Transformers:4.27.1
- PyTorch:1.13
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :11.8

回答

7

-100 是表示这个位置的 token 不需要计算 loss。你确定全部都是 -100 吗?可以发一下截图

6

image image

7

-100 是表示这个位置的 token 不需要计算 loss。你确定全部都是 -100 吗?可以发一下截图

看着像是代码有问题,输入输出全部放入inputs了

3

遇到同样问题!

1

image image

模型实现太旧了。如果你是从 THUDM/chatglm-6b 加载的话可以清除一下 ~/.cache/huggingface/modules/transformers_modules