[THUDM/ChatGLM-6B][BUG/Help] 单句推理显存持续增加

2024-05-21 455 views
8

https://github.com/THUDM/ChatGLM-6B/issues/393 根据以上描述是由于要缓存context中的信息,如何才能每次调用后清理缓存,保证不会出现持续增加直至OOM的情况呢?

Environment
- OS:CentOS
- Python:3.8
- Transformers:4.27.1
- PyTorch:1.12.0+cu102
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :True

回答

1

@duzx16 辛苦大佬有空的时候看看这个问题

1

你清空 history或者只保留最后几轮的历史就可以了

4

你清空 history或者只保留最后几轮的历史就可以了

不好意思,可是如标题所说,我每次进行的都是单句的推理,传入的history均为[],但是显存仍旧会从最初的13G逐步增加到14、15G,最终超过16G导致OOM

2

你清空 history或者只保留最后几轮的历史就可以了

不好意思,可是如标题所说,我每次进行的都是单句的推理,传入的history均为[],但是显存仍旧会从最初的13G逐步增加到14、15G,最终超过16G导致OOM

我也遇到了这个问题

0

在推理结束后清理缓存就可以了,torch.cuda.empty_cache()