[THUDM/ChatGLM-6B][BUG/Help] 单句推理显存持续增加

https://github.com/THUDM/ChatGLM-6B/issues/393 根据以上描述是由于要缓存context中的信息，如何才能每次调用后清理缓存，保证不会出现持续增加直至OOM的情况呢？

Environment

- OS:CentOS
- Python:3.8
- Transformers:4.27.1
- PyTorch:1.12.0+cu102
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :True

RafaelHuang87

@duzx16 辛苦大佬有空的时候看看这个问题

RafaelHuang87

你清空 history或者只保留最后几轮的历史就可以了

duzx16

你清空 history或者只保留最后几轮的历史就可以了

不好意思，可是如标题所说，我每次进行的都是单句的推理，传入的history均为[]，但是显存仍旧会从最初的13G逐步增加到14、15G，最终超过16G导致OOM

RafaelHuang87

你清空 history或者只保留最后几轮的历史就可以了

不好意思，可是如标题所说，我每次进行的都是单句的推理，传入的history均为[]，但是显存仍旧会从最初的13G逐步增加到14、15G，最终超过16G导致OOM

我也遇到了这个问题

ianZzzzzz

在推理结束后清理缓存就可以了，torch.cuda.empty_cache()

ianZzzzzz

[THUDM/ChatGLM-6B][BUG/Help] 单句推理显存持续增加

回答

相关问题