[THUDM/ChatGLM-6B][BUG/Help] M1 Pro 16G 提问一直卡住

2024-05-21 387 views
9

您好,我这边M1 Pro 16G内存,运行python cli_demo.py的时候,内存能占到14G,swap也没有一直往上飙,GPU最高到30%,问一个你好,回答可能要七八分钟。参考了https://github.com/THUDM/ChatGLM-6B/issues/462 重新装了一遍环境,效果还是一样

询问一个你好,时间超过7/8分钟,辛苦大佬帮忙看看

Environment
- OS:mac os 13
- Python: 3.9
- Transformers:4.26.0
- PyTorch:1.12.1
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :false

回答

4

貌似不行,我也一直在等。

6

m1 使用纯 cpu 进行推理,我前几天在办公环境的测试机上实验,纯 cpu 推理,问一个你好,要推理半个多小时,同时使用了大约20G的硬盘作为计算缓存,如果真要个人部署使用,建议使用N卡且显存高一点,官方建议是1060以上,我推荐8G显存以上

0

m1 使用纯 cpu 进行推理,我前几天在办公环境的测试机上实验,纯 cpu 推理,问一个你好,要推理半个多小时,同时使用了大约20G的硬盘作为计算缓存,如果真要个人部署使用,建议使用N卡且显存高一点,官方建议是1060以上,我推荐8G显存以上

emm,挂了mps gpu加速好像没生效

2

我运行之后页面可以打开,输入个你好之后,直接蹦了;日志打印Failed to infer result type(s) ,python直接意外退出是啥情况?mac m1 pro 16g 内存

7

same here

9

我运行之后页面可以打开,输入个你好之后,直接蹦了;日志打印Failed to infer result type(s) ,python直接意外退出是啥情况?mac m1 pro 16g 内存

同问 我也是同样问题 不知道什么原因

3
image

把这三个文件的”model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()“改为 model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).float()

2

我运行之后页面可以打开,输入个你好之后,直接蹦了;日志打印Failed to infer result type(s) ,python直接意外退出是啥情况?mac m1 pro 16g 内存

一模一样