你好,我也面临着同样的问题。
我尝试使用不同的 LoRA 适配器,但现在,我按照之前的对话下载了两个模型。我将TheBloke/LLaMA-13b-GGUF放入 llama.cpp/models 目录,将andreabac3/Fauno-Italian-LLM-13B放入 llama.cpp/models/loras 目录。之后,我运行主命令如下:
./main -m models/llama-13b.Q8_0.gguf --lora models/loras/adapter_model.bin --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n 256 -p "The conversation between human and AI assistant.\n[|Human|] Qual'è il significato della vita?\n[|AI|] "
然而,结果如下(为简洁起见,省略了先前的输出):
....................................................................................................
llama_new_context_with_model: n_ctx = 4096
llama_new_context_with_model: freq_base = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_new_context_with_model: kv self size = 3200.00 MB
llama_build_graph: non-view tensors processed: 924/924
llama_new_context_with_model: compute buffer total size = 364.63 MB
llama_apply_lora_from_file_internal: applying lora adapter from 'models/loras/adapter_model.bin' - please wait ...
llama_apply_lora_from_file_internal: unsupported file version
llama_init_from_gpt_params: error: failed to apply lora adapter
main: error: unable to load model
我正在运行最新的代码,并在具有 Ubuntu:22.04 映像的 Docker 容器上运行它。/# 制作 --version | head -1 GNU Make 4.3 /# g++ --version | 头-1 g++ (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
如果我错过了任何文档并且没有正确使用它,我深表歉意。如果我能够在 llama.cpp 中成功使用 LoRA 适配器,这将对我的项目产生重大影响。我很感谢这个存储库和提供的支持。任何帮助将不胜感激。