gguf

7热度

11回答

[ggerganov/llama.cpp]llama ：添加 llm_build 辅助函数

通过函数重用代码将一些通用代码分解为单独的函数： [X]llm_build_inp_embd() [X]llm_build_norm() [X]llm_build_ffn() [X]llm_build_k_shift() [X]llm_build_kv_store() [X]llm_build_qkv() 张量卸载改进所有这些东西都是暂时的，因为我们很快将集成一个新的后端实现，该实现应该自

8热度

7回答

[ggerganov/llama.cpp]米斯特拉尔和滑动窗注意 - GGUF 绳索住宿。

我一直在尝试在扩展的上下文中使用米斯特拉尔。SWA 据称允许最多 32k 上下文，但实际上我得到的是垃圾。然而，Reddit 上有人提到，使用 45,000 根 ROPE 可以使 24k 连贯。因此，我将 24k 与 KoboldCPP 中的默认 ROPE 进行了比较，然后与自定义 ROPE 进行了比较。后者有效，前者是胡言乱语。我的猜测是当前的 GGUF 并不是在考虑 SWA 的情况下构建的。

4热度

18回答

[ggerganov/llama.cpp]最近我的多 GPU 坏了。ggml-cuda.cu:7068: 参数无效

先决条件在提交问题之前，请您自己回答以下问题。带有 python 绑定的 Git llama.cpp。预期行为推理就像以前一样。目前的行为推理失败并且 llama.cpp 崩溃。环境和背景蟒蛇3.10 / CUDA 11.8 失败信息（针对错误） llm_load_print_meta: BOS token = 1 '<s>' llm_load_print_meta:

4热度

9回答

[ggerganov/llama.cpp]支持在 CPU 上运行 GGML_USE_CUBLAS=ON 构建

应该在没有 CUDA 运行时但model.n_gpu_layers = 0. master 中的当前行为在非 cuda 机器上抛出以下错误GGML_USE_CUBLAS=ON 掌握中央处理器 CUDA_VISIBLE_DEVICES=-1 ./bin/main -m ../models/q8_0.v2.gguf -p "# Dijkstra's shortest path algorithm i

8热度

9回答

[ggerganov/llama.cpp]将 LORA 转换为 ggml 转换为 gguf

大家好你们好，我有一个 Huggingface 模型（https://huggingface.co/andreabac3/Fauno-Italian-LLM-13B），我想将其转换为 gguf。这是一个 LORA 模型，我可以使用 Convert-lora-to-ggml.py 将其转换为 ggml。现在，当我尝试将其转换为 gguf 时，我尝试使用 Convert-llama-ggml-t