gguf

    7热度

    11回答

    通过函数重用代码 将一些通用代码分解为单独的函数: [X]llm_build_inp_embd() [X]llm_build_norm() [X]llm_build_ffn() [X]llm_build_k_shift() [X]llm_build_kv_store() [X]llm_build_qkv() 张量卸载改进 所有这些东西都是暂时的,因为我们很快将集成一个新的后端实现,该实现应该自

    8热度

    7回答

    我一直在尝试在扩展的上下文中使用米斯特拉尔。SWA 据称允许最多 32k 上下文,但实际上我得到的是垃圾。然而,Reddit 上有人提到,使用 45,000 根 ROPE 可以使 24k 连贯。因此,我将 24k 与 KoboldCPP 中的默认 ROPE 进行了比较,然后与自定义 ROPE 进行了比较。后者有效,前者是胡言乱语。 我的猜测是当前的 GGUF 并不是在考虑 SWA 的情况下构建的。

    4热度

    18回答

    先决条件 在提交问题之前,请您自己回答以下问题。 带有 python 绑定的 Git llama.cpp。 预期行为 推理就像以前一样。 目前的行为 推理失败并且 llama.cpp 崩溃。 环境和背景 蟒蛇3.10 / CUDA 11.8 失败信息(针对错误) llm_load_print_meta: BOS token = 1 '<s>' llm_load_print_meta:

    4热度

    9回答

    应该在没有 CUDA 运行时但model.n_gpu_layers = 0. master 中的当前行为在非 cuda 机器上抛出以下错误GGML_USE_CUBLAS=ON 掌握 中央处理器 CUDA_VISIBLE_DEVICES=-1 ./bin/main -m ../models/q8_0.v2.gguf -p "# Dijkstra's shortest path algorithm i

    8热度

    9回答

    大家好你们好, 我有一个 Huggingface 模型(https://huggingface.co/andreabac3/Fauno-Italian-LLM-13B),我想将其转换为 gguf。 这是一个 LORA 模型,我可以使用 Convert-lora-to-ggml.py 将其转换为 ggml。 现在,当我尝试将其转换为 gguf 时,我尝试使用 Convert-llama-ggml-t