GGUF 解析器一种用于存储推理模型的文件格式替换为 GGML 和基于 GGML 的执行程序

admin · 发表于 2025-2-11 12:01:38

GGUF 解析器一种用于存储推理模型的文件格式替换为 GGML 和基于 GGML 的执行程序go源码

GGUF 是一种用于存储推理模型的文件格式替换为 GGML 和基于 GGML 的执行程序。GGUF 是一种二进制格式，专为快速加载和保存模型而设计，以及为了便于阅读。传统上，模型是使用 PyTorch 或其他框架开发的，然后转换为 GGUF 用于 GGML。

GGUF 解析器有助于查看和估计 GGUF 格式模型的使用量和每秒最大令牌数，而无需下载它。

主要特点

无需文件：GGUF 解析器使用分块读取来解析远程 GGUF 文件的元数据，这意味着您不需要下载整个文件并加载它。
准确预测：GGUF Parser 的评估结果通常会与实际使用量相差 100MiB 左右。
快速验证：您可以提供设备指标来计算每秒最大令牌数（TPS），而无需运行模型。
类型筛选：GGUF 解析器可以区分 GGUF 文件的用途，例如嵌入、重新排序、LoRA 等。
快速：GGUF Parser 是用 Go 编写的，快速高效。

笔记

从 v0.13.0 （BREAKING CHANGE）开始，GGUF Parser 可以解析文件用于 StableDiffusion.Cpp 或 StableDiffusion.Cpp 类应用程序。
- LLaMA Box 能够卸载多合一模型的不同组件到不同的设备，例如使用，GGUF 解析器返回文本编码器模型在第一设备中的使用情况，第 2 个器件中的 VAE 模型，以及第 3 个器件中的 Diffusion 模型。-ts 1,1,1
在实验上，GGUF Parser 可以根据选项估计（V）LM 模型每秒的最大令牌数（）。MAX TPS--device-metric
GGUF 解析器将远程设备与 via 区分开来。--tensor-split--rpc
- 对于一台主机、多个 GPU 设备，您可以使用来获取每个 GPU 的估计内存使用情况。--tensor-split
- 对于多个主机、多个 GPU 设备，您可以使用和来获取估计的内存每个 GPU 的使用情况。从 v0.11.0 开始，flag 屏蔽了 in front 指定的设备。--tensor-split--rpc--rpc--tensor-split
表结果用法：
- DISTRIBUTABLE表示 GGUF 文件是否支持分发推理（如果文件不支持） Distribution Inference 的 Random Inference 进行卸载，则无法卸载它使用 RPC 服务器。
- RAM表示系统内存使用情况。
- VRAM *表示本地 GPU 内存使用情况。
- RPC * (V)RAM指示远程内存使用情况。内存类型由 RPC 服务器的后端决定使用，请查看运行日志了解更多详情。
- UMA仅表示 Apple macOS 的内存使用情况。适应其他情况，包括 NONE GPU 设备。NONUMA
- LAYERS(I/T/O）表示输入层、转换器层和输出层的计数。输入图层目前没有卸载。

GGUF 解析器一种用于存储推理模型的文件格式替换为 GGML 和基于 GGML 的执行程序 ... ...

附件中包含源码及发行版本软件

链接：https://pan.quark.cn/s/e491bc54c551
提取码下载：

文件名称:提取码下载.txt
下载次数:0 文件大小:16 Bytes 售价:15金钱 [记录]
下载权限: 不限 [购买VIP] [充值] [在线充值] 【VIP会员6折；永久VIP4折】

安全检测，请放心下载

		自动登录	找回密码
密码			立即注册

GGUF 解析器一种用于存储推理模型的文件格式 替换为 GGML 和基于 GGML 的执行程序

相关帖子

GGUF 解析器一种用于存储推理模型的文件格式替换为 GGML 和基于 GGML 的执行程序