GGUF 解析器一种用于存储推理模型的文件格式 替换为 GGML 和基于 GGML 的执行程序go源码
GGUF 是一种用于存储推理模型的文件格式 替换为 GGML 和基于 GGML 的执行程序。GGUF 是一种二进制格式,专为快速加载和保存模型而设计, 以及为了便于阅读。传统上,模型是使用 PyTorch 或其他框架开发的,然后转换为 GGUF 用于 GGML。 GGUF 解析器有助于查看和估计 GGUF 格式模型的使用量和每秒最大令牌数,而无需 下载它。 主要特点- 无需文件:GGUF 解析器使用分块读取来解析远程 GGUF 文件的元数据,这意味着您 不需要下载整个文件并加载它。
- 准确预测:GGUF Parser 的评估结果通常会与实际使用量相差 100MiB 左右。
- 快速验证:您可以提供设备指标来计算每秒最大令牌数 (TPS),而无需 运行模型。
- 类型筛选:GGUF 解析器可以区分 GGUF 文件的用途,例如嵌入、重新排序、LoRA 等。
- 快速:GGUF Parser 是用 Go 编写的,快速高效。
笔记- 从 v0.13.0 (BREAKING CHANGE) 开始,GGUF Parser 可以解析文件 用于 StableDiffusion.Cpp 或 StableDiffusion.Cpp 类应用程序。
- LLaMA Box 能够卸载多合一模型的不同组件 到不同的设备,例如使用 ,GGUF 解析器返回文本编码器模型在第一设备中的使用情况, 第 2 个器件中的 VAE 模型,以及第 3 个器件中的 Diffusion 模型。-ts 1,1,1
- 在实验上,GGUF Parser 可以根据选项估计 (V)LM 模型每秒的最大令牌数()。MAX TPS--device-metric
- GGUF 解析器将远程设备与 via 区分开来。--tensor-split--rpc
- 对于一台主机、多个 GPU 设备,您可以使用 来获取每个 GPU 的估计内存使用情况。--tensor-split
- 对于多个主机、多个 GPU 设备,您可以使用 和 来获取估计的内存 每个 GPU 的使用情况。从 v0.11.0 开始,flag 屏蔽了 in front 指定的设备。--tensor-split--rpc--rpc--tensor-split
- 表结果用法:
- DISTRIBUTABLE表示 GGUF 文件是否支持分发推理(如果文件不支持) Distribution Inference 的 Random Inference 进行卸载,则无法卸载它 使用 RPC 服务器。
- RAM表示系统内存使用情况。
- VRAM *表示本地 GPU 内存使用情况。
- RPC * (V)RAM指示远程内存使用情况。内存类型由 RPC 服务器的后端决定 使用,请查看运行日志了解更多详情。
- UMA仅表示 Apple macOS 的内存使用情况。 适应其他情况,包括 NONE GPU 设备。NONUMA
- LAYERS(I/T/O) 表示输入层、转换器层和输出层的计数。输入图层 目前没有卸载。
GGUF 解析器一种用于存储推理模型的文件格式 替换为 GGML 和基于 GGML 的执行程序 ... ...
附件中包含源码及发行版本软件

链接:https://pan.quark.cn/s/e491bc54c551
提取码下载:
|