大语言模型量化方法对比：GPTQ、GGUF、AWQ

您好！欢迎来到国科网

通行证注册 | 登录登录登录登录

2025-12-16 02:08:43 星期二

立足国科融媒，服务先进科技

网站首页资讯中心科技人工智能

大语言模型量化方法对比：GPTQ、GGUF、AWQ

点赞

0

发布时间：2023年11月17日浏览量：1474次所属栏目：人工智能发布者：田佳恬

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

说明：每次加载LLM示例后，建议清除缓存，以防止出现OutOfMemory错误。

del model, tokenizer, pipe
 
 import torch
 torch.cuda.empty_cache()

分享说明：转发分享请注明出处。

上一篇：ChatGPT被曝测试新功能：学习所有历史聊天，还能重置记忆、“阅后即焚”

下一篇：微软战略大转变：拥抱小模型！

热点推荐

热点图讯

2025数字军工大会在西安成功召开

最新资讯

最新图讯

2025数字军工大会在西安成功召开

相关资讯

相关图讯

最新入驻

A张平『环保工程』

网站简介 | 联系我们 | 广告服务 | 监督电话

本网站由国科网运营维护国科网讯（北京）技术有限公司版权所有  咨询电话：010-88516927
地址：北京市海淀区阜石路甲69号院1号楼1层一单元114
ICP备案号：京ICP备15066964号-8   违法和不良信息举报电话：010-67196565
12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
代理域名注册服务机构：阿里巴巴云计算（北京）有限公司