国科网

2025-06-08 16:44:33  星期日
立足国科融媒,服务先进科技
LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量

点赞

0
发布时间:2023年12月01日 浏览量:240次 所属栏目:人工智能 发布者:田佳恬

GPT-4和LLaMA这样的大型语言模型(LLMs)已在各个层次上成为了集成AI 的主流服务应用。从常规聊天模型到文档摘要,从自动驾驶到各个软件中的Copilot功能,这些模型的部署和服务需求正在迅速增加。

像DeepSpeed、PyTorch和其他几个框架可以在LLM训练期间实现良好的硬件利用率,但它们在与用户互动及处理开放式文本生成等任务时,受限于这些操作的计算密集度相对较低,现有系统往往在推理吞吐量上遇到瓶颈。

为了解决这一问题,使用类似vLLM这样由PagedAttention驱动的框架或是Orca系统可以显著提高LLM推理的性能。

然而,这些系统在面对长提示的工作负载时,依旧难以提供良好的服务质量。随着越来越多的模型(例如MPT-StoryWriter)和系统(例如DeepSpeed Ulysses)支持延伸到数万个token的上下文窗口,这些长提示工作负载变得越来越重要。

为了更好地理解问题,微软DeepSpeed的研究人员最近发表了一篇博文,详细介绍了LLM的文本生成,以及DeepSpeed-FastGen框架是如何在「提示处理」和「生成」的这两个阶段中运行的。

DeepSpeed-FastGen

当系统将「提示处理」和「生成」视为不同的阶段时,生成阶段将被提示处理所抢占,可能会破坏服务级别协议(SLAs)。

通过采用动态SplitFuse技术,DeepSpeed-FastGen框架能够提供比vLLM等先进系统高出多达2.3倍的有效吞吐量。

DeepSpeed-FastGen是DeepSpeed-MII和DeepSpeed-Inference的结合,提供了一个易于使用的服务系统。

快速开始:要使用DeepSpeed-FastGen只需安装最新的DeepSpeed-MII发行版:

pip install deepspeed-mii

分享说明:转发分享请注明出处。

    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司