ChatGPT犹如一颗璀璨的恒星,横空出世,瞬间光耀了整个AI的星空,一时间激起千层浪,惊动四大洋,熠熠生辉。各大IT公司都争前恐后的加入大语言模型(LLM)的逐鹿中,从LLM的预训练、微调、提示词工程、推理优化、服务治理等各个方面,新颖的论文层出不穷,优异的技术日新月异,开源的项目与日俱增,使得行业发展快速更迭,截止目前OpenCSG已陆续开源了数十个项目,在行业中取得了巨大影响力,本次OpenCSG再次开源推理服务项目。
01
万模激战正酣,模型推理乃必争之地
时至2024年,随着国内外各大预训练模型的发布与应用,生成式AI持续保持着行业的风向标,延续去年的迅猛发展模式,硬件性能持续提升,模型更是持续迭代,遍地开花。不管是商业化模型,还是开源模型,如何让其发挥最大的价值并降本增效已成为困扰开发者的问题,工程师们持续探索着大模型的应用场景开发者们一边开发将大模型的能力转化为应用,如建立企业智能知识库和智能问答系统,智能生成图片和视频,代码辅助生成和评审,文档辅助评审,运维问题分析和自动分类,数据库的移植等。一边寻找如何加强大模型推理速度、推理性能方面的解决方案。
大模型的应用场景的丰富化,其需要的模型推理能力越强。
对于大型集团客户,有几百乃至上千个并行用户的情况下,原有的模型推理速度难以满足用户的需求,因为硬件资源的限制和价格因素,一味的靠增加硬件资源来提高吞吐量也是勉强之举。如何优化大模型的推理能力,如何让客户更加将本增效,如何高效部署和使用多个相互合作的大模型,成为重中之重。
在如此背景下,vLLM和DeepSpeed-FastGen等技术应运而生。OpenCSG集众家之所长,为大模型的发展添砖加瓦,勇当头排兵,于近日重磅开源LLM推理服务的杀手锏技术——LLM-Inference。
02
震撼来袭,OpenCSG再塑巅峰
OpenCSG近日开源的LLM-Inference技术,Apache2许可证,是用于部署企业生产级LLM服务和推理的解决方案,是OpenCSG此前发布的产品阵列中重要的一环。基于此方案,用户可以一键式在GPU/CPU等资源的快速部署模型。
此方案基于Ray集群打造,故而用户可以轻松的将LLM部署到多个节点之上并行运行。同时借助于业界先进的vLLM等推理引擎,最大化加快推理速度。此项目同时提供API Server,用户可借助Restful API来管理LLM服务,比如启动、监控和停止服务等,同时用户也可通过命令行llm-serve方式来管理模型服务。此项目同时发布模型推理比较功能,用户可直观的比较模型的输出质量和推理速度等。
此方案可直接构建在VM之上,同时支持Kubernetes云原生平台,为提高并行化速度,基于Ray(KubeRay)集群打造,支持Transformer Pipeline, vLLM, llamacpp等部署技术。在LLM-Inference中,包括了模型发布的Pipeline、领先技术和Ray集群的集成、API Server的实现、命令行的构建等。此项目基于Python打造,用户可轻松的通过pip来安装。
此项目携带一些业界常用的开源大模型部署配置文件,同时用户可以通过YAML的方式,快速定制自己的LLM部署,在定义自有模型时,用户可借助于模版,轻松完善部署配置信息、模型配置信息和扩展配置信息即可。此项目持续发展,将增加支持更多的模型。大模型文件可优先以超高带宽从CSGHub中下载。
项目的开源地址(继续star):
https://github.com/OpenCSGs/llm-inference
03
开源开放,OpenCSG笃定前行
在后续的发展中,LLM-Inference将支持更多功能,比如预估推理速度和支持的并行用户数等;根据业务量自动的扩容并行数,辅助用户降本增效,释放资源;大模型服务的“金丝雀”升级;支持定制大模型推理前后的行为,比如检查并确保推理内容无违反规则和人理的信息等;支持队列的形式和智能化策略的形式来相应客户的需求,比如优先相应高优先级的请求;支持服务观测和监控;支持多模型服务的合作优化;支持大模型工作流的定制;支持基于服务的应用定制化等。
OpenCSG的开源人将一如既往的奉行开源精神,开源仅是发展的重要一步,在国际大模型竞争如此激烈的情况下,OpenCSG将肩负持续引导和赋能,使得LLM-Inference越来越完善。聚焦打造中国第一大模型开源生态。众人拾柴火焰高,诚挚的欢迎业界专家的贡献。OpenCSG将不忘初心,砥砺前行,长路漫漫,未来可期,让我们相识相知于开源江湖。