重磅!OpenCSG开源代码大模型跃居前列
- 2024-02-01
不论是谷歌、微软、Facebook等数家知名企业及机构都不同程度的对某些项目进行了开源,其中去年12月,阿里云正式发布并开源了“业界最强开源大模型”通义千问720亿参数模型Qwen-72B、今年1月,商汤科技与上海AI实验室联合香港中文大学和复旦大学发布的新一代大语言模型书生·浦语2.0也宣布开源。基于开源项目,开发者可以对项目使用、部署、学习及研究。开源的一片繁华景象,让2024年大模型应用的落地将会迎来飞跃。
随着大模型技术的发展,目前大语言模型 (LLM) 已经发展到了熟练掌握自然语言的程度,通过在特定领域的数据集上进行训练,可以进一步衍生出各种下游任务,其中一个应用便是基于代码训练的 LLMs (Code LLMs)。在软件领域,最重要的就是代码数据。它是高度逻辑思维下的产物,是信息时代的精粹,是计算机领域人与人之间、人与机器之间的连接纽带。软件的创新、开发与程序员的代码质量深度相关,而传统的编程方式是一个迭代和增量的过程,开发者需要不断地与需求、设计和实现进行互动,以逐步完善软件产品。而代码生成模型的出现为软件的创新开辟了一条捷径,通过自然语言指令进行程序合成、代码补全、代码调试和生成文档,可以显著提高代码工作者的效率。因此解决好大模型的代码能力,就能解决好大模型与所有计算机信息系统的交互问题,对未来的计算机产业产生深远影响。
目前在开源代码生成模型中,最火的就属StarCoder和CodeLlama系列模型,它们在2023年年中开源之后,一直备受广大的AI研究人员关注,尤其是软件从业人员,他们寄希望于通过代码生成模型减负提效。OpenCSG算法团队经过深入分析两类模型后,收集了合适的训练数据集,对这两类模型进行全参数量微调并完全开源。
StarCoder模型评测结果
StarCoder系列模型是由 Hugging Face 和 ServiceNow 共同领导的开源项目组织 BigCode 所建立,该组织致力于开发代码大模型 (CodeLLM),于2023年5月推出了 StarCoder 和 StarCoderBase 两个模型,具有 8K 上下文长度、填充 (infilling) 功能和快速大批量推理能力。关于StarCoder在HumanEval上的得分为33.6,而在MBPP上的得分为52.7。
StarCoder 模型可以处理比任何其他开源 LLM 更多的输入,从而可以赋能更广泛的有趣应用。例如,通过用多轮对话来提示 StarCoder 模型,我们可以让它们充当我们的技术助理。此外,这些模型还可用于自动补全代码、根据指令修改代码以及用自然语言解释代码片段等任务。
codellama模型评测结果
2023年08月,Meta 发布了 Code Llama,它是基于 Llama 2 衍生出来的代码生成模型,在开源模型中具有先进的填充能力、长上下文输入能力以及在编程任务中的 zero-shot 能力。它可以降低代码工作的门槛,辅助开发人员写出完善且高质量的代码,成为生产力工具和教育工具。 Code Llama 的性能优于开源、特定于代码任务的 LLM,并且优于自家 Llama 2。例如,Code Llama 34B 在 HumanEval 上得分为 53.7%,在 MBPP 上得分为 56.2%,与其他最先进的开源解决方案相比是最好的,与 ChatGPT 相当。
OpenCSG微调StarCoder和codellma 得分显著提高
OpenCSG模型团队基于StarCoder和codellma,微调过的opencsg-StarCoder-v0.1模型, opencsg-codellama-7b-v0.1模型, opencsg-codellama-13b-v0.1模型, opencsg-codellama-34b-v0.1 模型这四个模型在HumanEval python pass@1 这个benchmark上均比原版的模型分数高出平均10%。这个结果不仅是体现了StarCoder和CodeLlama还存在极大的性能提升的潜力,可用于训练的代码数据远远没有耗尽。
开源的力量正引领行业革新,高效的计算和先进的技术助力各行业、有助于企业降低成本,加速数字化、智能化的转型。 OpenCSG创始人陈冉表示我们软件服务对象已经从”人”转变成了”大模型”,要想加快大模型应用到传统业务一定要做到几个方面的降本增效。首先,算力现阶段处于消费者和生产者双向不匹配且不公平,需要做降本增效;其次,影响数字化转型成功的关键因素其实是缺少研发资源。如何通过大模型提高开发效率,减少对人力依赖,做到降本增效?OpenCSG通过对一些代码基础模型的调优做到了极致的降本增效。让大模型去编程已经变成了企业的最终需求。期待在不久的将来代码大模型将深入各行各业和公司,做到全覆盖并有效控制成本。
关于HumanEval benchmark
HumanEval benchmark评测是专门设计来评估大型语言模型在编程和软件工程领域的专业能力,旨在衡量模型在理解和生成复杂代码方面的能力,通过有专业的工程师对问题的设计、全面检测代码的正确性和鲁棒性、评分标准、实际应用、研究价值及社区认可等多方面进行评测。
传神社区模型下载地址: https://portal.opencsg.com/models/OpenCSG/opencsg-CodeLlama-7b-v0.1 https://portal.opencsg.com/models/OpenCSG/opencsg-CodeLlama-13b-v0.1 https://portal.opencsg.com/models/OpenCSG/opencsg-CodeLlama-34b-v0.1 https://portal.opencsg.com/models/OpenCSG/opencsg-starcoder-v0.1
Huggingface模型下载地址: https://huggingface.co/opencsg/opencsg-CodeLlama-7b-v0.1 https://huggingface.co/opencsg/opencsg-CodeLlama-13b-v0.1 https://huggingface.co/opencsg/opencsg-CodeLlama-34b-v0.1 https://huggingface.co/opencsg/opencsg-starcoder-v0.1