OpenCSG陈冉:大模型都应该以开源形式服务客户

OpenCSG创始人 陈冉 华为云 全球初创生态发展总经理 段小蕾

颠覆对话

华为云 段小蕾:大家好,首先感谢非凡资本提供今天的平台,让我有机会跟非常优秀的创业公司创始人——OpenCSG创始人兼CEO陈冉先生有这样一场对话。

我来自华为云,在华为云主要负责初创企业生态,我们团队主要是为创业者提供赋能和服务;致力于打造协同华为各个部门、外部合作伙伴、投资机构FA以及大企业客户等共同资源的生态模式;希望在各个维度助力创业公司更快发展。除此之外,在上云成本上,包括算力,我们可以为每一个创业公司提供最高100万人民币的代金券,同时我们也将把华为近年来的创新创业方法论与行业认知经验开放给我们的创始人,渴望思想共鸣,认知提升。我们也会打开更多的商业资源,帮助创业公司创建产品后快速复制拓展属于自己的市场。

我们主要拥有两个旗舰性产品:一是华为云-初创计划,二是华为云加速器。近两年来,我们主要专注的赛道是:助力创业者拥抱全球市场以及构建AI生态。

今天与我们对话的嘉宾陈冉先生,他所创立的OpenCSG也是华为云初创生态的一个重要成员企业我想请教一下陈冉先生,您的公司叫OpenCSG,中文叫“开放传神”,这个名字是什么意思?

OpenCSG 陈冉:我们公司在大模型和生成式AI领域属于比较年轻的公司——2023年才成立。但就我个人而言,我已经在这个赛道工作20年了,并且我也一直在做一件事,即开源,我的整个工作经历都与开源相关。 在创立OpenCSG之前,2022年中旬,我上一家供职单位 Mesosphere的同事有的去了Open AI,有的去了Hugging Face……在这一背景下,我慢慢理解到何为确定性与不确定性。在当下,我们确定的是AIGC方向与大模型方向最重要的点在于替换人类脑力。但大家共同面临的是“大模型好像比什么都重要,但无法真正应用到场景中”的困境,因此我们公司的成立初衷即“降本增效”——做算力、数据处理、人效的降本增效。

如何定义OpenCSG,我认为:“Open”在大模型领域即开源开放方向;“C”即Converge,我们认为作为高优先级的算力是未来的大方向。同时,国内和美国在算力发展领域存在非常大的差异性:国内目前仍处于catch up阶段(追寻阶段),而美国毫无疑问已处于领先阶段。故而需要通过高中低配算力——国产算力与国外算力的分布式搭配,按需分配属于我们的算力。

我们也发现,算力具有供需双向不平衡的特点。举例而言,有的人在卖算力,但有的人仍然找不到算力,这就是所谓的双向不平衡,这也是由我们的国情所决定的。

“S”即指人效,我们认为,影响中国企业数字化转型的最大问题就是人效。BAT大厂把研发人员的工资炒得很高,以上原因造成我们的数字化转型相对落后。如何在研发、测试、交付这一层面做到降本增效?答案在人。故此,我们的理念是用大模型开发代码与交付,即在软件定义的层次去做降本增效。

而在当下讨论“确定性与不确定性”,我大胆地说:我认为大模型是不值钱的,大模型更没有必要做商业化。举例而言,当我们的算法paper”attention is all your need”出来了以后,算法是无法比较好坏的,我们更多只能在算法上进行提升,而其关键的决定因素就是数据——谁有好的数据,谁就能通过算力训练出模型。同时,我认为:推出所谓的模型,就跟当时的Linux Kernel一样,当其distribution出来以后,随之foundation操作系统的出现,就会衍生出很多的ecosystem。

故此,我们认为:模型就应该以开源的方式给到客户——因为客户的数据拥有其自己的知识产权,训练出的模型也应该归客户所有,模型不应该被商用,应该追寻普世价值。因此,OpenCSG就做一件事:在开源开放、降本增效的基础上做大模型,并且适配于每个人。

华为云 段小蕾:OpenCSG是一个很年轻的生态社区和平台,那么目前平台上最活跃且最典型的用户是谁? OpenCSG 陈冉:这是一个非常好的问题。我跟一些投资人在平时的聊天过程中难免会发出疑问:中美之间的差距到底有多少年?就目前而言,我认为差距有可能正在被慢慢拉大。

何出此言?众所周知,大模型有五个关键要素:大模型本身、数据集、代码集、生态、算力。在不断地实践与开发过程中,我们会慢慢发现,我们具有先天缺陷性。所以,当回归OpenCSG的开发过程中,我认为五大要素中最关键的是生态。

我们的大厂做了很多东西,但我也想给大厂一些建议——找到自己的定位,而不是什么都做,都大包大揽。与美国生态相比,我们更加需要在明晰定位的前提下,找到天然的依赖条件。不同企业各有强项后形成良好的生态,这样行业才能快速演进。

总结三点: 其一,整个大模型的方向,我们的目标是确定的——大模型第一次替代了人类非常难以取代的知识生产力。 其二,优先级也是确定的——算力数据很重要,生态发展是第一关键要素。 其三,建议每个生态合作伙伴都明晰自己的定位,找到自己的位置。

OpenCSG虽然成立时间短,但已经发布了类似于Hugging Face这样的平台,而且我们是做线上线下一体的Hugging Face。ToB企业真正需要的应该是线下的Hugging Face,因为企业的数据作为第一要素必须放到私下进行管理。为此,我们坚定做开源模式,让客户自己管理自己的数据资产。

在此趋势下,以后企业的资产就是数据集、代码集、模型集。而这三个要素就是企业重要管理的关键要素,当具备这三个要素之后,属于自己的生态演进方式也将出现雏形。OpenCSG通过管理三个生产要素形成稳定生态,在做线上线下一体的Hugging Face的同时,保证所有目标客户从研发人员而来。中国最懂科技与技术的是DevOps engineer和云原生engineer,故此我们认为中间态才是AI engineer的新属性。

AI engineer的定位是什么?我认为是提示词工程师+云原生工程师。在AI engineer角色被重新定义时,其依赖条件一定是大概有3000万~4000万左右懂开源的云原生工程师为第一过渡要素,从这些工程师中演变成真正的AI engineer,只有这样未来才会有AI engine的产生;没有工具链与AI engine,就不会有更多新的AI应用产生。

华为云 段小蕾:意思是类似OpenCSG这样的社区里有一批世界上最优秀的云原生开发者/工程师,包括AI工程师和prompt engineers,他们的集体智慧和代码能力的贡献,让AI得以民主化和普及化,同时让编程小白也可以享受到AI的红利。

OpenCSG 陈冉:这就是下一个时刻的到来。基于庞大的工程师群体的产出做出的积累,未来不懂研发的人也可以通过prompt产生各种应用和数据。有时候有些投资人会问我们的核心用户群体的画像是什么?我回答:我认为分为中间态和未来态,中间态即是以研发为背景的专业人士,而未来态就可能是什么也不懂的人通过Q&A(自然语言)的方式,产生各种各样的agent,其中也不乏各种native APP。

届时,我们就完全融入了另一个时代——大模型对大模型的沟通。

华为云 段小蕾:想象在不久的未来,任何一个人或公司都可以有自己的大模型。届时在那个时代,作为个人而言,我需要去付出什么才能得到我的大模型?我能够在里边得到什么样的价值和场景?

OpenCSG 陈冉:我们去推测未来的时候必须在一定程度上追溯历史。人的整个社会化过程跟大模型非常相似:大家可以试想一下,我们是不是被prompting/pre-training出来的?当我们刚出生时,父母给我们灌数据;到达中学后是老师对我们进行pre-training,直到我们进入高校进行微调(fine-tuning)。

回归到您的问题,在这个领域里面,大家都比较认可:数据是关键性与差异性的主要体现,大模型的差异性是数据,而人类产生数据,人的交互产生信息,信息被大模型学习,产生新的模式和entity(实体)。

人其实就是信息的载体——人的DNA、行为方式、生活方式、交集方式、交流方式等,人与人之间的关系也都是数据的体现。故而,从历史上看,数据库的存在原因主要是保存公司最有价值的数据。当模型集与数据产生关联后,最有价值的模型是被数据训练出来的,所以我认为到时候每个人/公司不仅只有一个模型,每个公司也将有若干个模型。

什么时候能迎来这样的时刻?我认为:当算力、数据与代码的台阶降得足够低,大家都可以承担起的时候,这个时刻才能降临——因此降本增效非常重要。

而所谓的场景是什么?我刚刚有所提及,我认为未来的形态即人与大模型的对话;类似于AI system人类助手,协助人类的travelling system、personal system等助手。就目前而言,美国生态相对完整,而中国生态还没有形成。

未来我认为替代我们的不是大模型而是使用大模型的人。因此,所谓的场景就相当于每个人都会存储自己的数据集,例如健康问题、教育问题、个人助手问题等,都会形成一个个的模型来帮助你去跟别的模型进行交互,这就是未来的一种形态。

华为云 段小蕾:在大模型普及化、大众化时刻到来之前,数据是一个非常关键的因素。但在日常生活中,个人数据散落在很多地方:淘宝、微信、支付宝等,大模型如何让我的数据变成我个人的资产,同时又能保证我的信息安全?另外,数据如此零碎,大模型将如何更高效地处理,使其变成最理解我的、能帮助我完成任务的agent或其他AI形态?

OpenCSG 陈冉:人类产生数据,数据的拥有者就是个人,但我们如何搜集这些数据是一个问题。数据是一个巨大的商业机会——如何帮助个人搜取数据、产生数据、变成有价值的数据集,在被法律认可的基础上被交易等等都有巨大商业化空间。我们国家刚成立了数据局,认可数据也可以被交易,这才迈出了关键的第一步。

第二步,相关法律法规出台后,一些工具和公司为了满足所出台的法律法规,会产生各种各样的数据集。产生数据集的工具并不难,更难的是定义数据集属于你还是团体还是公共单位还是政府,这叫规范。我们目前急切要解决的就是第一要素——大模型的依赖方——即数据如何被定义出来。

华为云 段小蕾:很多行业数据主要集中在具有一定体量,和前沿性的大公司里边的。他们目前很难有动力把自己的数据向行业同僚分享。从商业化角度来看,大部分人也希望有壁垒的存在。这意味着如果不能很好地划分数据的公有与私有界限,大模型民主化仍然具有一定挑战。

OpenCSG 陈冉:在整个生态方面,一定是各个生态合作伙伴形成同频共振之后,才会形成共创,共创了以后才能形成商业模式。

有关数据集,在国家要素规范成立以后,私有与公有的界限一定是明晰的——私有的数据绝不会被拿到公有通用大模型中。我曾跟国内不少估值上十几亿的公司谈过,他们是否愿意卖出数据集,得到的答案都是否定的,因为没有数据就没有竞争优势。

我一直认为,国内在发展过程中缺少原创和创新的主要原因在于我们没有真正地实践——实践是从生态的摸爬滚打中出来的。从淘宝到拼多多再到抖音的发展,是属于商业模式的创新而不是技术的创新。最终大模型也将回归到这个点,商业模式的本质就是买卖问题——能挣钱,能降本增效。

华为云 段小蕾:您前面提到“大模型本身应该不具有商业模式”,2023年以来,成百上千个大模型已经诞生,您如何看待他们的未来?

OpenCSG 陈冉:在刚刚的讨论中我已经说过了“确定性”,那么具有“不确定性”的就是商业模式。目前该领域中的企业都想解决“如何挣钱”“如何盈利”的问题。

我曾经说过一句话:不管是做开源、闭源还是大模型,不以商业模式为目的的初创公司都是在耍流氓。商业模式就是买卖关系,最终目标就是为了挣钱。在创业过程中,不以盈利为目标的公司就意味着没有很好的机会。

从OpenCSG角度出发,我们清晰地知道:降本增效就是商业模式。大模型不商业,不代表围绕大模型不能产生商业模式——可以衍生出软件订阅、数据集交付、服务、商业版分发等模式。我想表达的是,大模型就像人的大脑,真正的手和脚就是agent。在此过程中,大脑如何将知识变现,主要切入口是在数据与知识上;如何让手脚变现,那么就需要跑起来。

华为云 段小蕾:开源社区的商业化是一个非常令人关注的问题,那么OpenCSG本身的商业模式是什么? OpenCSG 陈冉:这个时代谁不融入AI,谁就会被淘汰——因为知识被第一次替换了。每个公司最有价值的是人,人最有价值的是知识,知识最有价值的是沉淀,没有沉淀就没有未来。

OpenCSG在线上的目标人群就是研发人员,所以我们给到所有研发人员最低的成本、最高效的方式、最低的门槛运用大模型。我们想与华为合作也是基于此。在线上通过算力的分佣,实现研发人员降本增效,产生更多的agent。

线下方面,大模型没有真正的商业价值。因为谁都可以基于Llama去SFT一个东西。那么它的价值点到底是什么?我们线下只做大模型hub——类似于GitLab的hub,以及商业版软件订阅,我们卖的是软件,而不是大模型。我们最终目标是以最低的成本、最低的门槛、最高效的方式让线下的个人用户/自由职业者运用大模型。

华为云 段小蕾:您认为,OpenCSG在今后的三年、五年里会做成什么样?它会发展成为什么样的生态占位?

OpenCSG 陈冉:在2023年之前,中美之间是天然的生态关系——中国以应用为主,美国以infra为主。但现在在大模型领域,我们必须着手做自己的infra。十四五规划提倡支持开源,这也是国家第一次把开源的flag立得如此之高——原因就是大模型非常重要,开源非常重要;开源关乎商业模式盈利,关乎产业链。

回归到OpenCSG,我们希望成为中国第一个在开源开放领域的IPO公司,我们也希望OpenCSG在未来能成为中国的Hugging Face,赋能更多研发人员更高效自由地运用大模型。