KAIYUN田丰:生成式人工智能可以把中国的14亿人都变成程序员与设计师

 行业动态     |      2023-10-03 00:32:20    |      小编

  KAIYUNKAIYUN凤凰网财经讯 9月27-28日,“新空间·新动能——凤凰湾区财经论坛2023”于香港、深圳两地同步举行。本次论坛由凤凰卫视、凤凰网联合主办,围绕“新空间、新动能”主题,深入探讨“多重考验下的全球经济:复苏还是衰退”、“全球经济风险与中国应对之策”、“香港经济新动力”、“全球危机与地方政府债务”、“大湾区资本市场建设”等关键议题,为全球经济及湾区发展贡献新智慧。

  论坛期间,商汤智能产业研究院创始院长田丰做客《凰家会客厅》栏目,就商汤大模型“日日新”、大模型商业化落地、风险防控、AI人才培养等话题进行了深入讨论。

  今年4月,商汤推出“日日新”大模型体系引发外界关注。据田丰介绍,和其它大模型略有不同的是,“日日新”实际上是一组大模型,包括自然语言交互的“商量”,AI文生图的“秒画”、制作数字人视频的“如影”、生成3D大场景与3D小物体的“琼玉”和“格物”、开源基模型书生。田丰认为,这是未来大模型的一个主要发展方向,因为打造一个生态圈,需要开源、闭源擅长不同能力的各种各样的大模型放在一起,根据实际任务目标组合变成一条生产线,而不是说就是一个封闭生态。

  分开来看,“日日新”大模型中每个部分在各自领域都有着突出的成绩。其中,商汤“商量”的基模型“书生·浦语InternLM-123B”,在全球51个知名评测集共计30万道问题的大模型评测中,总成绩排名全球第二,并且在主要评测中有12项成绩超越了GPT-4,排名第一。[1]

  针对大模型商业化落地的话题,田丰表示,“商量”已经可以帮助记者设计文章提纲, “大医”模型应用可以帮助患者咨询导诊、用药说明等工作,父母和小朋友也可以在绝影车舱内用语言和空中的手势指导“秒画”画画。目前纵观全球生成式人工智能应用的初步爆发,相当于1998年互联网基础技术已经逐步成熟,刚出现发邮件等单点应用,而后面还有波澜壮阔的“电子商务”、“搜索引擎”,“短视频和直播”等等超乎想象的新应用、新服务、新终端。所以在未来的30年里,田丰觉得大模型只是刚刚迈出了半步而已。

  而随着生成式AI全面爆发,也在加速推进行业的创新,培养新时代AI人才就显得十分重要。田丰指出,未来全社会的所有人,都是AI的潜在用户与客户,因为生成式人工智能可以把中国的14亿人都变成程序员、设计师、摄影师、编辑。

  《凰家会客厅》:今年8月,商汤发布财报显示, 2023年上半年,商汤实现营收14.3亿元,同比增长1.3%,其中生成式AI相关收入实现670.4%的增长,对集团业务贡献从2022年的10.4%增至20.3%,已经成为最重要的新增长引擎。其中外界比较关注的就是大模型“日日新”,请您具体介绍一下,“日日新”相对于其他大模型来讲有什么优势吗?

  田丰:“日日新”实际上是一组大模型,包括自然语言交互的“商量”,AI文生图的“秒画”、制作数字人视频的“如影”、生成3D大场景与3D小物体的“琼宇”和“格物”、开源基模型书生。

  目前来讲,其实“日日新”这一组大模型,第一个特点就是迭代非常快,从今年年初到七月,短短几个个月的时间,我们的“商量”和“秒画”都已经迭代了三个版本,所以创新非常快。

  而且在最新的数据上来看,“商量”也在9月大模型评测榜单SuperCLUE上面,排名中国语言类大模型的第一,而且在AI Agent这样代表生产力的,子项的能力上也是排名第一。“秒画”也可以看到有非常长足的进步,除了可以去做文生图、图生图这样基本的功能之外,也可以去做提示词的优化,甚至有一个模型的社区,大家可以用“秒画”的自研的模型,加上其他的一些LoRA的小模型,或者用其他的开源模型去生成各种有趣的(产品),比如盲盒的形象、建筑物、符合中国古典色彩的汉服模特、中秋古诗等场景,或者是中国的一些建筑和家具、美食等。非常懂中国文化,是它的第二个特点。

  第一个(特点是)迭代快,第二个(特点是)非常懂中国的文化,不论是中式建筑、中式家具,还是中国的一些传统文化,尤其是富有中国的价值观,这些方面上,我们都是走在最前面的,相对如果大家都用过一些国外的模型和中国的模型,来去做比较的话,就会发现商汤的训练数据集里,有大量的中华文化传承数据集在里面。

  第三个特点实际上就是,我们其实一直聚焦在行业的应用领域,因为商汤也是在做To G和To B市场起家,所以我们在金融大模型、能源大模型、气象大模型、科研大模型、医疗大模型、教育(大模型)等多个行业,都在正在做大模型的行业引擎。所以我们还是一切,以这个生产力为目标。

  《凰家会客厅》:有人形容,“日日新”是一个大模型的超市,您觉得这个形容贴切吗?

  田丰:对,我觉得这是未来的一个主要发展方向。打造一个生态圈,我们需要开源、闭源各种各样的大模型放在一起,变成一条生产线,而不是说就是一个封闭生态。所以商汤从第一天开始,就是在和香港中文大学、上海交通大学、清华大学等高校,包括上海人工智能实验室等在合作,(属于)非常开放的一个生态。

  从整个的技术栈来看,底层芯片也是开放的,上面的这个模型层也是开放的,有开源的、有闭源的,也有开放的接口。所以我们认为未来一定是一种叫MoE的架构,我们叫Mixture of Experts,就是一个专家模型的融合体,这样才能够满足各种各样的行业需求,包括公共服务的需求以及To C市场的一些产品需求。

  我们认为大模型是一种技术设施,以开放的技术栈,去打造这样的一个模型超市,才能形成工程上的强强互补,效率最优的一种效果展现,而且基础模型和模型的平台一定要迭代很快,要足够强才可以。

  田丰:其实今年的前三个季度,大家做的更多的是,在基模型层面的快速的更新换代,都在去追赶GPT4。所以在最新的第三方的大模型评测上面,商汤的“商量”在中文的语言对话和中文的阅读理解方面,在主要评测中部分成绩是超过了GPT4;也是中国的大模型中首个综合能力超过GPT-3.5的大模型,当然明年我们希望更多的成绩,甚至包括平均成绩上,能够进一步地去实现追平或者是反超。

  从整体的发展方向上来讲,我们肯定和OpenAI一样,是朝着通用人工智能去发展的,而通用人工智能其实代表的是一种接近于人类,或者是实现人类对复杂世界的泛在感知、泛在认知,还有(拥有)比较好的决策和执行的能力。所以商汤从三四年前,就在做感知智能、认知智能、决策智能,甚至包括后面的我们说的具身智能等等,一直到现在,所以这实际上是一个体系。

  我们说为什么过去的十年,大家都是在做感知智能,包括智慧城市里的摄像头,包括自动驾驶汽车上的摄像头,就用马斯克说的,用机器视觉来开车,然后也通过手机摄像头来形成直播、短视频里的AR特效等等,这些实际上就让AI能够去认识这个世界的万事万物,知道这个东西是什么,因为世界很复杂,有很多长尾场景中的物体,这个是人工智能产业过去十年做的主要事情。

  在最近的三至五年,实际上AI能够通过语言、文字来去理解人类的各种知识,因为人类是通过语言,通过文字来去记录几千年的文明知识沉淀,所以它要想AI要去读懂人类的智慧,AI必须通过自然语言的方式去适配我们人类的知识库。未来其实我觉得还有一个重要的方向,就是具身智能,AI仅仅感知了这个世界,认知人类的知识还不够,它还需要把学到的东西去在物理世界中直接验证、纠偏,真正的(用)在生产线上去。比如服务机器人,在家里去帮你做家务,工厂中造车,甚至在实验室里面帮你做各种各样的实验,这些实际上就真正的把大模型和机器人的能力融合到一起。所以这就是为什么现在大家要研究多模态的大模型、基模型,其实商汤底层,“日日新”底层的基模型“书生”,就是多模态的,通过语言、视觉、声音,多模态的去学习运用人类的所有知识,包括多模态感知环境的变化,同时模型输出也是很多种模态的。

  所以未来一定是多模态的大模型,加上刚才说到的,多个模型之间组合成一些复杂任务,能完成复杂任务的AI智能体即AI Agent,然后再去加上机器人的身体,去改造世界,所以这个是我们努力的方向。

  田丰:其实商业化落地,我觉得很重要的一点在于,算力、算法、数据这三者三要素,根据客户的不同情况要去做组合。比如如果现在算力相对来说比较紧缺、比较稀缺,这个行业客户完全可以用商汤在临港地区6000P算力的,亚洲最大的智算中心之一,来去做AI大模型训练和推理的算力支撑。目前已经有8家以上的大模型创业团队,都在用我们临港的AI云上智能算力,这是一种“大模型+大算力”的组合方式。当然,也可以去为一些大体量的行业龙头企业客户,去搭建私有部署的AI Datacenter。

  第二个就是行业的数据。一般来说,(行业的数据)都在行业的龙头企业处,或者是在一些行业互联网平台上面,这些方面上其实更多的是需要一定规模的训练数据,比如客户方的数据能达到多样化和高质量,这样才能够达到一个大模型的训练要求。当然我们说基模型越强,就相当于这个模型已经达到了一个研究生的水平,它通过这个研究生再培养成行业专家,只需要做后面的这一部分专业培养就可以了,前面大量的K12加上大学的培养都是由我们来负责,所以就把大量的成本Cover住了,客户只需要3-6个月的时间,就可以实现在行业模型上的一些重点功能的突破。

  第三点其实在于我们说的算法层面,我们可以看到,现在对于中小型企业和科研团队我们提供开源的基模型“书生”和SaaS形式的生成式AI应用,对于AI技术能力非常强的企业团队,也可以提供闭源的日日新大模型调优,两种都可以。在这种方式下,对于很多头部的企业客户来说,不是我想挖金子,就必须从挖掘机到发电厂都要我自己研发制作,企业客户只需要用商汤完备成熟的大模型与生成式AI工具链,我们不光有数据自动标注工具、模型部署发布工具,还有算力调度、算法加速、算法安全防护等一系列工具,这些都能极大地简化客户的研发创新周期,让客户将更多精力人力集中在行业生成式AI应用创新上、集中在行业数据质量优化上,以及行业大模型的服务调优上。这个其实是目前来讲,最快能够取得商业价值闭环的一个方式,简单一句话,就是商汤科技负责大模型基础设施的建设和研发,然后这个行业的一些龙头企业负责行业大模型上面的应用与创新。

  《凰家会客厅》:像商汤“日日新”是否有具体的企业案例去分享,比如说今年8月的时候,商汤向全社会开放了大语言模型“商量”,这是不是也有商业化的考量在内?

  田丰:对,比如说现在一些媒体的用户,已经开始用“商量”去做一些(工作)。就像咱们记者一样,采访了很多的素材,“商量”可以自动帮你整理,整理的比较好,然后你再去进一步创作。包括媒体的记者如果要写稿的时候,它帮你先出一个提纲,如果你觉得这个提纲需要再加哪些维度,它再帮你去优化这个提纲。甚至帮你去找到一些素材,来去做一些支撑。

  在汽车端智能网联车(领域),我们也把大模型装上车了。我一边开着中国新能源智能网联车,一边就可以问商量,我和我夫人去厦门旅游,你觉得哪些景点、酒店、餐厅适合情侣,它就会给我推荐合适的出行路线。如果我有三天时间,你告诉我比较合理的行程时间安排,它也可以给我一个相应的方案,其实这些都是一些跟车结合的大模型的应用。

  当然现在大家都说,车上是家庭的第三空间,小朋友也可以通过在车舱里面,用手在空中去画一幅简笔画去发挥“秒画”的想象力。小朋友的AI绘画作品,可以作为车载歌曲的封面、车机屏保。当然也可以通过多模态大模型书生的感知能力去识别大家堵车或畅通无阻时的心情,智能车通过摄像头看到前方四周都堵车了,甚至前车的人都在高速公路上歇脚了,这种情况下书生就能识别你的心情变化,给你推荐不同的歌曲或者影片。

  不仅是在智能车舱,(大模型)在自动驾驶领域也很好,因为现在智能驾驶领域更多的是讲端到端的大模型,用一张神经网络去解决。从我们说的交通复杂路况的感知,然后到路径的规划,然后再到决策,再到真正的变道或者是超车、减速这样的一些执行,这一套用一个神经网络来实现,其实也证明了商汤基模型书生的能力。

  2022年,商汤绝影在Waymo自动驾驶挑战赛上获得感知算法的冠军,同时2023年,商汤科技及联合实验室的自动驾驶研究论文《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶)也赢得了全球CVPR最佳论文奖(Best paperAward),这是由全华人团队取得的全球最高奖项,非常了不起。

  在快速的迭代和进化之中,我认为现在是大模型的起步期,所以我们经常会(将现在的大模型)比喻成是1998年的互联网,所有的基础技术都就位了,如何去创造完全崭新的一代新商业平台还需要大胆创新。因为AI技术升级换代会带来整个软硬件产品与商业模式的重构,即颠覆式创新。同时,中国劳动力技能的配套升级,包括行业竞争战略的升级,都是与传统互联网非常不同的。所以我们将大模型构建在“商汤SenseCore AI大装置”上,就像科学实验的大装置一样,伴随生产要素的指数级提升,3年后10倍以上规模的算法、数据、算力投入研发后,你无法现象会碰撞出什么样的通用人工智能技术、新商业价值和新应用服务出来,一切充满了对未知世界的探索想象力。所以这些非常像1998年的互联网,也许我们现在看到的这些应用,只是1998年互联网发邮件,我们根本没有想到,后面有波澜壮阔的电子商务、搜索引擎,还有短视频和直播等等。所以未来的30年,我觉得现在恰恰是人类刚刚迈出了半步而已。

  《凰家会客厅》:AI带来的数智化变革,其实已经不止影响了互联网相关的一些企业,传统消费企业往往会存在数字化理解程度不够深的问题,应该怎么改变他们的思维,让他们加入进来呢?

  田丰:其实我们说越好的技术,它越能够带来更易用的产品。我举一个例子,就是商汤的数字人视频生成工具“如影”。原来我要去拍一个短视频,最早其实是影视行业和电视台有专业的拍摄团队,后来大家会发现短视频app上每个人都可以拍了,却依然需要比较好的手机硬件,也需要视频加工剪辑、模特化妆造型等。但是现在日日新大模型出现了,秒画只需要一个真人的十几张照片,就可以建立出来自己的一个2D数字人;另外,如影通过短短20分钟的真人视频训练,就能建立指定数字人模型。然后,我只需要输入给如影一段我讲课的文本,在5分钟之内就能帮我自动生成这个讲课短视频,不需要任何拍摄的硬件设备,也不需要我自己的录制时间投入,更不需要后期视频剪辑,在“如影”手机APP上,完成了真人效果的短视频生产了,且和真人拍摄的一样效果。

  当然我们在上面会打一个标签,说这是由AI生成的。这极大地降低了新闻主播、视频直播、电商带货的成本和门槛,比如说一些贫困地区营销推广农特产品,他们没有高颜值的网红,也没有这么多的时间和专业技能投入到每天的直播中,完全可以用“如影”每天生成24小时直播或者是带货短视频,还可以支持跨境电商。因为大家都知道,我们的“如影”支持150多种语言。我用中文介绍一下本地区的地瓜片,“商量”帮我写出恰当的策划文案,然后如影能够生成全球150多种语言的电商视频,包括英语、日语、韩语、泰语、阿拉伯语,甚至连阿塞拜疆语都可以实现。所以我们说极大地降低了直播带货、视频生成的成本。

  现在像线上教育,新闻主播,或者是一些知识类播主、电商主播等等,都开始大量地用看起来像真人一样的“如影”数字人生成视频。

  《凰家会客厅》:在AI成为重要的生产力工具之后,也有可能会超过人类的预期,我们该如何去做好一些风险防控?

  田丰:首先客观地来说,大模型不是万能的,任何一个科技工具它都有它擅长的和不擅长的东西,所以现在的人类需要发挥想象力、创造力,目前用生成式人工智能工具,会给我们带来很多很好的点子、创意和一些草稿内容,我们要更好地去善用它。比如我要去做一个香水的视频或者护肤品的海报,那我可以用“秒画”自动生成,背景非常漂亮,把全球风景名胜作为背景,都能实现。如果想去做更精细的地标环境,比如说想在长城上做一个户外护肤品的广告,其实就需要大家有更详细准确的提示词,这些提示词本身有难度,所以对于普通用户来说,更多的会用模板、提示词优化、社区学习等方式来实现。而且应注意到模板的准确性,跟地标要保持一致性,因为地标是不能有太多的改动和偏差,所以在准确性和严肃性方面,服务商是可以通过大量的模板去降低使用的门槛、场景拓展,同时保持在一个比较好的专业程度水平。

  那么生成式AI的底线是什么?底线首先是合法合规,这些层面上一定是要符合我们现在的中华民族文化的传统美德、风序良俗,包括社会主义价值观,这样才能更好地服务大家,带来更多的正能量,即放大AIGC向善的影响面。

  同时还要思考它在很多人类可能不擅长的领域,怎么去发挥更大的价值。比如在学校我是一个精通数学的高中老师,但是我很难去融合AI、数学、化学形成一个跨学科课件,这种跨领域的课件是生成式人工智能比较擅长去做的,因为它有多领域的知识。在这个例子中,AI生成出来的教案,我必须要具有专业的鉴赏力、辨别力,我必须要能确认它生成的东西是对的。所以说AI会大胆地给我们提供很多策划或者方案初稿,人类工作者要小心的去验证,(这需要我们)有很好的质量把控能力和专业鉴赏力。

  第三种更多的在于说帮助用户更好地去使用,降低它的技能门槛,同时也要意识到,它里面一些调优的风险点和经验,所以要教给广大社会劳动者生成式AI工具的操作技能。这个和以前软件时代比较不同,软件时代都是标准化的工具,而生成式AI工具中有大量的思考和生成式策略。AI的思考和创新在里面,如何去用好它很重要。有的用户一开始上手,就觉得这AIGC工具产出“翻车”了,其实是你没有把它用好,这个大模型上知天文、地理、历史,下知法律、医疗、心理学、社会学,百科知识它全都懂,只不过你提的问题可能没有问对,或者是没有多尝试几轮对话,其实有很多人类智慧的宝贵知识经验在里面,不能说浅尝辄止。

  所以说我们以前的IT生产力工具,就像大家用腿在走路,现在要考一个“AI驾照”,要去学会开车(驾驭生成式AI),学会和旁边坐着的“AI副驾驶”协同配合。这就是生成式人工智能的人机共智模式,大家要学会去操控大模型的“方向盘”,要具有使用新一代生产力工具的崭新能力,这是需要每个人投入很多时间去做训练的。所以通过合理的去使用,通过有序和健康的平台运营,不仅能将商业价值扩大,也能将社会风险最小化。

  《凰家会客厅》:生成式AI全面爆发,其实也在加速推进行业的创新,您如何看待培育新时代AI人才这类话题?

  田丰:未来全社会的所有人,都是AI的潜在客户,因为生成式人工智能可以把中国的14亿人都变成程序员、摄影师、设计师、编辑作家。比如特斯拉的新一代的FSD V12版本没有一行代码是人写的,全是用模型写的,这叫“软件2.0”。中国国产大模型逐步成熟、AIGC工具大规模普及之后,14亿人都可以高效生成自己的文章、画作、照片、程序,比如升级为商业视觉效果的设计师、代码程序员、广告方案策划专家,这是一个生产力的全民赋能。

  从全民社会生产力这个角度来看,第一步最重要的是,要保证大家去用新一代生产力工具的时候具有正确的价值观,即AI伦理问题。要让大家知道,我怎么去用是对这个社会有益,是向善的,这一条永远是第一位,越有效的工具越需要让更多的好人去使用。所以我们在商汤出版的K12教材和很多AI培训课程中,都已加入AI伦理章节和实践指导,AI伦理第一基石原则“以人为本”,你做的事情要为全人类服务,不能反人类。第二基石原则是“技术可控”,做出来的东西不能从人类手中失控。第三基石原则还要“可持续发展”,可持续发展就包括对环境、能源、生物、气候等有更好的保护一。

  第二步是对社会人才技能的培养,要更快速的找到使用场景。其实基础大模型厂商,是没有办法在各行各业方方面面去找到所有细分场景的,而且也很难找到行业细分场景里更好的使用方法和经验模板,这就需要大量的第一波场景应用开发者,就像互联网时代第一波的网站站主,移动互联网时代的APP开发者,包括一些开源程序贡献者、软件开发程序员,大家在尝鲜试用。所以现在大模型也是影响的是这些人,我们叫Developer或者Designer这样的新技能开发与传播专家,这些新技能专家会通过培训,再带动更多的工作职场人去学会使用新工具。

  接着下一步的用户就变成了大众生产者,在所有To C环节去使用。现在正在处于一个人工智能开发工具全网逐步爆发的一个阶段,从AI绘画的工具、AI写作的工具、再到AI编程的工具,这些都会以助手的形式出现在大模型上面,甚至在一个APP上面,可以就是教给大家怎么去用,并且培养起专业的培训师。

  然后第三步在于全社会的持续降本增效,实际上就是要进一步的降低数据算法、算力的价格和成本。其实大家都看到了,有很多开源的模型,有可能有几十亿参数量,现在最大的是商汤和国家人工智能实验室开放的200亿参数量的,“书生·浦语”这样的模型,包括多模态的模型,成本也会进一步的降低。真正要让全民去使用生成人工智能技术,需要持续的成本降低,其实这里面有一个规律,就是当一个资源的使用效率越来越高的时候,社会的需求反而会呈现一个指数级的爆发和增长,这跟大家的印象可能是相悖的,大家觉得效率提升了,那我可能用的就没有那么多了,但实际上它会有一个大增长。

  比如电力时代,电力价格的下降,导致了后面几十年的电力革命,大家有各种各样的家电;互联网的蓬勃兴起,APP的大规模的应用,其实是得益于通讯资费的持续降低,1G到现在5G的通讯资费降低了很多。所以人工智能的算法、算力和数据的成本持续降低,真正会带来全面的普及。