观点 / 刘润 主笔 / 二蔓 责编 / 黄静
这是刘润公众号的第1962篇原创文章
(相关资料图)
前天下午(7月26日),有道在北京举行了“子曰”教育大模型应用成果发布会。在发布会上,有道也正式发布了虚拟人口语教练、AI作文指导、语法精讲、LLM翻译、AIBox、文档问答,共6项应用成果。
我特别关注这场发布会。
不仅是因为我对各种前沿科技、创新成果很感兴趣,更是因为有道又在3年前的那个猜想上,迈出了坚实的一步。
于是,在看完发布会之后,我也找了个机会,约有道的同学好好聊了聊,也请教了很多问题。3年前的那个猜想,实现了吗?这次的应用成果,做得怎么样?能给我说说吗?然后呢?还有吗?
听完分享之后,我再也按捺不住自己激动的心情了。一句话形容我的感受:
未来,你可能再也不用担心教育成本了。
什么意思?什么3年前的猜想?和教育成本有什么关系?这事儿和我有关吗?
关系很大。
今天,我试着用一篇文章,讲讲这背后的逻辑。
以及,藏在这逻辑背后的,巨大的意义。
三年前的猜想
故事,还得从3年前的那个猜想开始说起。
3年前,我和有道的同学有过一次深入的交流。我们从线下教育,聊到了在线教育,又从教育现状,聊到了教育行业。聊着聊着,我们聊到了教育行业的未来。
我说,我特别赞同刘芹老师的一句话,
教育行业的未来,也许不是无差别的产品,而是可复制的服务。
什么是“可复制的服务”?为什么这个概念让我如此赞同?
要回答这两个问题,我可能得先讲清楚,到底什么是“服务”。
假如,过段时间,就是你的婚礼。请问,你会去什么地方购置你的西装?
我猜,你大概率会找一家私人订制,让老裁缝为你量身定制一套。
为什么?
因为一套“对你合身、也只对你合身”的西装,才能彰显出你的气质。
这,就是服务。
服务的核心,是个性化。
裁缝是个性化的,理发是个性化的,我做的战略咨询也是个性化的。
所以,它们都是服务。
那么,教育呢?
教育,也是服务。
因为最好的教育,永远是个性化的,永远是1对1因材施教的。
有一次,子路问孔子:对的事,就该去做吗?孔子说:别急。
另一次,冉有也问同样的问题。孔子说:去做。
公西华很迷惑:老师,为什么同样的问题,你的回答不同呢?
孔子说:子路勇猛,我提醒他退让。冉有谦退,我鼓励他进取。
这,就是个性化,就是服务。
但是,关键是但是,但是,这种看似美好的个性化的服务,有一个非常明显的缺点:边际时间成本太高。
什么是边际时间成本?
边际时间成本,就是每多服务一个客户,服务者所必须额外付出的时间成本。
比如那个老裁缝。水平非常高。但是水平再高,给我量身材、选面料、定款式,至少也要1小时的时间。
老裁缝每多服务一个像我这样的客户,就要多付出1小时。
这1小时,是老裁缝的“边际时间成本”。
边际时间成本,是刚性的,是独占的。给我服务的时候,他就不能给其他人服务。
所以老裁缝再努力、再勤奋,一天顶多也就只能服务10-20人。规模的天花板很低。
那老裁缝怎么赚钱呢?提升不了规模,就只能提升单价。
所以,越好的裁缝、越好的医生、越好的战略顾问,价格就越贵。
服务的优点,是个性化。服务的缺点,是边际时间成本高,价格贵。成本高,价格贵,所以服务的可复制性就很低。
就像再好的老师,也只能1:1辅导很少的学生。
那怎么办呢?
从做服务,变为做产品。
老裁缝为了解决服务“成本高、价格贵”的问题,决定不再1:1的量身材、选面料、定款式了,而是用标准化的版型,流水线的方式,生产“成衣”。
这样,因为每件成衣所包含的,老裁缝的“边际时间成本”大大降低,甚至降到几乎为零,所以衣服的价格也因此非常便宜。
这,就是产品。
产品的关键,就是标准化。
但是,关键还是但是,但是,标准化的西装也有个问题:因为不是1:1定制的,所以很难完全合身。
领口对了,腰围不对;腰围对了,袖长不对。总有地方不对。所以穿着效果,终究不够完美。
教育的产品化,出版,也是一样。
写教材的老师很优秀,教材里的内容也很优秀。但是,几乎很少有同学能够只看教材书、只学课程视频就拿到好的成绩。
为什么?
因为有的同学需要老师的答疑,有的同学需要不同的解题思路,还有的同学需要排名的激励、考试的他律......
但是这些,“产品”里都没有。
那怎么办?
服务化的教育更加个性化,效果好,但是成本高。产品化的教育更加标准化,成本低,但是效果差。
就没有什么办法能融合它们的优点,又同时避免它们的缺点吗?就没有什么办法能既要个性化、效果好,又要低成本、可复制吗?
既要个性化、效果好,又要低成本、可复制,这就叫:可复制的服务。
可是,要怎么才能实现“可复制的服务”呢?
你看到的小班课、直播大班、双师大班,其实都是特别好的尝试。
但我想,人工智能,也许才是这个问题的终极答案。
于是,在3年前的交流之后,我也写了一篇文章《刘润:教育行业的未来,是可复制的服务》,把这个猜想分享给了有道的同学。因为我知道,有道,也在坚定地寻找这个终极答案。
那么,人工智能,真的能让教育变成可复制的服务吗?
三年后的人工智能
坦白说,很难。非常难。
即便,是在人工智能突飞猛进的今天。
为什么?
因为“连接主义”(Connectionism)。
什么是“连接主义”?
在过去的很长一段时间里,人工智能的发展,走的是一条“逻辑主义”(Logicism)的路线。
逻辑主义,简单来说,就是主张用公式、规则等等公理和逻辑体系,来搭建一套人工智能系统。
比如,你想学习一门语言,就得知道语法规则吧。
“主语+谓语+宾语”,就是一种句子的公式、规则。
“我(主语)想要(谓语)吃饭(宾语)”,就符合这种规则。
过去的人工智能,就是像这样通过例举各种各样的规则和逻辑,来学习语言。
但你想想,语言是多么微妙,复杂,富有情感。女朋友一个“嗯”字,背后就有八万四千种情绪。规则怎么可能穷举,逻辑怎么可能没有漏洞。
而且,你回想一下,你真的是这样来学习语言的吗?真的是先学习的语法吗?
不是的。
在学习语法之前,你就已经学会说话了。
我们是在一个“环境”里,跟着妈妈咿咿呀呀,跟着爸爸叽叽喳喳,看着看着,听着听着,自然就会说了。
这个“自然就会说了”,其实是因为人脑中的神经元在不断地连接、连接、连接。刺激越多,连接也就越多,直到人脑突然涌现出知识和智慧。
今天的人工智能,用的就是这种人脑产生智能的方式。给它一个“环境”,给它足够多的“神经元”,给它大量的数据,让它自己看,自己学,自己感受。
这就叫,连接主义。
这就是为什么,今天的人工智能越来越厉害,越来越像个“人”。
那么,这个主张连接主义的“人”,有多少的“神经元”呢?
就拿ChatGPT来说吧。GPT-2的版本,拥有的参数有15亿个,比GPT-1的参数规模大了10倍以上。而GPT-3的参数,已经达到1750亿,多了116倍。GPT-4的参数,更是只会多不会少。
这意味着什么?
意味着,今天的通用大模型博学多识,聪明得就像一位拥有20个博士学位的天才。
但同时也意味着,它的延时问题,在理论上会越来越严重。
什么是延时问题?
想象一下一句话、一条信息、一组数据要在千亿级别规模的“神经元”里跑一遍,你就明白了。
太慢了。
这就是为什么今天的ChatGPT总是一个字一个字地往外蹦,也是为什么通用大模型在很多人看来并不是应用级人工智能的未来。
因为谁也不会喜欢一个收到问题之后,要反应半天,还一个字一个字回答的AI老师。
那怎么办?难道人工智能,真的没法用在教育上吗?
当然不是。在有道发布的教育大模型“子曰”上,我就看到了可能性。
什么是教育大模型?
我不需要什么都学,我只需要把本专业学好、学精。我不需要做一个20个博士学位的天才,我只需要做一个1个博士学位的学霸。
这样,我就能用比通用大模型少得多的参数,来更准确、更快速地回答更专业的问题。
从2016年开始,有道就在协同构建AI的基础能力。不仅同步组建了语言、视觉、声音等团队,还积累出了四大底层技术:有道神经网络翻译(NMT)、计算机视觉、智能语音AI技术、高性能计算(HPC)。
在Transformer技术(神经网络模型)上,有道也具备先发优势。
2017年,有道NMT上线;
2018年,有道NMT升级并基于Transformer;
2019年,词典笔2代首次搭载离线Transformer NMT;
2020年,有道将Transformer ASR落地到业务中,并于2021年实现了基于Transformer的流式ASR技术落地;
2022年推出的词典笔P5搭载了自研离线ASR,也已升级为Transformer技术。
这些基础能力、先发优势,也共同保障了“子曰”落地,成为教育行业的首个垂类大模型。
未来的教育
我想,看到这里,你应该就明白,我为什么会按捺不住自己激动的心情了。
因为在前天下午的发布会上,我看见的,就是人工智能带来的,教育的“可复制的服务”。
于是,在有道同学的帮助下,我也在第一时间,体验到了这些“可复制的服务”。
都有哪些服务呢?
我就拿一些比较普遍的教育现象来举例吧。
在过去,孩子的英语学习,可能是这样的:
考试,考试的成绩是一流的。听力,听力还行,但比起书面考试,就差点意思了。口语,口语就别提了,开不了口,也说不利索。
给孩子请专业的口语老师,费用太高。让孩子去英语角交流,又太害羞。父母自己来教,又怕学术不精,耽误孩子。
那怎么办?
人工智能的技术手段,就可以来为这些孩子辅助教学,提供服务。
发布会上,有道就发布了可以指导口语的“虚拟人口语教练”。
我只需要直接说话,这位会眨眼、有表情,甚至还能“歪头杀”的虚拟人,Echo,就会以“秒”级别的速度,来和我产生互动。
而且,Echo能够充分理解我的发言,并根据我的具体水平、说出的具体内容,来“生成”出相应的回答。
交流结束之后,每一轮的对话都会被完整保留下来。
Echo也会从单词、发音、语法三个维度,来给我们的对话打分,从语法、用词、风格三个维度,来给我提供优化建议。
不断说,不断听,不断交互,不断反馈,不断优化。
通过和“人”的对话,口语能力就能一点一滴地累积起来。
可是,如果我觉得自己的口语太薄弱,从一开始就不敢说,怎么办?
Echo也会通过不断“生成”问题的方式,来主动和我进行多轮的互动,引导我进行发言。
这就相当于是随时随地地拥有了一位口音地道、逻辑清晰的口语教练,拥有了一种“可复制的服务”。
但是因为人工智能,这个服务的复制成本,大大降低。
再比如,在过去,孩子是怎么学会做语法题的?
头天夜里,把题目做完。等待着老师第二天的批改。
错了,就要等老师在课上的讲解。没讲到,就要去找老师答疑。
但是,答疑本身就是一件边际成本很高的事。更不用说还有一些孩子不好意思去请教老师。
那现在呢?
现在,可以直接问“语法精讲”。
提出我的具体问题,语法精讲就能生成出一段针对这一道题的回答。
如果是不知道该怎么审题,那我就看语法精讲给出的解题思路。如果是不知道该怎么解答,那我就看解题方法。
这样,我才能充分、透彻地理解题目,甚至是这道题所代表的考点。
下一次再遇到同样的问题,我就知道该怎么答。再遇到同类型的问题,我就能做到触类旁通。
更重要的是,这个时候,答疑就会变得更加高效,而这项服务的成本,也几乎就降为了0。
可是,“非标”的知识,该怎么办?语法题能答疑,是因为它在大多数时候,都是有标准答案的。那像是语文作文这样没有标准答案的作业,该怎么办?
问问“AI作文指导”。
“作文”这件事,确实是挺让老师家长头大的。因为“作文写得好不好”这件事,是很难说清的。“作文到底该怎么写”这件事,也是很难讲明白的。
于是,AI作文指导就通过一种类似于“360°环评”的方式,来给我的文章提供修改建议。
什么是类似于“360°环评”的方式?
比如,被“子曰”模型的注意力机制“微观”发现到的错别字,和修辞上的错误。比如,经过“宏观”评价的语言表达、结构逻辑、内容深度。再比如,被提炼出来的作文题目解析、文章核心观点。
最终,这些从不同角度出发的评价,会被综合成一份包含了错别字修改、改进建议、作文好句、作文总评等内容的作文批改。
有了这份作文批改,我就能从中获得启发,找到自己在写作中的薄弱点,一点一点,针对性地进行提高。
虚拟人口语教练、语法精讲、AI作文指导。还有LLM翻译、AIBox、文档问答。
本质上,都是人在具体的教育场景下,和技术的互动。
而和技术互动,这项“可复制的服务”,是没有边际时间成本的。
这种种尝试,让我看到了一种可能性,就是利用技术,利用人工智能,不断通过替代人工、或者至少减少人工参与的时间,降低“可复制的服务”的成本。
教育的未来,从来都不只是把线下的课堂搬到线上,也不是单纯地加入人工智能。
教育的未来,是对如何把个性化教育低成本复制的不断探索。
最后的话
教育,是立国之本,是强国之基。
怎么形容教育的重要性都不为过。
可是,教育的指针,到底应该指向服务的一端,还是产品的一端?
都不是。
教育的指针,要指向服务的产品会师的地方,指向那条叫“可复制的服务”的中线。
在有道的发布会上,我看到了这种坚定的选择。
在发布会之外,我也看到了很多人在勇敢地尝试着。
祝福有道。也祝福所有勇敢者。
因为未来的教育成本,会因为你们的存在,而不再让人担心。
加油。