创始人对谈老石谈芯:大模型+机器人,能否成为未来爆款?
24-05-30

本文适用于B站视频观看:

第1期 大模型解决不了英伟达的难题:专访安克创新CEO阳萌 | 大咖谈芯第10期

第2期 用大模型保存你的全部人生,你会接受吗:专访安克创新CEO阳萌 | 大咖谈芯第11期

AI 的未来发展:分治法在左,端到端在右

阳萌或许是我接触过的最懂技术的CEO:他是北大计算机本科,硕博连读机器学习专业,但博士读了一半就跑了;他是百亿营收大厂安克创新的创始人,也曾在谷歌做搜索算法的研发;他的公司主要做的是充电宝、扫地机器人这些消费类电子产品,但我们聊的是人工智能、芯片等等硬科技。
我梳理了他对谈的全部内容,本文是第一篇,他帮我梳理了人工智能的过去、现在、以及未来的发展方向,我深受启发。我们聊了接近两个小时,内容很长,但相信肯定会对你有所帮助。下一篇,我们会讨论AI的落地、应用、以及为何阳萌和安克会对AI有这么深入的思考。关注我,下篇见。

Transformer只是中间态?

我本科就很喜欢做机器学习,因为觉得计算机能够做决策是很酷的一件事情。后来03年博士也读这个,然后,非常痛苦。
我发现,行业里每5-10年就会有个大牛出来,开天辟地地推出一个全新的范式。譬如最早的时候大家做专家系统,后来做决策树,再做Support Vector Machine (SVM)。这有点像大牛发现了一片矿脉,很多人去挖矿,那几年大家都很开心,博士们都非常有成果。到2017年出现Transformer,这又是一个新的范式,大家又挖挖挖,又很感觉很有成果,这几年我觉得还是一个比较井喷的状态,这个矿脉的大龙的部分还在被挖出来,但是总是会挖完的。
我觉得,Transformer只是一个中间状态。比如10年、20年之后,大概率我们就不再用Transformer了。这是一个非常大胆的一个假设,但我们可以把话放到这,20年以后我们再回来看。就像同样20年以前,大家说的最多的就是SVM,但我们看今天还有多少人用SVM?
它真的就是长江后浪推前浪,每一浪都会有一个新的范式的出现,然后都会把之前的范式拍死在沙滩上。

分治法:AI的经典范式?

如果将所有的范式按照背后解决问题的思路进行分类,主要有两种:一种是基于数理逻辑和分治法,其目标是将问题分解成人类可以理解、公式可以推导的形式,然后再进行组合;另一种则是利用大量数据训练一个端到端的模型,类似于黑盒,即使我们能看到其中的参数,但却无法理解其内在逻辑,这种模型是不可解释的。
这两种范式代表了两种不同的派别:一派通过分析问题,使用逻辑和数学公式来解决问题;另一派则直接利用大数据训练出网络模型来解决问题,而无需理解其内部机制。
中国有句古话“知其然,知其所以然”,分治法可以被视为最通用的“知其所以然”的方式。当人类使用自己能理解的方式解决问题时,这似乎是其唯一的方法。
以计算机科学为例,如自然语言处理领域,搜索一个词的第一步通常是进行分词,因为整段文本无法进行检索。分词后,我们会对词汇进行特征提取,例如词频的高低,然后基于这些分词和特征进行搜索、翻译等更高级的操作。
另一个例子是自动驾驶技术。自动驾驶本质上是一种机器人技术,第一步是感知,也就是识别周围环境中的各种元素。第二步是规划,也就是确定要执行的任务以及如何与周围环境协同或在其中移动。第三步是控制,比如实际操作车辆怎么去加速、转向等。
在深度学习或端到端算法出现之前,除了分治法,我们几乎没有其他方法来解决这些问题。
因此,我们发现,如果没有分治法,人类似乎无法解决问题。也就是说,分治法是人类理性解决问题的必经之路。

大模型时代到来,为何端到端逐渐成为主流?

我在2003年攻读博士学位时研究决策树(Decision Tree),发现这是一个典型的分治法应用。决策树可以在一个数据集上轻易达到70%至80%的准确率,但它的天花板就在那了。虽然可以通过各种各样的技巧,比如增加扰动、使用多个决策树等方法来提高一些性能,但是再往上就上不去了。
这是因为分治法的刚性的本质,打破了很多问题本身的一些柔性联系。当我们在两个步骤之间设定了一个非常明确和精确的边界时,这些柔性的联系就被切断了。我这个感受后来在工作里很多地方都被印证出来,比如做搜索时,用的就是典型的分治法。当时谷歌内部有一套完整的评价体系,用百分制来评价一个搜索词最后的效果。大约在2007年,谷歌的搜索效果可以达到64到65分,高出雅虎接近8分。但即使到了2024年,谷歌的分数可能也还在70分左右。
换句话说就是,分治法可以迅速达到70%到80%的水平,但之后就会遇到瓶颈,再也上不去了。
在应用分治法的过程里,我也发现很多有意思的事情。第一,分治法是一个非常“吃工程师”的方法。因为任何一个大问题,每向下细分一层,就意味着需要更多的团队和工程师来研究更细分的问题。所以,我当年在谷歌时,知道很多冷知识,例如日语的某些词如何分词、阿拉伯语的一些特殊情况应该怎么处理等。今天你会发现,换到自动驾驶领域里边也是一样的。
因为分治法,问题被细分后就变成了一个小众领域,很容易进入牛角尖,然后在牛角尖里面再往里面钻,其实花了可能很多博士的很多时间,研究了很多数据,去写一篇论文。但是,今天随着端到端算法的出现,这些博士们当时的很多工作可能就失去了意义,变得不再重要。就像今天,我那些冷门的、怎么把词分好的知识已经没有人会感兴趣去购买了。
再来看自然语言处理,这是一个庞大的领域,过去至少培养了3万个以上的博士(按每年1000个算,30年3万个)。但这些博士都是在分治法的框架下,解决了很多具体问题,可能也掌握了许多冷门知识。但是,随着端到端的大模型的出现,这些冷门知识不再被需要了。这3万个博士投入了几年、十几年不等的人生,可能就再也没有价值了。
所以我也很庆幸,当时博士读了一半就跑了。

英伟达和GPU的遇到的困难?

前几次算法的迭代并没有摧毁一个行业,比如在深度学习时代,自然语言处理仍然存在。只是这一轮基于Transformer的大语言模型出来,才真正把自然语言处理这个行业给“摧毁”了。所以,我们发现最近这一轮算法范式的迭代实际上跟芯片和硬件息息相关。
或者应该这么说,就这一轮“毁天灭地”的算法迭代,是跟GPU这样的硬件互为因果的。
因为没有GPU,就不可能产生Transformer。换句话说,只有在GPU上,Transformer这样的算法才能在大规模数据上得到实现。
之前黄仁勋请了Transformer 的所有的发明人,他们在一起同台相互惺惺相惜了一下,有点像是两组人一起开创历史,然后在今天这个历史时刻大家在一起拥抱一下那种感觉。
如果你打开英伟达的 GPU ,会发现现在GPU中间贴着一小块运算核心,主要负责计算矩阵乘法;外面贴着4块或8块高带宽内存HBM。这个架构就是把几十亿、几百亿个模型参数存在两端的内存里。
当任务进来的时候,这些参数被搬到中间的计算核心去做矩阵乘法计算,计算完之后然后再写回去。所以,每一次计算都是要经历把所有的参数从内存里搬到计算中心,算完然后再拿出来的过程。

冯诺依曼架构在大模型时代的困境?

冯诺依曼架构和分治法就是一对最佳搭档。我们通过分治法解决问题,然后把它表达成为程序,编写出来的就是一行行的代码,分成一个个的函数,它们会相互调用。但在分治法中,一段时间内实际上只运行一段代码,也就是说,一段时间内我们只在解决某一个子问题。所以,当年冯诺依曼发明了这样的架构,就是把数据和程序都写在内存里,然后分治法每运行到哪一步,就把对应的程序和数据加载到CPU里中。
所以,冯诺依曼架构的核心,就是区分了计算器和存储器。代码存储在存储器中,分治法运行到哪一步,就把那一步的代码加载到计算器里去运行,运算完成后再取出来。
这么多年过去,我们的计算机越来越先进,但它的L1 Cache 始终维持在几百KB,因为没有必要再增加,任何一段程序也不会超过这个大小。每次加载到处理器中的程序,几十KB、100KB就足够了。
但你会发现,今天的Transformer大模型是截然相反的。因为Transformer是基于分治法的反面,也就是黑盒的端到端解法。它表现出来的不是一段一段去解决问题,而是表现出了整体800亿个参数;也不是每次都从800亿个参数里面加载一小部分去运算,而是每次都需要将800亿个参数完整地加载进去,然后算完再出来。
所以,这个过程实际上不应该再使用之前的冯诺依曼架构了,否则就会遇到英伟达今天面临的困难和挑战。英伟达现在90%以上的时间都在做数据搬运,只有不到10%的时间真正用于矩阵乘法计算。
前段时间还听到一个有趣的段子,说英伟达推出了算力经过严重“阉割”的显卡,但如果你把足够多的显卡并联起来去做训练,它的整体算力是不会下降的。因为尽管单卡的算力降低了,但当很多卡连接在一起时,大部分功夫都花在了数据搬运上,因此即使算力降低,性能也不会受到影响。因为瓶颈在数据搬运而不在计算上。

Scaling Law能否延续?

当前GPU技术正向更先进的制程走,从5纳米到3纳米,再到1纳米,还能提高多少是需要打一个问号的。我对这条路线整体比较悲观,并不是说性能提升已达极限,而是觉得目前处理问题的方法在本质上存在误区。
对大型模型来说,尤其是在推理端,还要再沿用冯诺依曼架构把数据和处理分开吗?我们可以类比人脑:人脑同样拥有约800亿个神经元,但运作起来功耗只有不到20瓦,而在英伟达的芯片上运行具有800亿参数的模型,耗电量至少在两三千瓦以上。这中间的核心差异在于,人脑不需要搬移数据的。
假设人脑采用冯诺依曼架构,所有知识和记忆存在左脑,所有的处理活动发生在右脑,每次你看见、听到的东西在右脑进来,然后把数据从左脑搬到右脑去处理,再将处理结果写回去,觉得这样的脑子会烧掉吗?所以我想说,冯诺依曼架构底最适合解决我们说的分制法的算法问题,但它不适合解决端到端的问题。
人类过去用分治法解决问题,在计算机里表现出来就是程序。而冯诺伊曼架构把所有的程序存在存储器里边,然后每次执行到一步就加载一部分到计算器里边去运行,这样的架构非常适合去运行分治法产生的程序。
如果我们分三层,最底下一层是解题思路分治法,往上一层是对应的表现形式,也就是程序,最上面硬件,过去 70 年里就是冯诺依曼架构的CPU。所以,分治法、程序和冯诺依曼架构的CPU,共同构成了一个时代。
从这个视角看的话,英伟达和Transformer模型开创了一个新时代。它的底层不再是分治法了,而是端到端的算法。中间的表现层是大型模,再往上一层运行这些模型的芯片已经不再是传统的冯诺依曼架构了,而是把内存与计算单元紧密结合的近存计算架构,也就是我们今天所说的GPU。
为什么我们说中间这样的时代也大概率会被被拍死在沙滩上呢?其实大模型和几百亿个参数的端到端模型,是否应该被运行在一个存和算分离的芯片上,这仍存在疑问。它最理想的运行方式一定是像我们的大脑一样,在同一个神经元里边存着知识和做计算,也就是存算一体。所以,我们相信,在未来几年内,一定会出现存和算一体的芯片。

什么是存算一体?

人脑的一个神经元其实是存着一些信息的,每一次计算的话,电信号又会通过它进行计算。也就是说,存储信息和进行计算在同一个神经元里发生。
所以如果在现在计算机的存储单元上,能再加上计算的逻辑,也就是同一个单元既存储又计算,那我想这样结构的芯片其实是非常适合运行大模型算法的。
我相信运行一个几百亿参数的大模型,最好的架构一定是存算一体的架构,因为它避免了所有的数据的搬运。过去为什么我们没有做出存算一体的架构?其实也是因为过去都是分治法。它其实不太需要在存储单元里边进行计算。但当你去认真地研究怎么在存储单元里做计算的时候,这件事情我相信几年下来就会有很大的突破。
我其实是很相信仿生的。无论从大模型、还是像存算一体的芯片算法和硬件的发展,其实都是在朝一个仿生的方向在走。那观察人脑的时候不难发现,其实脑子不只是在存储知识,不只是在推理,脑子还在每一次推理的过程中间训练自己,所以它本质上是一个存算训一体的东西。
但今天的芯片在不停搬运数据的时候,其实我是没有功夫再去修改这个模型的参数的,因为我所有的功夫已经花在把那800亿个参数搬来搬去上面了。所以我没有功夫再去操心说怎么调整一下参数,让它变得更好。但一旦出现存算一体的芯片,也就是那些参数再也不搬了,然后每次推理就是走一遍的时候,我是不是空出的脑子就可以利用积累的知识来更新一下模型的参数。
所以,我相信在存算一体的芯片上,一定会诞生新一代的、不再是Transformer的全新算法,而这一代全新的算法可能会超越存算的界限,可能会一边运行一边进化自己,但这也是个非常恐怖的事情。

大模型+机器人,能否成为未来爆款?

阳萌或许是我接触过的最懂技术的CEO:他是北大本科,也读了机器学习的研究生,但博士读了一半就跑了;他是百亿营收大厂安克创新的创始人兼CEO,也曾在谷歌做搜索算法的研发;他的公司主要做的是充电宝、扫地机器人这些消费类电子产品,但我们聊的是人工智能、芯片等等硬科技。
我们聊了接近两个小时,我梳理了他们对谈的全部内容,一共有两篇,第一篇在这里。本文是第二篇,我们讨论了AI的落地、应用、为何阳萌和安克会对AI有这么深入的思考,以及安克在AI时代的定位和人才需求。内容很长,但相信肯定会对你有所启发
以下内容来自阳萌的叙述,当中 「我」,都指阳萌。

AI落地的困境

由于我自己的机器学习背景,安克算是大模型落地应用最“激进”的公司之一。比如我们一天的几万封邮件里,已经有40%的邮件是完全由大模型基于知识库加agent来独立回复的。但是,这个过程里面我们也感觉到了很大的瓶颈
具体来说,就是今天的大模型可以看成是一个被训练得特别好的大学生,但是它对你的领域知识一无所知。换句话说,如果要真正解决每个人的问题,一定要把领域知识真正有效地结合进大模型里,而这个就成了阻碍大模型更大规模应用的最关键问题。
我们自己分析问题的时候,喜欢把所有的选项摆在一根从左到右的轴上,然后找到极左和极右以及中间的可能的选项。
这个问题中,极左是最激进的选项,即重新训练,也就是拿你的数据、再加一些别的数据,重新训练一个大模型;左边往中来一步,即微调,也就是用几百、几千条数据去 fine tuning 一个大模型。
再看右边:极右是叫关键词工程prompt engineering,本质就是写提示词;右边往中间,就是RAG(retrieval augmented generation),也就是在外面存一个知识库,每一次问题,就把知识库里相关的知识去搜索和提取出来,然后带着这些知识送进大模型,也就是大家经常说的few shots。
但是,除了这 4 个选项之外,就没有别的选项了吗?其实还有一个,就是把context做长,当context无限长时,理论上就可以把你所有的知识和记忆都prefill到context里,这样也实现了大模型和私域知识的结合,所以,这算是第 5 种解法。
那究竟哪一种是最有希望的解法呢?
首先,极左和极右都是会被很快扔掉的,因为你不可能要求一个公司或个人去重新训练大模型或微调。然后,提示词的信息量太少了,所以这种方案也不可行。这样留在桌子上的只有长context和 RAG 这两个选项。
学术界有两派观点,一派人认为是RAG,一派人认为是长上下文(long context)。有趣的是,做深度学习的人好像偏向于用RAG,而以前做过搜索的人会偏向于用 long context 。也就是说,大家都选择了自己以前没干过的那一项,而选择了自己以前专业相反的那一项。
以我自己举例子,我以前做过搜索,我知道做搜索里有多少困难。搜索本质上是用分治法去解决问题的,要分词、建索引,然后来了一个词之后要去召回,还要排序,是个非常复杂的过程。Google当年有一千个人的团队做搜索,还有很多地方不够用。所以,我也会下意识地认为 RAG 这条路是走不通的。
我认为最后会走一个仿生的方法,像人脑一样,也就是真正的有一个足够长的 context 。前不久Google发了一篇文章叫infinite transform,也就是说不用把 context 做太长,可以把以前需要被扔掉的token做一次深度压缩,然后依然保存在上下文里。这样上下文经过压缩之后,就能够存下足够多的知识和记忆。
比如从今天开始,你在数字世界和现实世界看过的、听过的和做过的所有事情都能被文本文化或者视频化,然后被 prefill 到 context 里。也就是说,大模型能有你的知识和记忆,再加上它极强的通用的推理能力。就有点类似于在哈利波特里,可以从脑子里提取记忆,然后把它们保存起来。
我有一次跟手机厂的朋友们聊天,就说到手机其实特别适合干这个,因为对于绝大多数人来说,他的现实生活和他的数字生活大部分都发生在一个手机里。
换句话说,是否可能在手机上部署一个传感器,把我们所有看过的、去过的、干过的、听过的、说过的都记录下来,在本地产生一个 context 。所以真正的问题或许是,你是愿意这个 context 保存在你手机本地,还是上传到云端?
对于我来说,我赞成立法禁止能够持续不断地去净化自己的模型存算训一体模型,这种模型太恐怖了,因为我们完全没有办法去预知、甚至管控它们朝什么方向进化。
虽然从理论上推导,未来一定会出现这个模型,但是我希望立法禁止。今天大模型被训练出来之后,还要花了好几个月时间去做各种对齐,并且消除掉它的攻击性和破坏性。然而一旦出现一个能不断自我进化的模型,请问怎么能对它做有效的管控和对齐?
我赞成的是,一个稳定高效的、被训练好就不动的模型部署在端侧,它可以记录我所有知识和记忆的上下文。但需要注意的是,这个上下文一定不能跑到云端,它只能存在于我的端侧。
就像哈利波特里保存记忆的小玻璃瓶,要紧紧地收起来,不能给别人。

大模型+机器人,能否成为未来的爆款?

我们可以先对这个问题做个抽象。
首先,每一个你身边有名字的物体和人,我们把它叫一个「对象」,比如你有朋友、父母、同事、甚至宠物,都是对象。除了对象,还有一层叫「角色」,比如你的助理、朋友、爱人,都是一个角色。
之所以要区分对象和角色,是因为对象其实可能从一个角色开始,并能逐步够扮演多个角色。比如ta以前可能是你的助理,后来你觉得聊得挺好,他就开始变成你朋友的角色。然后你发现你们聊得越来越多,你开始跟ta陷入一种情感的状态,ta就开始承担恋人的角色了。所以,同样一个对象,在逐步的发展过程中承担了几个不同的角色。
其实我刚刚讲的就是《HER》 这部电影,非常推荐去看一下。
今天的GPT其实是一个对象。它今天肯定在扮演你助理的角色,比如回答问题、查资料、写东西等等。今天的 GPT 其实还不太能跟你聊好天,但假定它变得好玩了,它就变成你朋友的角色了。然后如果再往前,你们聊得很多,可能角色还会新增...
话说回来,在这个抽象的基础上,我们对未来的假设是,一定不会有一个超强人工智能,把所有的角色都在一个对象上承担掉。
我们的生活其实是跟很多对象在交互的。但如果今天有个超强人工智能,一个“人”就能把这些对象所承担的角色都取代,然后变成你只和它交互,你会不会觉得很恐怖?这意味着你生活里太多的空间,被一个对象占据。但很多时候你希望不同的对象之间是有区隔的,比如说,你跟助理聊的很多东西,不一定希望让你的爱人知道...
所以未来我会觉得有很多个不同的人工智能体,有很多不同的对象去扮演不同的角色。映射到机器人这个领域,我觉得也是一样,未来不会只有一个机器人帮你解决所有的问题,而应该有不同的机器人去解决不同的问题。
比如假设你的家庭生活里有两个角色,一个叫保姆阿姨,一个是宠物。阿姨帮你洗衣做饭、打扫卫生,所以这个角色会出现一些机器人的对象出来。宠物同理,不论是狗还是猫,这个角色也会出现一些机器人的对象出来。
然后还有一种,叫孩子。孩子和宠物都有陪伴的属性,但孩子有更多的成长属性。所以未来是不是也会有养成类的机器人去扮演一个孩子的角色呢?
所以我们最起码识别到了 3 类机器人,服务机器人、陪伴机器人和陪伴+成长机器人,但如果这三类机器人合成一个实体,应该会非常奇怪,所以我觉得最起码这里面有三种不同的机会。

大模型加持的机器人,有什么不同?

传统的机器人都是用分治法加数理逻辑、数理模型控制的,而新的机器人一定是端到端的算法来控制的。今年谷歌新发的论文,他们已经把模型分化成了大脑层和小脑层。大脑层是一个超大参数的模型,它的计算的频率其实很低,每秒钟可能就一两次,它核心是做出意图和决策。
而小脑层其实可能就是一个很小的几百兆参数的模型,它每秒钟都运行很多次,而它核心是维持你的运动、并且针对环境做出响应。所以未来在一个大脑和小脑的两层模型共同支配的机器人上面,其实能做到今天很多传统模型机器人做不到的事情。
更准确的说,未来可能会是三层,对应大脑,小脑加一定数量的反射弧。

成本,影响未来智能机器人消费选择?

另外一个问题是,对于特别简单的任务和角色,是不是不用分化出大小脑的差别?我想从成本的角度看这个问题。
成本现在也是限制大家考虑消费级人工智能或机器人的一个重要因素。现在很多人的心态是,可以接受花30万买一辆车,汽车在某种意义上也是一种机器人。但是,如果花30万买一个人形机器人放在家里,可能绝大多数人还没办法接受。
如果今天一套大小脑的硬件加算法需要花费到几百几千美金,那大概率我们不会在一个扫地机器人上装这一套复杂的大小脑系统。其实,今天最顶级的扫地机器人,整个芯片的成本也就是小几百块人民币而已,也就是说,它其实用不起很贵的算力。但反过来讲,如果这个大小脑的软硬件系统的成本降到了小几百块钱,为什么不用呢?
我特别相信未来的世界里一定会有多种不同的机器人,并承担不同的角色。而且即使是同样的一个角色,比如家里的保姆,我觉得也不会完全只由人形机器人来替代。譬如家里其实有很多的活要干,除开扫地之外,还有洗衣服,买菜、做饭、带小孩……那难道家里要买两三个人形机器人去做这些不同的事情吗?可能是一个人形机器人,搭上几个相对简单的、擅长专业领域的机器人,就把家里的所有事干了,那样我相信是会更经济的。

安克为什么会思考人工智能的未来发展?

很多人了解安克是从充电产品、充电宝或者充电器开始的,但其实今天充电宝的销售额占安克总销售额不到10%了。我们有三个大的方向,首先是“电”,比如数码充电,包括充电宝、充电器这些;然后是移动储能,可以理解是大的电池;然后还有刚刚在北美发布的户用储能。
我们的第二个产业方向是“影音”,比如蓝牙耳机、音箱、会议设备,投影这四个品类。
第三个品类是“智能家居”,目前主要包括安防和清洁这两个品类。在欧美的安防市场,比如家里装的摄像头,门铃、门锁这些品类里,安克已经做到了高端市场的第一名,400美金以上的消费级安防监控系统中,40%左右的市场份额是我们的。
今天的安克有超过2000个研发和工程师,包括约1000个软件工程师,100 个算法工程师,300个APP和云端工程师,300个嵌入式工程师,以及100多个it系统的开发工程师。
大的科技公司分两类,一类是专注做好非常少数超级品类的科技公司,像苹果和OPPO, 另外一类是像我们这样的、要做好很多个细分品类的科技公司。再打开看的话,你发现其实这两类公司底层都是有一点像的,就是我们都需要很深厚的技术积累。
拿算法举例,我们差不多有100个算法工程师,所以在无论是深度学习,大模型的应用,还是在一些特别领域比如声音,都离不开算法的支持。我们现在用的麦克风,背后的声音算法是一个三四十个人的声音团队做的,里面技术细节很多,包括回声抑制、噪音消除、人声增强等等,实现的过程也很有意思。
以前大家都是用分治法解决问题的,本质上还是多个小模型的结合。那从底层来看,是不是可以用一个大模型解决所有的问题?没有人这么干过,学术论文好像也没有。于是我们就用了一两年,通过一个大模型,解决了所有的这些降噪和声音增强等问题,实现了很好的效果。所以今年这套模型会部署到我们的各种产品上面,我们内部评测下来,各项指标都能碾压世界上所有最好的同行。
这不是传统的语言大模型,而是我们自己训练的、针对音频这个领域的一个 all in one 的大模型。

安克如何使用大模型?

首先,安克有很多应用场景,无论从安防还是清洁,还是更复杂的任务,我们相信都需要有非常强的大模型支撑,但最好不是很多个不同的模型。我们认为,未来大概率是“一条流水线”加“两三个基座模型”。
所谓一条流水线,就是收集数据,清洗数据、标记数据,训练模型、评估模型,做数据闭环,这是一条模型和数据流水线。在流水线上我们希望能够产生两到三个基座,也就是能拿来解决各种不同应用问题的模型。
我们相信,在大模型的加持下,很多品类要么值得被重新做一遍,要么创造出全新形态的产品。所以,其实我觉得未来的十年会是硬件领域创业最黄金的十年。对我们来讲,要先做好流水线和底座模型,能够快速地应用到各个不同领域里,相信对每一个领域都能给客户创造出非常有价值的产品。

每个领域都要新做一个模型?

这样肯定是不够有效率的,如果今天能把很多共性的东西抽象到一个底层的平台上,比如抽象到我刚说的一个流水线和几个基座模型上,基于这个平台再去快速地赋能到不同的细分品类,它的整体的效率会更高,这也是我们今天做细分品类的逻辑。
如果在很多个细分品类都要做出高创新度的产品,就需要有一层非常强的赋能层,要能够嫁接很多有创造力的人,愿意在某个技术或、产品品类、或者愿意在某一个市场、某个国家去创造。然后平台和这些创造者相互作用,就能高效的在很多细分品类把大模型等先进技术应用起来,然后做出真正极具创新的、开拓性的产品。
我们描绘的是一种平台和创造者们相互成就、在很多细分品类做出真正的有创造力的产品,然后获得商业成功的画面,我们内部叫“土壤肥沃,花团锦簇”。我们花了很多时间去打造肥沃的土壤,同时也希望能够吸引更好的创造者。

优秀创造者的关键品质

很多极具创造力的人,其实都有相同的底层特质。
第一,就是有特别强的「第一性」思维。他们敢于抛开今天人们习以为常的东西和表面事实,敢于回归到基础原理上,真正通过推导构建系统并发现突破的关键,总结起来就是:抛开表面事实,回归基础原理,找到突破关键。
举个例子:马斯克当年造电动车的时候,大家都说不可能,因为电池就要花5万美金,实在太贵了,造出来的车会没人买。如果他当时被这个表面事实吓退了,今天就不会存在特斯拉了。马斯克从第一性原理出发,去追问电池卖5万美金底层的原因,最后发现产品的价格等于原材料成本,加上加工制造的费用,加上制造商的利润,这是基础原理。然后再从里面找突破关键,他发现其实原材料的成本只有5000美金,而加工制造费用和利润有45000美金。也就是说,如果能够通过足够的垂直整合,把规模拉大,从而把45000美金降低到5000美金的话,是不是电动车就可以做了?这就是一个我觉得抛开了表面事实,回到了基础原理里面去找到突破关键的例子。
你会发现第一性原理找到的方向往往是没有人走过、甚至可能有人走过已经死了的方向,所以这时还要有胆量、有决心、有勇气去走这条路。这是我们的第二个价值观「求极致」, 也就是敢于顶着风险想尽办法去追求一个长期的全局最优。
同样用马斯克的例子,虽然他觉得电动车的逻辑是成立的,但是他仍然花了15年,熬过了好几次可能破产的经历,才把第一性的方向实现出来。对于我们也是这样,今天的安克可能不用愁生存,我们哪怕有几次失败也不会死。所以我和同事说,大家一定要敢于去求极致。
组织越大,大家就越容易待在舒适区里,所以要通过价值观去指引和塑造正确的方向。第一性,帮助找到正确的方向;求极致,敢于脱离大部队往前走。最后第三条我们叫「共成长」,它本质上包含了几项:首先是长期主义,因为第一性和求极致一定是要很长时间才能完成的,如果没有长期主义的话,这条路径是走不下去的;其次是持续学习、自我觉察和自我进化。
长期主义里很重要的一条叫终局思维,就是我们要看清未来的局面,指引当下的选择。看清那条路,坚定地走,不要管别人怎么说。还有一条也很关键,叫延迟满足,就是你敢于为了更大的长期利益而去放弃当下的短期利益。有些人是缺两条、有些人缺一条,但无论你缺哪一条,都不能算作是真正的长期主义。
客观地讲,其实有这样价值观的人是非常少的,把他们放在一个价值观不同的环境里也是很难受、很痛苦的。我认为,有这些价值观的人其实也想寻找同样价值观的人群,寻找有同样价值观的环境。
我相信老石的关注者里有很多和我们相同价值观的朋友,所以我也想向你们发出邀请,来安克这样一个真正高价值观的地方,创造价值、有所收获。我们有个总结叫有机会、有成长、有回报、有意义。安克有很多机会,这些机会能给你带来真正的成长,然后一定会有回报,会赚到钱。最后的话,我们在一起创造了很了不起、很突破的东西,我们也会因此有很强的意义感。

信息来源: