当前位置:首页 > 灵芝
“GPT-4去年训练完,GPT-4.5差不多准备好了,GPT-5正在做”_3

来源:搜你想要的 点击数: 时间:03-18

·“OpenAI三位高管都对这个世界有比较强烈的主张,而且整个机构有信仰和方向感、定力。方法论是坚持暴力美学和系统主义,文化是把AI做成产品,而不是技术。人才观很简单,就是能动手的研究员,精通算法的工程师。”

·“我们当时和他们交流的时候,他们觉得GPT-3.5是他们60分的产品,GPT-4和GPT-4.5可能是80分或100分,他们自己则在做120分的事情。”

“GPT-4是去年8月训练完的,GPT-4.5差不多也应该准备好了,他们现在应该在做GPT-5。我们当时在硅谷和OpenAI的人交流时,他们觉得GPT-3.5、ChatGPT是他们60分的产品,GPT-4和GPT-4.5可能是80分或100分,他们自己在做120分的事情。我们之前还一直都瞄着ChatGPT去做,所以还是需要加紧追赶的步伐。”3月15日,北京智源人工智能研究院健康计算研究中心技术负责人黄文灏在“未来已来”GPT与AGI人工智能论坛上谈到在硅谷的见闻。

黄文灏认为,OpenAI现在拥有的一些核心能力,比如可以预测未来模型能到什么样的水平,比如怎么把视觉和语言用统一的方法表示,或者怎么同时用1万张卡做训练,这些是目前中国研发团队还很缺乏的能力。

微软人工智能与IoT总监李冕(Stanley Li)在论坛上透露,微软专门为OpenAI构建了技术架构,“我们大概用了1万张V100显卡、二十几万颗CPU基础的算力做调度,组合成一台超级计算机。”

GPT-4最值得关注的更新

北京智源人工智能研究院健康计算研究中心技术负责人黄文灏。

黄文灏(北京智源人工智能研究院健康计算研究中心技术负责人):第一是多模态理解能力,我们会看到它在部分场景zero-shot(零样本学习)的能力超过了之前的SOTA(State-of-the-art,目前最高水平),这在图片和文字领域是比较重大的突破。

第二是把图片和文字用相似的方式进行输入,这在搜索领域是比较重要的突破,未来模型有做得更大的可能性。

第三,比较重要的是上下文窗口,我之前看到生成回答的文本长度可以达到32000个Token(每1000个Token约为750个单词),这也是比较重要的突破。之前GPT大概是4000的长度,这个需要有6倍的算力。

第四是推理能力强大,律师职业资格考试可以考到前10%,之前GPT-3.5大概是后10%。美国生物学的奥赛大概能做到前1%的水平。现在在ChatGPT PLUS试用时,可能体感没有特别明显,因为我们使用GPT-3.5或ChatGPT的任务,还没有到特别复杂的程度。但是实际上,GPT-4处理复杂任务的能力会得到大幅提升。一位比较著名的研究员在Twitter上写,大家觉得GPT-4的重要程度可能会比GPT-3更高,因为GPT-3告诉大家一个模型可以做多个任务,但是GPT-4告诉大家模型在很多能力上已经可以和人类相媲美或超过人类了。

第五,这个我之前跟OpenAI的人聊的时候大概也知道,他们可以预测模型的部分能力。这其实是一个很重要的事情,也就是说参数量和数据量在增大的过程中,OpenAI可以用很小的参数、很少的数据知道,在把数据加到多大以后,loss(现实问题抽象成类凸优化问题后,函数的最小值)会怎么走,这个对训练模型有很大意义,而且数据和计算能力都可以有3-4个数量级的提升,大家都觉得未来的模型能力还会有很大提升。

第六,OpenAI的人说他们实现了整个深度学习的技术栈,设计了一个超级计算机,大概1万张卡可以出一个模型。他们用的卡会更多,这样可以保证在训练模型的过程中非常稳定。我自己也在做相关模型的训练,在到几千张卡的时候,保证计算稳定性是很难的事情,loss经常会爆炸(在机器学习和深度学习中,loss爆炸指在训练或者预测过程中出现的损失值或者验证损失值异常大的情况。——注解来自文心一言)。但OpenAI说训练GPT-4的时候非常稳定,基本上没有出现loss波动的情况。

第七,多语言能力会比较强大,OpenAI的模型里其他语言会非常少,包括中文占比只是个位数。但是它在中文上的测试表现比其他模型英文的测试表现还好,这是很大的突破。

OpenAI模型的视频能力

黄文灏:其实OpenAI即使现在解决了语言模型的问题,可能语言模型做得很好,但并没有能很好地处理视频,因为现在都是用抽关键值、把它变成图片的方式解决。这里可能会有很大的机会。而且我个人觉得做视频的数据可能会需要一些不一样的网络结构,所以它不一定能很好地把视频的数据处理好。

GPT-4能给人们提供哪些方面的帮助?

微软人工智能与IoT总监李冕(Stanley Li)。

李冕(微软人工智能与IoT总监):有四个方面。第一是生成内容的能力。

第二,经常会忽略的一点是它的总结能力。比如科研团队经常需要看论文,无论是基础的论文如数学、科技领域,或是比较实用的像药物开发、研发等领域,很多论文都是英文,而且很长,某种程度上看论文的速度也决定了知识吸收速度。但可以把这个论文导进去,让它总结出点,包括主动查询,想找这个文章里的什么信息。这是它非常强的总结能力。

第三是写代码,所有程序员、开发员都可以用Codex方式写代码,极快加速开发周期。

最后是搜索,从最开始的简单搜索到现在基于语义搜索,直接跟它对话,把搜索结果用更圆润的表达生成段落的文章。

这四点之外有没有更创新的能力?我们目前还在找。

OpenAI的思路:暴力美学和系统主义

黄文灏:ChatGPT或者说OpenAI整个模式基本上是围绕一个思路。首先要有大量数据,其次是很大的算力集群,对外披露是说用了2.5万张显卡,实际我们了解到的应该是2.8-2.9万张。OpenAI非常厉害的地方在于他们坚持ChatGPT的技术路线,从GPT-1、GPT-2到GPT-3、GPT-3.5,最后做成一个大模型,我们把它总结成暴力美学和系统主义。

OpenAI的办公室。

很多做研究的人认为GPT没有太多研究上的创新,包括一些人认为这实际上是一个工程。我们可以同意这个观点,但现在这个时候把工程工作做好比发一些很好的paper,或者做一些研究上的创新重要很多。

我个人认为,现在这套思路非常重要,甚至比前面几次人工智能的浪潮更加重要,和前面的互联网和移动互联网对比,它带来的AGI(通用人工智能)的想象可能性比之前更大。

OpenAI团队为何如此强大?

黄文灏:我觉得他们非常强。我去之前已经觉得他们会比国内的研究团队强很多,但是交流下来觉得这个差距可能更加大。首先,他们的三个领军人物都是非常偏执的人,Sam(萨姆·奥特曼)是OpenAI的CEO,但他其实没有一分钱股份,这个在国内是比较难做到的事情。Ilyia(伊利亚·苏茨克沃,OpenAI联合创始人兼首席科学家)只有研究的费用。我看了Ilyia之前的演讲,他在2014年已经基本给出了OpenAI做GPT的想法。Greg(格雷格·布罗克曼,OpenAI总裁)据说之前已经财务自由了,但他一周会工作90个小时,OpenAI大部分代码都是他一个人写的。所以他们三个人都对这个世界有比较强烈的主张,而且整个机构有信仰和方向感、定力。

OpenAI高层,从左到右为首席执行官山姆·奥特曼、首席技术官米拉·穆拉蒂、总裁格雷格·布罗克曼、首席科学家伊利亚·苏茨克沃。图片来源:Jim Wilson

我跟OpenAI的人聊,大家都很坚信AGI很快会到来。方法论是坚持暴力美学和系统主义,文化是把AI做成产品,而不是技术,他们一直在持续迭代产品。这其实是一个很重要的不同,因为很多人做研究的目标还是发论文,有代表作,但OpenAI不太在意论文,现在基本不发论文。

他们的人才观很简单,就是能动手的研究员,精通算法的工程师。在那边做研究员和工程师没有区别,优秀的研究院、包括从Google过去的人在面试的时候,OpenAI会要求他们有很好的paper,要求他们在第一轮写一个前端的实践,第二轮写优化,而且他们都能写得不错。

执行力方面,他们内部所有人都很确认AGI这件事,而且每个人都很努力。他们跟我们讲了一个情况,比如有一个任务,原来定在周三是最后时间点,但是组里其他人都在周一超前完成了,那么下一个人就必须加班在周二把这个事情做完,所有人都把时间线往前推。

他们有强大的资源支持,现在有接近3万张GPU。我跟里面的研究人员交流,他们随便写一个程序就用两千张卡,ChatGPT每月运行成本也接近1亿美元。他们在数据量投入大量资金,数据标注投入数千万美元,2022年算力和数据就花了4亿多美元,这个其实是一个很大的投入。

微软为OpenAI提供了什么资源?

李冕:如果要训练一个GPT-3,即ChatGPT的底座模型——1750亿个参数的模型。如果用英伟达的Tesla V100显卡来算,大概要花355个GPU年(一块GPU运行355年的运算量)的时间训练一次,跑一次的花费接近400多万美元,这是英伟达给OpenAI的特价。如果模型更大一点或者更小一点,或者组织更好一点,调度更好一点,这个价格可以更低,但是整体的成本是这样,这是目前的资金门槛。

我们大概用了1万张V100显卡、二十几万颗CPU基础的算力做调度,组合成一台超级计算机。这个是专门为OpenAI构建的技术架构,大规模、可靠性,就是要算得好、算得可靠,以及在内部网络环境、内部存储吞吐等的长期优化。这些我们跟OpenAI单独有一个集群,帮它做训练。

国内的差距在哪里?

黄文灏:差距比较大的一个是算力方面,OpenAI的卡很多,但是我们现在只能买H800这样的显卡来做事情,算力上差距很明显。第二是在数据集上,国内的数据集质量普遍偏低,这也会是一个瓶颈。在顶级人才资源上,因为做大模型不需要特别多的人,但是需要人的能力非常强。国内创新和工程能力兼具的人才很少,发论文很强,但动手能力比较弱。而且国内没有像OpenAI建立真实数据和模型迭代的数据飞轮(量产数据、数据驱动的算法以及两者闭环自动化的不断积累和迭代)。

我们同时也看到,技术壁垒没有那么大,只要我们有充足的资源和算力,我相信国内会有些顶级的人才把这个事情做成。但这需要大家有定力,坚持下去。而且OpenAI的市场垄断也没有完全形成,所以我们还是有机会,但是这个窗口期非常短。GPT-4是去年8月训练完的,GPT4.5差不多也应该准备好了,他们现在应该在做GPT-5。我们当时和他们交流的时候,他们觉得GPT-3.5是他们60分的产品,GPT-4和GPT-4.5可能是80分或100分,他们自己则在做120分的事情。我们之前还一直都瞄着ChatGPT去做,所以还是要加紧追赶的步伐。

“做中国的OpenAI”的路径

黄文灏:我觉得可能分成几类。

第一类是看到Language as a new interface(自然语言作为新的交互方式),这个事情很早就提出来了,但当时的技术能力并没有达到用户需求的下限。现在明显技术上限已经超过了用户需求的下限,所以我们有很多的想象力。大家会觉得互联网或移动互联网做过的事情,特别是UI(用户交互)做过的事情都可以重新做一遍。

第二个是生产力工具方面,提高大家的生产力。这两块想做的人比较多。

第三类是做模型,很多人看到了语言模型的机会。为什么OpenAI先做语言?其实有一些依据,一个是说语言是知识蒸馏的产物,是人脑思维后的结果,维特根斯坦曾说,语言的边界是世界的边界。我们最早提出语言不是全部,语言可以跟模态结合,GPT-4发布的时候我们也看到,未来要做更强大的foundation medel(基础模型)。在中国真正想做OpenAI的人没有特别多,OpenAI是一个坚持梦想的研究机构,而且从始至终都有很好的philosophy(哲学)。

最后是实现AGI的路径,我认为这个路径是多样化的,现在有一条路,但是这条路不一定是唯一的路,或者是正确的路,我们其实还是会有机会。

人形机器人也是未来很重要的方向,现在的大模型还是虚拟助手,而真实世界的机器人是AGI非常重要的部分。前段时间Google的论文也给大家很大的想象空间,大模型和机器人结合,未来真正能在现实世界里帮助人们完成很多任务。

“快速的路”与“正确的路”

黄文灏:现在国内很多人都在做ChatGPT,或者说大规模的语言模型。一些大家发出来的DEMO、系统,看这些模型能力也还可以,我自己打分可能是60-80分的ChatGPT水平。但是大家走的可能都是比较快速的路,可能真正正确的路还是我们要拥有一些很重要的能力,比如他们可以预测未来模型能达到什么样的水平,比如怎么能把视觉和语言用统一的方法表示,或者怎么同时用1万张卡做训练,这是国内很缺乏的能力。快速的路其实不怎么花成本,也能做到不错的水平,但要走正确的路,可能只提升了最后的20%,但需要花大量的成本和时间,而且短时间内很难收回成本。是不是有很多人愿意做这个事情?

另外在基础方面,我们要想想下面的路,多模态大家都想到了,比如OpenAI做GPT-5要怎么做?或者我们也不一定完全跟随OpenAI的行动,而是自己要做的话怎么做?这是更加重要的东西。

最后我想说的是,其实做GPT-4也不难,做一个多模态的模型也很容易,但是中国真正需要的是,像OpenAI一样的研究机构去创造一些我们能看到通往AGI的可能性。有可能和OpenAI走一样的路,也有可能走不一样的路,这个其实才是真正难而正确的事。

未来有哪些机会?

黄文灏:我自己总结可能主要分成三个层面:

1.应用层。大家可能想把自己的数据,特别是应用层的数据建立壁垒,用一些现在已有模型的能力做这件事情。这会有几个不同的思路,一是做prompt engineering(人工智能通过文本提示生成想要的输出的技术)。第二是用ChatGPT,它提供了一些fine-tune(微调)服务。第三是外部数据库和知识库融合,这里的核心是要找到垂直场景和用户的痛点。我们可以找一些新的场景或新的先发优势把数据飞轮的闭环建立起来。

2.中间层。在推理部署、训练优化,特别是现在国产推理芯片、云厂商会有一些机会。这里面的核心是做大规模分布式,因为未来的技术可能是向模型越来越大的方向发展,消耗的资源也会越来越多。

3.模型层。国内这一阵非常热闹,大厂都在做,有的已经发了英雄帖组团开始做了。我跟他们有一些交流,现在大家要追赶的是ChatGPT,GPT-4出来以后,可能就是想尽快地追赶或复制GPT-4,但其实很少有人真正想去复制OpenAI。我们大家还是要找准定位和目标,第一种就是快速复制,占领中国市场;第二种就是目标定在AGI,我们可能要真正地和OpenAI,不一定打败它,至少要跟它竞争一下。

还有一个比较核心的点——打通这几层,一个人很难只专注于做一层的事情。比如训练模型的人肯定需要很高效的中间层,其实也需要应用层建立其数据飞轮的模式。

GPT-4之后,人类如何应对?

李冕:出现了GPT以后,我们整个人类需要打造的就是问问题的能力。你需要很精准地引导他表达出你需要的内容,它脑子里有千千万万的答案,但怎么引导它找到你想找的答案,这就是你的能力。

广告推介

最新发布

图文信息

最新视频

热门事件

资源共享