在春节开工后这一周,国内人工智能圈以及与Sora技术相关的大厂,对OpenAI公布Sora后的反应,与媒体上的热烈程度形成鲜明反差。
OpenAI越来越闭源,几乎没有任何具体信息,国内还处于拆盲盒阶段。不得不承认,Sora是算法组合、数据选择、训练策略、算力优化等多种能力的结合,虽然这些技术可能不是OpenAI的原创,但OpenAI对它们的深刻洞察,以及精巧的系统构思设计能力,才做出“颠覆性”突破,而非简单的蛮力。
在这样的大系统工程面前,国内人工智能圈还需要方方面面的补足。
01
大厂的反应
这一周,字节、百度、阿里、腾讯、华为、浪潮等企业未对外发声。一些相关大厂的研发团队则在“拆盲盒”,信息也*保密,“Sora将影响今年公司产品的研发计划。”
值得关注的是,对Sora的积极关注度和洞察程度,在大厂的中高层,总体不像去年ChatGPT推出后那么紧迫和深入。
在各大厂内网上,核心研发团队之外的“吃瓜群众”,在零星发帖讨论,“谈不上讨论热度”,甚至有国内人工智能大厂内网是“零贴”。这种状况与媒体上的热搜新闻,甚至对中 美AI差距加大的哀嚎,大相径庭。
不过,一些较快的动作,也能窥见业界的一些紧迫感。Sora发布第二天,2月17日,阿里摩搭社区推出对Sora技术路径的分析,文章很热;2月18日,百度的度学堂推出Sora系列解读课程;春节后刚开工,浪潮相关业务已对Sora给出分析报告。不少大厂相关业务线纷纷布置调研汇报作业,其中有些企业将在本周做出Sora分析调研。
由于OpenAI透露的信息很少,与ChatGPT推出后,对技术的一些具体分析不同,对Sora的分析猜测成分更多,具体依据更少。
从各大厂内部的员工讨论看,大家集中在几个方向:Sora的技术机理,包括Sora能不能成为真实世界的模拟器;算力;商用方向和时间。目前,技术机理还有不少”谜团“;对算力消耗的推测也较混乱;在Sora商用时间上,预测从一个月到半年不等,普遍认为速度会很快。
有大厂员工发文分析,从OpenAI的动作,包括发布Sora、ChatGPT、DALLE以及一直强调的agent看,今年下半年OpenAI可能发布的GPT5,将是*版真正意义的Agent。有了这个Agent,比如未来要做一个App,GPT5可自动生成代码、图片、视频、打包部署,包括申请、配置域名,最终生成可访问的App。这些推测也预示着,每位员工未来的工作方式正在被重塑。
虽然大厂论坛鲜有对技术差距的哀嚎,但员工在交流中都有抱怨和无奈。不过,也有人士认为,Sora反而对国内AI超级有利,原因是在全球短视频市场上,字节、腾讯、快手占前三,而Sora原理基础大家也都知道,以国内现有的GPU算力,推测“快的话一年”,国内将有类似产品推出。
02
OpenAI不靠蛮力
业界都关注到,Sora 的惊艳效果得益于新的算法组合和训练策略。然而,类似ChatGPT,单纯从具体算法来说,都不是 OpenAI的原创。
“Sora 在算法组织和数据训练策略上下了很大功夫,充分挖掘了算法和数据的潜力,学到更深层知识。”云知声董事长梁家恩说,通过架构设计和训练策略,而非单纯算法改进,OpenAI 继续刷新了业界的认知。这体现了OpenAI对算法和数据潜力的深刻洞察,以及精巧的系统构思设计能力,而非简单使用“蛮力”,才能做出这种“颠覆性”的突破。
在Sora官宣后,纽约大学谢赛宁对其进行了技术推测。由于谢赛宁与Sora团队关系较近,他的推测影响很广,尤其是他猜测“Sora参数可能是30亿”。
一些人士认为30亿参数有一定道理。一位资深人士分析,Sora生成的视频效果惊艳,但细节问题较多,应该是OpenAI拿出来先秀肌肉的,OpenAI会进一步扩展模型;另一位资深人士则从算力角度直观分析,视频是三维的,单位处理需要的算力非常大,如果Sora参数太大,算力会不够。
不过,也有一些行业人士认为“不止30亿”。
“30亿参数,我认为是有误导性的。”一位短视频人工智能资深人士告诉数智前线,“Sora背后依赖了OpenAI最强大的语言模型来生成Caption(字幕、说明文字)。”而在Sora提供的技术报告中,简要描述了,他们针对视频如何设计自动化技术,生成文本描述,或将简短的用户提示转换为更长的详细描述,用来提高视频的整体质量。
而从OpenAI一直在摸索人工智能边界的风格来看,一些人士也认为,30亿太小了。“这不符合它一贯的做法,他们都是‘大力出奇迹’。”中科深智CTO宋健对数智前线说,实际上,理论上已指明了道路,有不少企业也去尝试了,目前来看,真正意义上能执行下去的只有Sora。
一位浪潮人士称,Sora的突破再次证明了AI是一个系统工程,单纯静态的推测参数可能没有意义。
在视频生成上,过去大家的困难在于,很难保持视频的连贯性或一致性,因为中间有很多反常识的东西,如光影不对、空间变形,所以业界搞不定长视频。
“OpenAI 最终是否采用了更大规模的参数,根据目前公开信息还无法判断,但我估计以他们风格肯定会尝试的。”梁家恩说,此前,OpenAI 从 GPT2 做到 GPT3 时,就是坚信只要算法架构合理,通过超大规模的无监督学习,是可以通过小样本甚至零样本学习,击败有监督学习,这是 OpenAI 对规模效应的坚定信念。“这次Sora通过算法组合和数据设计,学到更多符合物理规律的‘知识’,符合 OpenAI 这些年来的一贯风格。”
不过,Sora尚不能称为一个合格的物理世界的模拟器。在它生成的视频中,存在大量错误。OpenAI自己也在技术报告中提出,这是一个有希望的方向。
人们对Sora的需求不同。“如果你现在做数字孪生,还不如直接用物理引擎作为底层来构建,就像英伟达的Omniverse,虽然不完全是物理的,但已经很精确了。”宋健说,“但对于视觉艺术来讲,讲的是视觉感受力,反物理也没关系,只要视觉上给大家足够好的冲击力就可以。”
03
算力猜想
“现在大家对算力的推测非常混乱。”一位英伟达人士告诉数智前线。由于OpenAI这次公布的信息非常少,业界很难评估。
“视觉模型或多模态模型跟大语言模型算力的评估方式不太一样。”一位人工智能算力资深人士告诉数智前线,即便Sora可能只有几十亿参数,其算力与几百亿或上千亿的大语言模型估计差不多。
他进一步分析,可以参考文生图模型Stable Diffusion,参数大概只有10亿,但训练算力用了几十台服务器,花了将近一个月时间。他估计Sora的训练算力可能比前者至少大一个数量级,也就是数百台服务器,而后面OpenAI肯定会进一步去做scaling,把Sora模型做的更大。
另一方面,这种模型的推理算力也比大语言要大很多,有数据曾显示,Stable Diffusion的推理算力消耗,与Llama 70b(700亿)参数模型差不多。也就是说,推理算力上,一个10亿的文生图模型,与千亿量级的大语言模型差不多。而Sora这种视频生成模型的推理算力,肯定比图片生成模型还要大很多。
“文本是一维的,视频是三维的,视频的单位计算量大很多。”一位人工智能专家告诉数智前线,他认为需要大几千卡才有机会。
由于Sora推动的文生视频方向的发展,今年国内算力总体仍会非常紧张。有算力基础设施企业人士称,在人工智能算力上,北美几家巨头的算力,现在已是国内总算力的十几倍,甚至还要更多。
但在某些局部上,国内算力已经出现了闲置。这包含了几种情况,比如一些去年上半年开始训练大模型的企业,放弃开发大模型或改为使用开源模型;去年大语言模型的落地应用遭遇挑战,还没有大量的推理应用落地,这些会导致一些企业出现几十台或几百台的空闲。
宋健也发现了局部算力闲置的问题。他观察,尤其是2023年11月份左右开始,算力的租赁变得容易,而且价格可能是原来的2/3甚至1/2。
【本文由投资界合作伙伴微信公众号:数智前线授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。