备受关注的中国版Sora视频模型快手可灵,即将迎来新的对手。
7月16日消息,钛媒体AGI获悉,字节跳动团队将会在7月19日(本周五)分享文生图、类sora新视频等全新人工智能(AI)模型技术进展,尤其在长视频、高动态方向上具备创新技术。
早前,“字节跳动开源”公众号发布消息称,其将在新加坡举办关于世界模型(World Models)探索的AI技术菁英论坛(ByteDance AI Luminary Talks)活动,字节跳动研究科学家周大权将会围绕“连续高动态的长视频生成方案”展开演讲。
一位消息人士对钛媒体App表示,字节跳动内部将 AI 大模型设为集团P0*别的方向。另一位消息人士则指出,除了上述研究团队之外,抖音、剪映等内部多个团队也在研发 AI 视频模型应用,预计将在近期公布。
而与此同时,国内唯二的短视频龙头快手在 AI 视频大模型领域进展迅速。继6月6日快手13周年发布并邀测可灵模型应用之后,7月6日,快手在世界人工智能大会(WAIC 2024)期间开源可图文生图大模型,以及免费上线可灵Web端。
快手透露,全球*用户可用的真实影像级视频生成大模型可灵平台申请用户数超过50万,开通用户数超过30万,生成视频数达700万以上。
这意味着,曾在互联网短视频平台领域对战的两家中国公司抖快(抖音/字节跳动、快手),如今则悄然展开着一场围绕中国*AI 视频大模型的新竞争。
01 中国两大短视频巨头转向人工智能
实际上,AI 是短视频平台中关系最为密切的底层技术。
“只有短视频平台业务,在没有机器学习的时候是不成立的。大家想象一下,大部分用户是不会因为一、两个你记得的短视频去打开一个APP的,打开APP一定是相当长一段时间的沉浸式体验,能带给非常多收获的感觉。所以,AI是(快手)业务的核心,没有AI技术,这个业务是不成立的。”快手高级副总裁、快手主站业务与社区科学负责人盖坤(快手于越)表示,相比电商、搜索等场景,短视频更需要 AI 技术加持。
而有趣的是,负责 AI 产品的盖坤曾在字节任职过。
实际上,过去10余年中国移动互联网时期下,从桌面、浏览器,到输入法、天气软件,都在寻找能够占领用户心智的下一个“微信”。然而,最终我们发现,能够与微信相提并论的产品是两款短视频直播产品——抖音和快手,当然这背后有5G、疫情等因素,但抖快确实已经成为国民应用级别产品,抖音日活用户超过6亿,快手日活用户则已经达到3.94亿(2024年Q1)。
2024年2月,继ChatGPT之后,OpenAI公布的Sora AI视频生成模型再度引爆全网,通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。
“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”OpenAI指出,Sora不只是视频生成模型,而是“世界模拟器”。
自今年5月起,达到类Sora级别的国内 AI 视频生成模型陆续公布,包括生数、智象未来(HiDream.ai)等。而就在6月6日,快手可灵 AI 视频生成模型开启邀测,整个生成效果直逼Sora,引发关注。
盖坤指出,快手的 AI 技术主要在短视频内容推荐、内容生产和内容理解三个层面进行应用布局,大模型时代落地的则是快手快意语言大模型、十万亿参数规模的推荐模型SIM、5月公布的可图文生图模型、6月发布的可灵 AI 视频模型等技术。
不仅是技术,快手也在商业化层面进行布局。盖坤表示,基于快意大模型构建的视频和直播脚本生成、广告搜索客服叠加数字人技术,使得AIGC日均消耗增长达到2000万。
相比于快手,由于企业暂未上市,导致抖音和字节跳动对于 AI 大模型的布局略显神秘。
过去一年多,随着 AI 大模型浪潮席卷国内外,字节跳动全面追赶,并对AI大模型进行模型层到应用层的全面布局。
其中,在基础大模型领域,2023年8月,该公司上线*大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案,面向公众开放。同时,字节跳动基础模型在语言和图像两种模态上均进行了布局,两个团队均向TikTok技术负责人朱文佳汇报。
在AI应用层,字节跳动已于去年11月成立新AI部门Flow,目前已推出三款AI对话类产品,包括豆包、扣子和Cici。其中,豆包为一款聊天机器人产品,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务。扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。
进入2024年,字节跳动加大产品研发速度,持续推出AI学习伙伴河马爱学、AI剧情互动产品猫箱、AI生图产品PicPci、多模态数字人产品以及AI生图、AI生视频产品等多款AI大模型领域产品。
同时,最新消息显示,字节跳动还在围绕AI硬件进行布局。其中一条产品线聚焦可穿戴AI设备,以刚刚被字节跳动收购的耳机品牌Oladance团队为基础进行探索;另一条产品线负责探索手持类AI设备,更接近对现有主流计算设备的AI化延展,成立更早,与AI应用团队Flow也更紧密。而且,字节跳动旗下剪映也在研发AI产品,名为即梦。
字节已布局的 AI 领域相关技术和产品
对于 AI 算力底层,之前字节跳动旗下火山引擎首次发布了自研的视频编解码芯片。字节跳动副总裁杨震原曾透露,公司无通用芯片商业计划,没有涉足CPU、GPU等通用芯片业务。
因此,整体来说,抖音/字节跳动和快手从底层研发,到产品和商业化层面都在布局 AI 大模型技术,希望在 AI 时代下抢得先机。但是,截至目前,暂未出现抖音利用 AI 大模型实现商业化的更多信息释出。
02 场景难通用,用 AI 赚钱的时代才刚刚开始
“过去一年,全行业都继续投入到生成式AI和大模型热潮当中,每家企业都在努力思考如何将 AI 融入业务,都深信 AI 将会成为未来技术创新和商业模式变革的核心,甚至有望带来比互联网更大的影响。但结果是,英伟达成为全球市值最高的公司,而期盼的 To C端 AI 杀手级原生应用迟迟没有出现。”
“乱翻书”主理人潘乱的这句话,打中了当下大模型热潮背后的隐忧与真实情况。
创新工场联合创始人汪华曾做过一个统计,中国实际上处于美国上半年*阶段的应用爆发前期。虽然最近大家看到很多产品在大量推广,用户量也在迅速增长,但是把所有应用加在一起,日活也不过就是 1000 万,中国有 12 亿网民;而美国 3 亿人口就有大几千万的日活,相比之下还有很大的差距。
这说明,虽然 AI 未来已来,但是模型的产品化还远远没有到来,甚至可以说是模型应用落地才刚刚开始。
“大家还是太焦虑了,大模型从开始到现在才一年多时间,整个的应用发展,本质上还是要随着模型的成熟和整个应用生态的构建逐渐发展。”汪华认为,ChatGPT 作为通用工具,用户平均时长是七八分钟,但我看过很多做社交娱乐的创业公司,他们的平均使用时长超过 150 分钟。推理成本只要降 10 倍,工具类的应用就可以做大体量免费。推理成本降得更低,高时长娱乐性的应用才能做到大体量免费,所以大用户量的工具,我觉得今年年底到明年年初就会实现。再往后是衣食住行,这类应用需要更高的模型性能,以及商业模式整合,从吃喝玩乐到衣食住行,这个时间周期大约在 3-4 年之内走完。
而作为抖音和快手这种短视频龙头来说,将 AI 技术“随风潜入夜,润物细无声”实现落地,这可能他们想要达到的*目的。
多位 AI 领域从业者向钛媒体App坦言,目前 AI 大模型技术更像是“文科生”,很难理解数学问题,所以其应用场景的范围非常有限,当前模型的*作用是提升效率的“生产力工具”。
很显然,用 AI 赚钱的时代才刚刚开始。
据麦肯锡最新发布的一份全球调查报告称,65%的受访者表示企业会经常使用生成式AI。这比10个月前的调查(33%)几乎翻了一番。其中,服务业对于 AI 技术的使用率增幅*。
同时,四分之三(75%)的受访者预测,生成式 AI 将在未来几年内为其行业带来重大或颠覆性的变化。
有熟悉字节的消息人士曾告诉钛媒体App,字节跳动内部对于 AI 模型的技术应用布局非常广泛,且存在一定的内部“优胜劣汰”竞争策略,多个团队加紧比拼当中。
盖坤则表示,快手希望坚定为用户做*的 AI 技术。
MiniMax创始人、CEO闫俊杰曾对钛媒体App表示,今年上半年,公司开始意识到,在一些偏生产力的场景里,“我们开始具备局部优势了”。至少三年后,国内才有可能出现“杀手级”AI应用。预计MiniMax* AI 视频应用将最快于8月推出。
“坦白讲,我觉得大部分(国内)公司都还没有拉开差异化,大家都差不多,可能模型水平也差不多,产品也差不多,然后就会开始‘拼价格’。我觉得这个东西不是坏事,其实是逼着大家能够更好来做技术创新。”闫俊杰表示。