抖快激战人工智能

相比于快手，由于企业暂未上市，导致抖音和字节跳动对于 AI 大模型的布局略显神秘。

钛媒体APP

2024-07-17 18:04 钛媒体林志佳

+ 关注

备受关注的中国版Sora视频模型快手可灵，即将迎来新的对手。

7月16日消息，钛媒体AGI获悉，字节跳动团队将会在7月19日（本周五）分享文生图、类sora新视频等全新人工智能（AI）模型技术进展，尤其在长视频、高动态方向上具备创新技术。

早前，“字节跳动开源”公众号发布消息称，其将在新加坡举办关于世界模型（World Models）探索的AI技术菁英论坛（ByteDance AI Luminary Talks）活动，字节跳动研究科学家周大权将会围绕“连续高动态的长视频生成方案”展开演讲。

一位消息人士对钛媒体App表示，字节跳动内部将 AI 大模型设为集团P0*别的方向。另一位消息人士则指出，除了上述研究团队之外，抖音、剪映等内部多个团队也在研发 AI 视频模型应用，预计将在近期公布。

而与此同时，国内唯二的短视频龙头快手在 AI 视频大模型领域进展迅速。继6月6日快手13周年发布并邀测可灵模型应用之后，7月6日，快手在世界人工智能大会（WAIC 2024）期间开源可图文生图大模型，以及免费上线可灵Web端。

快手透露，全球*用户可用的真实影像级视频生成大模型可灵平台申请用户数超过50万，开通用户数超过30万，生成视频数达700万以上。

这意味着，曾在互联网短视频平台领域对战的两家中国公司抖快（抖音/字节跳动、快手），如今则悄然展开着一场围绕中国*AI 视频大模型的新竞争。

01 中国两大短视频巨头转向人工智能

实际上，AI 是短视频平台中关系最为密切的底层技术。

“只有短视频平台业务，在没有机器学习的时候是不成立的。大家想象一下，大部分用户是不会因为一、两个你记得的短视频去打开一个APP的，打开APP一定是相当长一段时间的沉浸式体验，能带给非常多收获的感觉。所以，AI是（快手）业务的核心，没有AI技术，这个业务是不成立的。”快手高级副总裁、快手主站业务与社区科学负责人盖坤（快手于越）表示，相比电商、搜索等场景，短视频更需要 AI 技术加持。

而有趣的是，负责 AI 产品的盖坤曾在字节任职过。

实际上，过去10余年中国移动互联网时期下，从桌面、浏览器，到输入法、天气软件，都在寻找能够占领用户心智的下一个“微信”。然而，最终我们发现，能够与微信相提并论的产品是两款短视频直播产品——抖音和快手，当然这背后有5G、疫情等因素，但抖快确实已经成为国民应用级别产品，抖音日活用户超过6亿，快手日活用户则已经达到3.94亿（2024年Q1）。

2024年2月，继ChatGPT之后，OpenAI公布的Sora AI视频生成模型再度引爆全网，通过简短或详细的提示词描述，或一张静态图片，Sora就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。

“Sora是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。”OpenAI指出，Sora不只是视频生成模型，而是“世界模拟器”。

自今年5月起，达到类Sora级别的国内 AI 视频生成模型陆续公布，包括生数、智象未来（HiDream.ai）等。而就在6月6日，快手可灵 AI 视频生成模型开启邀测，整个生成效果直逼Sora，引发关注。

盖坤指出，快手的 AI 技术主要在短视频内容推荐、内容生产和内容理解三个层面进行应用布局，大模型时代落地的则是快手快意语言大模型、十万亿参数规模的推荐模型SIM、5月公布的可图文生图模型、6月发布的可灵 AI 视频模型等技术。

不仅是技术，快手也在商业化层面进行布局。盖坤表示，基于快意大模型构建的视频和直播脚本生成、广告搜索客服叠加数字人技术，使得AIGC日均消耗增长达到2000万。

相比于快手，由于企业暂未上市，导致抖音和字节跳动对于 AI 大模型的布局略显神秘。

过去一年多，随着 AI 大模型浪潮席卷国内外，字节跳动全面追赶，并对AI大模型进行模型层到应用层的全面布局。

其中，在基础大模型领域，2023年8月，该公司上线*大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案，面向公众开放。同时，字节跳动基础模型在语言和图像两种模态上均进行了布局，两个团队均向TikTok技术负责人朱文佳汇报。

在AI应用层，字节跳动已于去年11月成立新AI部门Flow，目前已推出三款AI对话类产品，包括豆包、扣子和Cici。其中，豆包为一款聊天机器人产品，可以完成问答、文本生成、语言翻译等多种任务，还可以根据用户需求和上下文进行自适应问答，提供个性化服务。扣子是一站式AI Bot开发平台，无论用户是否有编程基础，都可以在扣子平台上快速搭建基于AI模型的各类问答Bot，可完成解决简单的问答，并处理复杂逻辑的对话。

进入2024年，字节跳动加大产品研发速度，持续推出AI学习伙伴河马爱学、AI剧情互动产品猫箱、AI生图产品PicPci、多模态数字人产品以及AI生图、AI生视频产品等多款AI大模型领域产品。

同时，最新消息显示，字节跳动还在围绕AI硬件进行布局。其中一条产品线聚焦可穿戴AI设备，以刚刚被字节跳动收购的耳机品牌Oladance团队为基础进行探索；另一条产品线负责探索手持类AI设备，更接近对现有主流计算设备的AI化延展，成立更早，与AI应用团队Flow也更紧密。而且，字节跳动旗下剪映也在研发AI产品，名为即梦。

字节已布局的 AI 领域相关技术和产品

对于 AI 算力底层，之前字节跳动旗下火山引擎首次发布了自研的视频编解码芯片。字节跳动副总裁杨震原曾透露，公司无通用芯片商业计划，没有涉足CPU、GPU等通用芯片业务。

因此，整体来说，抖音/字节跳动和快手从底层研发，到产品和商业化层面都在布局 AI 大模型技术，希望在 AI 时代下抢得先机。但是，截至目前，暂未出现抖音利用 AI 大模型实现商业化的更多信息释出。

02 场景难通用，用 AI 赚钱的时代才刚刚开始

“过去一年，全行业都继续投入到生成式AI和大模型热潮当中，每家企业都在努力思考如何将 AI 融入业务，都深信 AI 将会成为未来技术创新和商业模式变革的核心，甚至有望带来比互联网更大的影响。但结果是，英伟达成为全球市值最高的公司，而期盼的 To C端 AI 杀手级原生应用迟迟没有出现。”

“乱翻书”主理人潘乱的这句话，打中了当下大模型热潮背后的隐忧与真实情况。

创新工场联合创始人汪华曾做过一个统计，中国实际上处于美国上半年*阶段的应用爆发前期。虽然最近大家看到很多产品在大量推广，用户量也在迅速增长，但是把所有应用加在一起，日活也不过就是 1000 万，中国有 12 亿网民；而美国 3 亿人口就有大几千万的日活，相比之下还有很大的差距。

这说明，虽然 AI 未来已来，但是模型的产品化还远远没有到来，甚至可以说是模型应用落地才刚刚开始。

“大家还是太焦虑了，大模型从开始到现在才一年多时间，整个的应用发展，本质上还是要随着模型的成熟和整个应用生态的构建逐渐发展。”汪华认为，ChatGPT 作为通用工具，用户平均时长是七八分钟，但我看过很多做社交娱乐的创业公司，他们的平均使用时长超过 150 分钟。推理成本只要降 10 倍，工具类的应用就可以做大体量免费。推理成本降得更低，高时长娱乐性的应用才能做到大体量免费，所以大用户量的工具，我觉得今年年底到明年年初就会实现。再往后是衣食住行，这类应用需要更高的模型性能，以及商业模式整合，从吃喝玩乐到衣食住行，这个时间周期大约在 3-4 年之内走完。

而作为抖音和快手这种短视频龙头来说，将 AI 技术“随风潜入夜，润物细无声”实现落地，这可能他们想要达到的*目的。

多位 AI 领域从业者向钛媒体App坦言，目前 AI 大模型技术更像是“文科生”，很难理解数学问题，所以其应用场景的范围非常有限，当前模型的*作用是提升效率的“生产力工具”。

很显然，用 AI 赚钱的时代才刚刚开始。

据麦肯锡最新发布的一份全球调查报告称，65%的受访者表示企业会经常使用生成式AI。这比10个月前的调查（33%）几乎翻了一番。其中，服务业对于 AI 技术的使用率增幅*。

同时，四分之三（75%）的受访者预测，生成式 AI 将在未来几年内为其行业带来重大或颠覆性的变化。

有熟悉字节的消息人士曾告诉钛媒体App，字节跳动内部对于 AI 模型的技术应用布局非常广泛，且存在一定的内部“优胜劣汰”竞争策略，多个团队加紧比拼当中。

盖坤则表示，快手希望坚定为用户做*的 AI 技术。

MiniMax创始人、CEO闫俊杰曾对钛媒体App表示，今年上半年，公司开始意识到，在一些偏生产力的场景里，“我们开始具备局部优势了”。至少三年后，国内才有可能出现“杀手级”AI应用。预计MiniMax* AI 视频应用将最快于8月推出。

“坦白讲，我觉得大部分（国内）公司都还没有拉开差异化，大家都差不多，可能模型水平也差不多，产品也差不多，然后就会开始‘拼价格’。我觉得这个东西不是坏事，其实是逼着大家能够更好来做技术创新。”闫俊杰表示。

打开投资界APP 阅读全文

【本文由投资界合作伙伴钛媒体授权发布，本平台仅提供信息存储服务。】如有任何疑问题，请联系（editor@zero2ipo.com.cn）投资界处理。