有很长一段时间,AI(人工智能)这个词变得没那么让人兴奋了。
人们已经躲不开它,但同时也发觉,无论是AI的技术演进还是商业应用,似乎都遇到了瓶颈。人们有很多年没再体验到AlphaGo那样的惊艳,业界也没再经历像语音助手普及那样的商业机会,甚至许多投资人也只是在实在没什么新鲜故事时,才不情愿的又转身回头看起了AI的机会。
不过,就在这个全人类都忙着卷来卷去的2022,AI却正在经历一次近年来*的一次进化。
AI突然翻红
就在10月18号,因为推出 Stable Diffusion 文本-图像AI生成模型而大火的人工智能公司 StabilityAI 宣布完成1.01亿美元的种子轮融资,让整个公司估值达到10亿美金,成为所谓“独角兽”企业。这距离 StabilityAI 成立仅有两年时间。
即便以科技互联网产业发展的标准看,StabilityAI 的成长速度也是惊人的,这种速度是2022年以来全球AI产业爆发式增长的一个缩影,此刻距 StabilityAI 旗下的 Stable Diffusion 开源模型风靡全球尚不足2个月。
这种疾风骤雨的突飞猛进堪称一场真正的革命,尤其在全球经济预期转弱的大背景下。
同所有的革命一样,这场AI革命也不是一夜之间完成的。
一直以来人们都有一个梦想,即借助人工智能AI技术来拓展现有人类智慧、知识和创造力的边界,但人脑复杂结构带来的学习能力远超人类构建AI的能力,于是AI只能通过各种特定深度学习模型来单点突破某些特定领域,比如 alphaGO 用来学习围棋,又比如通过天文大数据帮助寻找脉冲星候选体。
而AIGC,即基于AI能力的内容创作(包括文字、图片和视频等等)也是其中一个重要类别,2022年之前,囿于核心技术的局限性,这个领域一直不温不火,因为AI并没有点石成金的法术,它不具备人类凭空创造的能力。AI的“深度学习”训练并不是拥有自我意识的自主学习,是通过收集大量样本让AI从海量数据中总结规律,再根据人类的指令,基于规律进行内容再生产的过程,它同时受核心算法、硬件条件、数据库样本等多方面的限制。
在2022年之前,AIGC领域使用最多的算法模型名为对抗生成网络 GAN (Generative adversarial networks),顾名思义就是让AI内部的两个程序互相对比,从而生成最接近人类心目中的正确形象。但这个算法有一个严重问题,由于程序互相对比的标准是现成的样本,因此生成的内容实质上是对现有内容无限逼近的模仿,而模仿,意味着它无法真正突破。
图源:https://developers.google.com/machine-learning/gan/gan_structure
GAN的缺点被最终被 diffusion 扩散化模型克服,它正是今年以来陆续涌现的包括 Stable Diffusion 开源模型在内的诸多 AIGC 图片生成模型的技术核心。
diffusion 扩散化模型的原理类似给照片去噪点,通过学习给一张图片去噪的过程来理解有意义的图像是如何生成,因此diffusion 模型生成的图片相比 GAN 模型精度更高,更符合人类视觉和审美逻辑,同时随着样本数量和深度学习时长的累积,diffusion 模型展现出对艺术表达风格较好的模仿能力。
图源:https://towardsdatascience.com/diffusion-models-made-easy-8414298ce4da
从今年初引起广泛关注的 Disco Diffusion ,再到 DALL-E2、MidJourney 等模型都是基于Diffusion模型,而拿到融资的 Stable Diffusion 是其中*的。由于 StabilityAI 对科技社区氛围的拥护和对技术中立原则的认同,Stable Diffusion 主动开放了自己的源代码,不仅方便人们部署在本地使用(普通消费级显卡既能满足 Stable Diffusion 的硬件要求),还带来了魔术般的用户体验:打开网址,输入你想要画面的关键字,等待几分钟,模型就会生成完成度非常高的图片作品。普通人使用最尖端AI技术的门槛因此被降到*,上线以来,仅通过官方平台 DreamStudio 制作的生成图片就超过1.7万亿张。
AIGC沉寂许久的革命火种,瞬间燎原。
绚烂的蓝海
以 StabilityAI 为代表的的AIGC图片生成模型在如此短的时间内发展到极为成熟的地步,预示着它从比较传统的设计绘图、插画、游戏视觉,电子商务等领域到大热的元宇宙和虚拟现实技术都拥有巨大的发展潜力。
想象一下,在未来的VR/AR虚拟世界里,你脑海中想到的画面可以借助ai生成技术实时渲染出来,这将会对人们娱乐和获取信息的方式产生怎样的颠覆?
但这不是市场在如今经济大环境极为低迷之际为AI投下赞成票的全部原因,广泛的商业潜力固然吸引人,但更值得投入的是AI技术本身。这场革命还未完结,它的下一篇章已经向人们走来。
那就是生成视频。
从本质上讲,视频是连续的静态图像,随着 ai 图片生成技术的日益成熟,许多人都把目光投向生成视频领域,9月以来,Meta 和 Google 先后公布了自己在这一 AIGC 最前沿领域的最新成果。
Meta 的模型名为Make-A-Video,通过学习大量文本-图像组合样本数据和无文本标记的视频来理解真实世界中物体的运动逻辑,Make-A-Video能够初步在构建图像的基础上让图像动起来,同时拥有理解三维物体立体结构的能力。
图源:Meta 公布的相关论文https://arxiv.org/pdf/2209.14792.pdf
名为 imagen video 的模型则通过被称为联级扩散系列模型的方法生成视频。也就是先通过基础扩散模型生成分辨率较小的视频,然后再通过一系列时间、空间超分辨率模型提升视频的分辨率和帧数。
图源:imagen video 官网
横向比较来看,imagen 的视频分辨率(1280X768 )高于Make-A-Video,时长也略长一些。
图源:Google 公布的相关论文 https://imagen.research.google/video/paper.pdf
但突破还不止于此,另一个名为 Phenaki 的AI视频生成模型(也来自Google团队)公布了其能够根据文本内容生成可变时长视频的技术,也就是说 Phenaki 有从文本中提炼理解故事情节并将其转化为视频的能力。
公布的demo中,Phenaki 基于几百个单词组成的一连串有前后逻辑关系的文本指令生成了一段2分多钟的连贯视频,这种充满镜头感、丰富情节和转场的故事片雏形假以时日势必对未来整个视频行业,包括短视频、电视电影等产生广泛冲击。
生成视频模型尚在起步阶段,在具体运动的细节、画面精细度、不同物体和人的互动等方面尚显稚嫩,从分辨率到画质上也有浓浓的“人工智能”痕迹,然而回想AI图片生成模型同样经历了从全网群嘲到逆袭的过程,后之视今亦犹今之视昔,谁又能说这未尝不是AIGC革命下一个高潮即将来临的预言?
剧变带来的争议
剧烈的变化总是伴随着争议,以 Stable Diffusion 为代表的AIGC革命“图像阶段”也是如此,我们试着将其归纳为下面几个问题并做出初步回答。
(1)AI生成内容的版权问题该如何界定?
中国的著作权法中规定只有自然人或组织可以被认定为作者,因此ai生成内容并没有享有著作权的实体。如果没有更多协定约束,AI生成内容可以被任意使用,包括商业使用在内。Midjourney、Dell-e等都明确表示用户拥有自己生成作品的所有权。
图源:StabilityAI 官网关于版权问题的回应
图源:StabilityAI 官网关于版权问题的回应
值得一提的是,很多AI生成技术深度学习训练所使用的数据库中可能包含了侵权内容,但因此导致用户生成内容侵权的可能性非常低,因为生成内容本身是充满高度随机和不确定性的,即使陷入版权争议,举证过程也会极为困难。
(2)AI生成内容是否具有艺术性?如果有,该如何评价与界定?
AI生成内容的艺术性在半年之前还是个看着有些无聊的问题,但在《歌剧院空间》作品获奖后,人们开始越来越多的谈论它。
总的来说,AI生成的内容并不是自己创造的,它受自身模型算法和数据库样本容量影响,这也是许多人声称ai生成内容“没有灵魂”的原因。
然而仅仅把AI生成技术看做纯粹的工具也是不公平的,因为它不仅可以模仿,而且算法和样本一同提供了现有人类所不能完全提供的创作视角。
现有的AI生成图像技术已经让人们参与图像创作的门槛变得无限低,因此对生成作品的艺术性鉴赏或许应该从更细分的角度入手,正如 NFT 之于传统艺术品一样,它的价值需要经过市场的检验,而艺术品市场对此正处于理解和接受的初级阶段。
(3)AIGC革命的“图像阶段”对图像工作者和艺术创作者来说意味着什么?
随着AI生成技术“民主化”,未来中低端绘画内容和它的市场会被AI代替,这意味着大批腰部及以下的图像工作者、插画师、设计师等会失去现有工作。
随着AI生成图像内容越来越丰富和逼真,它们也正在根本上解构着商业图片库赖以生存的运营模式——如果图片可以自己生成的话,谁还要花钱买图呢?
图源:gettyimages 关于AI生成内容的声明
但AI生成技术同样拓展了人们对绘画工具能力的理解。对艺术创作者来说,AI生成技术将有利于他们基于自身理念(而不是技法)创造更多维度,更具创造性的作品。
未来将会是创作者创造力的比拼,因为AI“消除了外行表达创造力的障碍。”(比约恩·奥姆所说,他的团队开发出了 Stable Diffusion 最初的基础算法。)
(4)AI生成内容应该如何监管,如何防止虚假信息和不适宜信息的传播?
秉持技术中立态度的研究者例如 StabilityAI 会尽量减少对内容的控制和干预。他们认为一个开放和充分讨论的社区将会逐步形成对信息内容传播的监督机制。
“使用者自己需要为如何使用这项技术负责,这包括道德和法律上的合规性。”Stability AI 公司 CEO Emad Mostaque 曾在采访中如此表示。
与此同时,尽管深度学习所用到的数据库经过了严格的筛选,屏蔽了色情、暴力、恐怖等内容,但有关社会刻板偏见、种族歧视等内容尚无法从技术上完全消除,更重要的是,关于如何界定所谓偏见在伦理学上仍然是一个颇受争议的问题。正因如此,Google 决定在排除相关风险前推迟公开发布 imagen video 模型,而许多已发布的模型选择为其生成作品加上不可去掉的水印来避免潜在争议。
AIGC革命如火如荼进行中,它不是将来时,而是进行时。我们已经身处其中。
现在就是未来。