首页产业新一代信息技术正文

从摄影到AIGC，机器是否具有创造力？

AI艺术在文化价值中的地位无疑值得让人深思。纵观人类文明发展历程，技术变革往往能够颠覆社会生产方式和消费模式，从而搅动社会秩序、甚至世界秩序。事实上，技术进步也是塑造艺术形态的关键因素。

2022-12-09 08:05 · 元气资本

历史上*次，人类得以按需、实时、大规模、廉价地开展日常创意活动。

核心内容

1、Text-to-Image模型的数据规模需求决定了研究人员严重依赖基于网络抓取并且大部分未经整理的巨型数据集，由于这些数据集往往携带社会和文化偏见。

2、当摄影成为逼真绘画的竞争者，画家转向新的表达方式。1870年代，法国兴起印象派运动。

3、创造力独立于意识，可以被合成、放大和操纵。AI艺术创所便是锁定目标、按下快门的过程——当摄影*次出现，这便是摄影师的所有工作。

近日，中国AI绘画平台由于技术尚未成熟带来的基于错愕的幽默效果使AIGC作为社交货币广受热议。从自拍滤镜到Deepfakes，在过去十年中，人工智能驱动的现实扭曲能力与日俱增。

早在2018年10月，巴黎艺术团体Obvious曾以432,000美元的价格售出一幅名为Edmond Belamy的AI画作，这一首件在大型拍卖行落槌的人工智能艺术品基于GAN算法，其数据集来自14世纪至20世纪期间多达15,000幅肖像画。

今年8月，合成媒体艺术创作中Jason Allen凭借人工智能生成作品Théâtre D'opéra Spatial在拥有150年历史的艺术赛事Colorado State Fair中获奖，人工智能将创意产业带入一个转折点。面对关于AI艺术伦理的激烈辩论，以及高科技剽窃的指责，Allen表示，其作品以“Jason M. Allen via Midjourney”名义提交，“我不会为此道歉”。

△ Théâtre D'opéra Spatial通过Midjourney呈现“太空歌剧院”超现实主义场景（来源：New York Times）

机器是否具有创造力？

AI艺术的生产机制包括基于数学模式的图像生成，模拟笔触和其他绘画效果的算法，以及诸如GAN（Generative Adversarial Networks），即生成对抗网络等人工智能或深度学习算法。早期AI艺术系统至少追溯至1972年，彼时，Harold Cohen开发的AARON基于符号规则生成技术图像，由此成为GOFAI（Good Old-Fashioned Artificial Intelligence，一种符号AI）编程时代AI艺术的著名案例。尽管 AARON仅限于按照Cohen编码的风格，即其个人绘画风格进行创作，但是它能够产生无限量的图像。

在2014年6月Ian Goodfellow及其同事发布关于GAN的文章后，包括Google（TensorFlow）、Meta（Torch）和荷兰NPO广播公司（pix2pix）在内的科技公司开源其未经训练的原始GAN。时至2017年，这一机器学习框架已被AI艺术创作者广泛使用。GAN类似于机器版本的“拟态”（进化生物学）——两个神经网络以零和博弈的形式进行关于视觉效果真实性的竞争。因此，AI艺术生成过程即是“艺术模仿者”和“艺术侦探”之间互动持续循环的过程，直至艺术侦探无法再分清真伪。

深度神经网络的技术进步使得Text-to-Image Model，即文本到图像模型，于 2010年代中期诞生。该机器学习模型使得输入自然语言描述并生成匹配图像成为可能。在深度学习兴起之前，构建Text-to-Image模型的尝试仅限于通过排列现有图像组件生成的“拼贴画”。University of Toronto研究人员于2015年推出的现代*Text-to-Image模型alignDRAW所生成的图像模糊且不逼真。2016年，University of Michigan和Max Planck Institute for Informatics研究人员首次使用GAN推进Text-to-Image任务。

由Elon Musk、Sam Altman等人于2015年12月创立的人工智能研究实验室OpenAI旨在促进发展“人类友好人工智能”。2021年1月，OpenAI基于其开创性的GPT语言模型推出的DALL-E是*引起公众广泛关注的文本Text-to-Image模型之一，其命名是皮克斯动画角色Wall-E与超现实主义艺术家Salvador Dalí 的极客组合。该组织于2022年4月推出的DALL-E 2能够生成更逼真、更准确的图像，分辨率较上一代提升了4倍。

今年以来，从Google Brain的于5月发布的Imagen和 StabilityAI 于8月发布的Stable Diffusion，Text-to-Image模型生产图像使得机器与人类在艺术生产方面的鸿沟迅速收缩。

继Text-to-Image模型之后，诸如Runway、Make-A-Video、Imagen Video、Midjourney和Phenaki等由语言模型支撑的Text-to-Video（文本到视频）平台应运而生。

人工智能具有创造力的假设往往受到艺术家嘲讽，但是这取决于创造力的定义。AI能够以*、有效的方式创造事物，只是这种创造并非“意图”驱动——解释和筛选输出的是人。AI艺术从业者Mario Klingemann评论道，“机器无意创造任何东西……你生了火，火产生了形状，它并没有创造力，是你看见了图案——AI便是从不重复、一次又一次给人带来新奇和惊喜的火焰”。

Text-to-Image的社会和文化偏见

Synthetic Media，即合成媒体，代指任何类型的AI生成图片、视频、虚拟对象（e.g. 虚拟人）、声音或文字。该类别包括且不限于Deepfake内容、基于文本的AI艺术、VR和AR环境中的虚拟内容。Nina Schick曾于2020年在一书中表达了深刻的技术恐惧，由于Deepfakes让人类无法分辨什么是真实的，什么不是，该技术被认为将对西方民主制度构成巨大威胁——选民操纵可能被推至前所未有的高度，而这场“信息灾难”的危险的后果关乎公众信任、甚至国家安全。

尽管Text-to-Image模型很难带来以上灾难，但是该技术仍然不乏令人不安的应用情景。想象一个可以生成几乎任何图像的系统，技术进步或为制造假新闻、恶作剧和骚扰提供更为高效的工具。此外，系统本身携带社会偏见，其输出通常涉及种族主义和性别歧视。Google研究人员在报告中指出，Text-to-Image模型的数据规模需求决定了研究人员严重依赖基于网络抓取并且大部分未经整理的巨型数据集，而这些数据集倾向于反映社会刻板印象、压迫性观点，以及针对边缘群体的贬损。

此前，研究人员在评估DALL-E时已经遭遇相似问题，DALL-E生成的空乘人员图像几乎均为女性，而CEO图像却是千篇一律的白人男性。正是出于这个原因，OpenAI迟迟不愿公开发布DALL-E，虽然公司允许部分测试人员进行访问。据悉，该系统已经着手过滤某些文本输入，以在某种程度上限制其被用于生成种族主义、暴力或情色图像。与之类似的是，Google认为Imagen“目前尚不适合公众使用”，同时表示公司计划开发一种新方法来衡量并测试“社会和文化偏见”。由于庞大数据库的偏见源自艺术史——世界历史的视觉呈现，University of Southampton教授Sunil Manghani将其称为“历史偏见”。

The Verge于今年5月总结道，“老生常谈的格言仍然适用于AI世界：输入垃圾，收获垃圾”。

技术进步推动艺术创作民主化

对艺术创作新技术的争论并非首次。AI艺术能否被视为艺术这一问题与摄影术的发明曾经引发的担忧极为类似，二者均降低了艺术创作的技术门槛。19世纪法国诗人Charles Pierre Baudelaire曾称摄影为“艺术最致命的敌人”。

然而，将技术进步普遍解读为“对人类艺术的贬低”在现实中无益，这不能阻止技术普及带来的创作民主化——只需按下快门，人人都能捕捉到任意场景的逼真描绘。当摄影成为逼真绘画的竞争者，肖像、风景等场景中追求逼真效果的需求骤然萎缩，这一扰动使得画家转向新的表达方式。自1870年代起，法国兴起印象派运动，这一绘画风格在接下来的五十年中席卷整个欧洲。

1873年12月，Claude Monet、Pierre Renoir、Camille Pissarro等艺术家创立了画家、雕塑和雕刻家匿名协会，以独立展出其此前被沙龙评审团拒绝的作品。评论家Louis Leroy在报纸Le Charivari以“印象派展览”嘲讽这一风格，“印象，我很确定...多么自由，多么偷工减料！半成品墙纸都比它更完整”，印象派一词便源于此。摄影技术推动印象派掀起革命，而随之而来的后印象派让位于20世纪艺术界技术、主题和形式的进一步“解放”。

如今，AI艺术被诸多评论家视作人类艺术家终结的标志。视觉素材平台Getty Images已经禁止了 AI生成图像，一些DeviantArt平台艺术家正在要求类似禁令。与之相比，较为善意的声音呼吁为AI艺术贴上标签，以便将其与人类艺术区分开来。不少艺术家可能担心企业通过其作品获利而自己却得不到任何补偿，因而努力避免其作品被用来训练AI，然而这种努力显然是徒劳——想象一下，即使从数据集中删除所有Van Gogh作品，该艺术家的风格仍将深植于模仿者或深受其影响的浩瀚视觉海洋中。

Wired认为，正如一个世纪前的机械摄影，AI艺术不会扼杀艺术本身，而是开辟了更多可能性，“创造力不是某种超自然的力量。它可以被合成、放大和操纵。事实证明，我们不需要获得智能来孵化创造力。创造力独立于意识...这种新艺术介于绘画和摄影之间，存在于一个和绘画的可能性一样大的空间。你像摄影师一样在这一空间中移动，探索，发现” 。

因此，AI艺术创所便是锁定目标、按下快门的过程——当摄影*次出现，这便是摄影师的所有工作。

本文作者认为，创作民主或许伴随着更为普遍的审美平庸，但是当创造力已经成为一种商品，一个或许平庸但是全面的视觉搜索引擎显然能够大幅降低成本，无论对于企业或个人。相较于通过视觉素材平台搜索人类艺术创作者制作的昂贵图像，AI视觉素材的获取效率更高、价格更为低廉，同时贴合个性化需求。

正如Wired所言，历史上*次，人类得以按需、实时、大规模、廉价地开展日常创意活动，“我们可能有点像中世纪的农民，当被问及拿250马力做什么，他们毫无想法。如今，我们的创造力引擎能够用以瞄准任何陈旧角落。这是一份非凡的礼物”。

参考资料：

Vincent, J. (2022) All these images were generated by Google's latest text-to-image ai, The Verge. The Verge. Available at: https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper (Accessed: December 6, 2022).

Bogost I. (2019) The AI-Art Gold Rush is Here. The Atlantic. Available at: https://www.theatlantic.com/technology/archive/2019/03/ai-created-art-invades-chelsea-gallery-scene/584134/ (Accessed: December 6, 2022).

Kelly K. (2022) Picture Limitless Creativity at Your Fingertips. Wired. Available at: https://www.wired.com/story/picture-limitless-creativity-ai-image-generators/ (Accessed: December 6, 2022).

【本文由投资界合作伙伴元气资本授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。