市场上主流的AI Art工具
Disco Diffusion的普及已经引起了一场由谷歌 Colab Notebook引起的一场分享试验革命。知情人士称, Stable Diffusion将于2022年8月22日上线,该公司正以5-10亿美元的价格进行投资。仅仅一个月的时间,就被认为是全球独角兽,可见国内对 AI Art的前景是多么的乐观。
AI Art,也就是人工智能技术,属于 AIGC的一种。AIGC (Artificial Intelligence Generated Content)是“在专业生成内容(PGC)和 UGC (UGC)后,通过人工智能技术实现内容的自动生成。”在国际上,这个词被称为“人工智能综合媒体”,它被定义为“制造、操纵和修改数据或媒体”。
其实 AI产生的影像和绘画,在技术和商业上都有着悠久的历史,并不是什么新鲜事物,而是一种不断创新的技术。
早在2015年,谷歌就推出了 DeepDream,并将其作为一种新的技术,利用算法来产生幻觉和超现实的影像。过去十年,从数码合成,到曾经在网络上流行的“一键生成新的海诚风格照片”、“童年照片”等场景,都在体现着 AI能力和算力基础的不断优化成熟。
Google DeepDream产生的影响,产生的痕迹很清晰
AI Art之所以如此受欢迎,是因为它是一种全新的互动方式,它将会成为一种全新的文本和图片,它将会告诉所有人, AI Art将会“民主化”。通过文字的描写,基于图片的图像和故事,或根据艺术家的风格、构图、色彩、透视等专门术语,几十秒钟就可以完成一幅画。
从技术的基础上来说,这是 Diffusion公司对 GAN的一次革命性变革。
传统的 AI Art技术是基于产生对抗(General Network)或者 VAE (VAE)等技术,而 GAN是当前最主要的 AI Art工具和平台,它在建模训练上取得了巨大的进展,但是在实践中依然存在着一些结构性问题。
当这股热潮逐渐高涨时, Diffusion将取代它。Denoising Diffusion Models (Denoising Diffusion Models)是一种以分数为基础的产生模式。它的工作原理是将高斯噪声不断地加入到训练数据中,从而使训练数据被破坏,再利用反向加入噪声的方法获取数据。Diffusion还能精确地涵盖大量的样本的多样性和学习数据的分布,这就使得 Diffusion能够很好地处理各种类型的、复杂的数据。Diffusion通过学习、参数化的逆向处理实现了数据的转换。这个程序从随机噪音开始,逐步清除。
Diffusion极大地增强了画面的产生,有效地减少了数字产生的痕迹,让使用者可以选择自己的步数,随着步数的增加,画面的细节也变得更加“硬核”。
这就是 AI Art工具的由来,只不过在此之前,很多时候都会出现“太假”、不完整之类的问题,还不如直接用 Photoshop来制作,所以在 Diffusion这个年代,它们的收藏和共享价值已经荡然无存。
以 Disco Diffusion、 Stable Diffusion、DALL-E2、 MidJourney等算法和工具,都是人工智能在 C端、更广阔的元宇宙中的先驱。
上面的图片展示了一件具有代表性的事情,这件事足够吸引人的注意力:一幅由人工智能产生的艺术品赢得了科罗拉多州博览会美术大赛的冠军。
目前, AI Art软件在欧美等国的发展速度很快,而在中国,则是相对比较落后的,主要是 AI、百度、美图这些公司。
本文通过对目前国际上热门的 AI Art技术的研究,对其进行了分析,并对其中的共性进行了剖析,为国内有相同的创业公司、想要在 AIGC领域进行投资的企业提供参考。
因为现在市面上很多 AI Art的工具和服务都在使用 DeepDream或 GAN,最近流行的主要是 Diffusion,所以我们将其分为两个类别。
Diffusion
Stable Diffusion
Stable Diffusion是目前最具先锋和最受欢迎的 AI绘图机器学习模式,于2022年八月二十二日发布,由 StabilityAI公司研发,并在 AI开放平台 Huggingface上安装了 Web演示版。成立于2019年,总部设在伦敦的 StabilityAI公司,专注于建立一个基于 AI技术的解决方案。现在 Stable Diffusion正在对其商用 DreamStudio进行测试, DreamStudio的开发速度更快,而 API的特性也即将上线。据了解情况的人说, StabilityAI公司正被一些著名的风投公司(Coatue)、 Lightspeed (Lightspeed)等公司以5-10亿美元的价格进行投资。
开放源码,自由
支持文本生成和图像生成两种方式
Web演示版的制作速度很快,估计仅需1-15分钟就能产生图片(生成时间取决于队列)。
Mid Journey
TIAMAT
TIAMAT是一款以上海为基地的国产人工智能绘图软件,于2022年7月22日正式发布。现在还在测试阶段。
中文输入的支援
以中国为主要受众,对东亚艺术的了解更加深入
以飞书为基础的内部测试系统
TIAMAT
Photosonic AI (https://photosonic.writesonic.com/)
Photosonic是美国旧金山的 AIGC公司 Writesonic公司的主要业务是人工智能文字的创造。现在, Photosonic已经产生了100万多张图片。Photosonic在 Stable Diffusion推出一周后就发布了,根据 Stable Diffusion的创始人称, Photosonic AI是从 Stable Diffusion中复制而来的。
Disco Diffusion (https://dreamingcomputers.com/disco/)
Disco Diffusion拥有一个强大的CLIP-Guided Diffusion模型,该模型是根据谷歌的技术结构创建的。于2021年10月29号上线,由 Accomplice创建,该公司成立于2016年,专门为各个团队和个人寻找适合其 AI驱动的工作流程。
免费开放源代码
必须通过谷歌 Colab来创建,而且没有更友好的用户接口,并且存在着使用限制。
用户可以自定义更高级的选择,如步伐的数量
DALL-E2 (https://www.dall-e-2/)
DALLE2能够根据自然语言来创造真实的图片和艺术品,它是 OpenAI在2022年4月6号推出的。马斯克,美国初创企业 YCombinator的董事长阿尔特曼,以及 PayPal全球支付平台的共同创办人彼得·蒂尔,以及硅谷的技术巨头,于2015年成立了 OpenAI。在DALLE2还没有正式发行之前,只有1000个用户在上周发行,9月29日, OpenAI就取消了它的“DALL-E2”的等候列表,任何人都可以马上进行登记。OpenAI表示,DALL-E约150万的用户,一天产生200多万个图片。
只需数分钟即可产生文字至图片,并对所产生的图片进行多次重复。
可定制多层图片的编辑和修改特性
在渲染脸部时,DALL-E2会刻意制造出歪歪扭扭的眼睛,或者扭曲的嘴唇。
所有登录DALL-E的用户将会得到50分,之后每月还可以得到15分,每一分可以产生一幅可以购买的照片,115份的价格为15美元。
Mid Journey
Mid Journey是一款受欢迎但还没有普及开来的人工智能艺术品。Midjourney是一间探索新想法和拓展人类想象力的独立研究所。Midjourney是一支以设计,人类基础设施及人工智能为核心的小型自费小组。Midjourney是由 Discord服务器托管的 AI文字-图片扩展模型。现在,它的使用者已经达到了一百五十万。
只需提供少量的文字输入即可轻松地使用该演示版本
根据发现,有一个很好的社会环境
详细的文档,便于开发人员使用