基于深度学习的AI绘画为何突然一下子火了

CLIP|Midjourney

dreamstudio

AIGC

StableDiffusion

Imagen

随着Disco、Midjourney、dreamstudio、AIGC、StableDiffusion、Imagen、深度学习、高性能计算、数据分析、数据挖掘等技术的快速发展,AI绘画技术得到迅速发展。

即使今年年初的AI绘画和现在相比,效果也有天壤之别。我们所说的“AI绘画”概念是指基于深度学习模型自动作图的计算机程序——把“语言描述”通过AI理解自动变成图像。目前文本自动语音识别技术已经极其成熟,本质上是一个从文本到图像的AI绘画过程。

AI绘画模型如何训练?

在深度学习中,经常听到“模型训练”这个词,但模型是什么?又是怎么训练出来的呢?在人工智能中,当面对大量数据时,要在杂乱无章的内容中准确、轻松地识别并输出所需的图像/语音并不容易。因此算法就显得尤为重要。算法也是模型。

算法的内容除核心识别引擎,还包括各种配置参数,如:语音智能识别的比特率、采样率、音色、音调、音高、音频、节奏、方言、噪声等。成熟的识别引擎,核心内容一般不会经常变化。为了达到“成功识别”的目的,就只能调整配置参数。

对不同输入,将配置不同的参数值。最后,在结果统计中取一组均衡且识别率高的参数值。这组参数值是训练后得到的结果,是训练的过程,也叫模型训练。

一、深度学习框架在其中发挥的作用是?

首先用tensorflow、pytorch或者paddlepaddle写一段python代码组建一个神经网络模型,然后对其进行训练,达到一定精度后保存模型,最后基于训练好的模型做图像识别、语音识别等任务。那么问题来了,这一切都是谁来计算的呢?答案是后台框架。所写的python代码,无非是前端API,真正调用后端C或C++计算逻辑,而前端pythonAPI和后端计算逻辑通过pybind绑定。

深度学习框架的基本功能是提供一系列的算子,支持前向计算和反向梯度更新。如此说来,框架应该很简单。然而由于OP数量很大,比如卷积,全连接,各种激活函数(如Relu,Sigmoid),各种梯度更新算法(如Adam,RMS)等。其次,在组建神经网络模型时,需要提供静态图模式和动态图模式。动态图模式是我们平时写代码的逻辑,doA-doB-doC,按流程顺序执行任务,每写一行代码就能得到相应的结果。静态图模式即用户写的代码只是为了建一个图,在图建好之后就会执行。图形执行后就可以得到结果,而不是像动态图那样实时得到结果。静态图有什么好处?答案是促进性能优化。通过优化这个图的结构,程序执行效率更高。

静态图中的“图”也叫SSAGraph,是一种有向无环单静态赋值图。这个图是怎么构造的?怎么形容呢?如何将其序列化为二进制字节流并在不同进程间传递?是如何实现的?是如何优化的?还有,如何存储样本数据?内存?缓存?SSD?

更重要的是,随着模型越来越大,参数规模达到百亿、千亿,甚至万亿,这对模型的训练性能提出了非常高的要求。一个高性能的训练框架不仅可以大大缩短训练时间,还可以大大节省硬件资源。另外,在推荐领域,大规模的稀疏参数需要大量的存储空间,不是单机能够容纳的,需要分布式文件系统的帮助。

考虑到各种不同厂商的AI芯片,如英伟达的GPU,华为的昇腾、百度的昆仑等芯片,想要充分利用这些高性能AI硬件的能力,软件必须与这些硬件兼容,它们的编程语法和编译方法与Intel的x86CPU不同,如cuda编程等。而且硬件涉及到通讯问题,比如nccl。自然,CPU参数服务器演变成了异构参数服务器。参数系统中涉及到多种并行优化策略,如数据并行、模型并行、流水线并行、混合并行、自动并行等。

二、AI模型如何训练?

训练模型需要AI框架,如MindSpore。具体怎么训练一个AI模型?昇思mindspore之前发布了一个详细的案例,训练模型是LeNet5模型,用于分类手写数字图片。MindSpore是华为推出的全场景AI计算框架。年月28日,MindSpore正式宣布开源。

首先是安装MindSpore,为用户提供Python接口。安装时,选择合适的版本、硬件平台、操作系统、编程语言和安装方法。其次是定义模型,安装完成后,可以导入MindSpore提供的算子(卷积、全连接、池化等函数)来构建模型。

接下来是导入训练数据集,什么是训练数据集呢,刚刚定义好的模型是不能对图片进行正确分类的,要通过训练过程来调整模型的参数矩阵的值。训练过程就需要用到训练样本,也就是打上了正确标签的图片。这就好比教小孩儿认识动物,需要拿几张图片给他们看,告诉他们这是什么,教了几遍之后,小孩儿就能认识了。

其次是导入训练数据集。什么是训练数据集呢?新定义的模型不能正确分类图片。需要通过训练过程来调整模型的参数矩阵的值。训练过程需要训练样本,即正确标注的图片。

这里需要用MNIST数据集来训练LeNet5模型。这个数据集由训练集(6万张图片)和测试集(1万张图片)两部分组成,都是从0到9的黑白手写数字图片。

再接下来就是训练模型,训练数据集和模型定义完成后,就可以开始训练模型了。在训练之前,还需要从MindSpore导入两个函数:损失函数,就是衡量预测结果和真实标签之间的差距的函数;优化器,用来求解损失函数关于模型参数的更新梯度的。准备好之后,开始训练,把前面定义好的模型、损失函数、优化器封装成一个Model,使用model.train接口就可以训练LeNet5模型了。最后就是测试训练后的模型准确率。

然后是训练模型,训练数据集和模型的定义完成后,就可以开始训练模型了。训练前需要从MindSpore导入两个函数:lossfunction,是衡量预测结果与真实标签差距的函数;优化器,用于求解损失函数相对于模型参数的更新梯度。准备好了,就开始训练。将先前定义的模型、损失函数和优化器封装到一个模型中,并使用model.train接口来训练LeNet5模型。最后,对训练后模型的准确性进行了检验。

市面上AI绘画模型有哪些?

今年以来,输入文本描述自动生成图片的AI绘画神器突然如雨后春笋似的冒了出来。下面分别对DiscoDiffusion、Midjourney、DALL·E2、Imagen、Parti、StableDiffusion等技术进行简单介绍。

一、DiscoDiffusion

DiscoDiffusion是在今年2月初开始爆红的一个AI图像生成程序,可以根据描述场景的关键词渲染出对应的图像。

DiscoDiffusion(DD)是一个CLIP指导的AI图像生成技术,简单来说,Diffusion是一个对图像不断去噪的过程,而CLIP模型负责对图像的文本描述。

二、Midjourney

相较于DiscoDiffusion,Midjourney界面更友好(不需要任何代码)生成时间更短(一张一分钟左右)细节更精细、完整度更高。如果DiscoDiffusion基本等于初级原画师的能力,或者仅限于创作者进行头脑风暴;那Midjourney或许已经达到了可以直接生产工业级高质量成品的地步。

三、DALL·E2

DALL·E2基于CLIP/unCLIP机制的。首先,为了获得完整的图像生成模型,将CLIP图像嵌入到解码器和先验模型中,该先验模型根据给定的文本标题生成可能的CLIP图像嵌入。将完整文本条件图像生成堆栈称为unCLIP,因为它通过颠倒CLIP图像编码器来生成图像。训练数据集由图像X及其对应标题y的对(X,y)组成,设zi和zt分别为其CLIP图像和文本嵌入。

DALL·E2快速发展的背后,其实是人工智能由感知智能到认知智能的全面升级,而这其中的创造性是AI今后发展的最大助力,比如金融行业的呼叫中心需要分析客户的语气,以快速处理投诉类案例;出行类APP遇到客户说出某些关键词时,则需要立刻与联动报警。这些应用场景其实都需要AI模型放弃原先死板僵硬的计算,而发展出某种活性。而一旦AI拥有创意,那么就可以和二次元特性进行结合,尤其是90、00后的年轻人们,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就需要一定的创意了。再进一步,AI未来很可能会达到比你自己更懂你的程度。比如前段时间小蓝经常熬夜加班,结果打开淘宝会发现总给我推荐防脱洗发水。

虽然短期来看,创造性AI还略显遥不可及,但是DALL·E2的出现,让我们看到了希望,让我们做好准备迎接新一代认知AI产品的到来。

四、Imagen

Imagen是由谷歌推出的一款新的AI系统,可以将文字描述转化为逼真图像的人工智能技术。Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI渲染等。Imagen的开发者谷歌研究团队表示,基于变压器和图像扩散模型,Imagen实现了前所未有的真实感。谷歌声称,对比其它模型,在图像保真度和图像-文本匹配方面,人类评估者更喜欢Imagen。

不过,谷歌也表示,Imagen是在从网络上抓取的数据集上进行训练的,虽然已经过滤了很多不良内容如色情图像、污秽语言等,但仍有大量不当的内容数据集,因此也会存在种族主义诽谤和有害的社会刻板印象。

五、Parti

研究人员表示,用文本生成图像非常有趣,它允许我们创建从未见过甚至不存在的场景。但这带来许多益处的同时,也存在一定风险,并对偏见和安全、视觉传达、虚假信息,以及创造力和艺术产生潜在影响。

此外,一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。像Parti这样的模型,通常是在嘈杂的图像文本数据集上进行训练的。这些数据集已知包含对不同背景的人的偏见,从而导致Parti等模型产生刻板印象。比如,在将模型应用于视觉传达(例如帮助低识字率的社会群体输出图片)等用途时,会带来额外的风险和担忧。

六、StableDiffusion

StableDiffusion是一个文本到图像的潜在DiffusionModel,由CompVis、StabilityAI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的x图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以也可以在自己的机器上运行。

AI绘画发展历程

一、AI绘画发展历程

AI绘画实际上并不是近几年才出现的新词语。从Google趋势提供的搜索指数来看,年至年期间,“AIpainting”就已经成为检索热词;年之后,检索热度开始下降并进入平缓期;直到年5月,AI绘画再一次成为大众的


转载请注明:http://www.aierlanlan.com/tzrz/4906.html

  • 上一篇文章:
  •   
  • 下一篇文章: