本次对话采访对象为Stability AI有关负责人,CFGLabs为StabilityAI种子前投资人,此次分享只限于前沿技术分享,因此涉及到相关信息/项目讨论,不应该作为投资建议客服wechat客服james_cook_captain
Yizhou 00:00
Yizhou围绕 a generative AI去学习去尝试,然后也贡献了一些方法出来。然后这些方法有一部分可能stable diffusion里面用到的方法,然后有一部分现在的Stability AI我们整个服务里面有用到,然后也往社区里也贡献了一些东西。就在这个过程里面我还要做我的本职工作,但是我的本职工作是一个Strategic designer那种的工作。就一边做的工作,一边周末周六周日给开源社区做贡献,然后同时也就相当于自己在玩,然后边玩的同时也给开源社区作贡献。
然后今年的时候就相当于被开放,因为之前给社区做了不少贡献,然后就进到了stability,这也是我们很多同事的一个加入Stability AI的路径,从我们的CTO到我现在的 Teammate,很多都是以路径进到Stability AI的,这大概就是我自我介绍。
Frank 01:15
感谢Yizhou的介绍,所以你基本上是从通过之前的一些从社区里面招募了,就是说我是做了一些贡献以后被招募进来了是吧?对的ok,我其实也可以做一下自我介绍,就是说因为我看有些新的朋友进来,其实我是CFG Labs的Co-founder Frank,我主要是在 tech方面在Web3 infrastructure这块,对于generative AI技术,我们是从去年开始关注的。
我们之前参与一些元宇宙的Generative AI项目,然后通过这个思路我们去找,就发现了Stability AI这样一个一个社区的非常好的项目,所以通过Stability AI我们学习的generativie AI的整个生态系统以及它的技术背景,然后我们除了看 web 3领域的generative AI或者AIGC这块的技术这块,我们也在研究一些底层的基础设施,比如说像这种公链的扩展,最近我们在模块化和单片链这种技术方面都有一些研究,除了投资之外然后我们也有一些自己的孵化的项目,是这样的,然后今天的主题主要是在围绕Stability AI以及它采用的stable diffusion这种技术的探讨。
下面要请教一下Yizhou的一些问题,第一个问题,关于 open AI和 close AI的对比,因为现在主流的这种大公司,包括像Meta,还有Google,还有Mirosoft,包括国内的阿里,腾讯,百度这种公司,他们都是用这种 close AI的技术;然后我想问一下像Stability AI这种采用这种开源技术AI,他的一些想法和它的竞争优势在哪里?
Yizhou 03:39
刚才我们提到 Open和close,其实我们也不能完全说你刚才说的大公司是closed的AI,其实有在他们有很多方式来open。就拿国内大公司说阿里的话有ModelScope,阿里它的ModelScope上面也开展了很多基础模型,包括一些视觉的比如说clip,这些其实都是开源的模型,然后也有像比如说像百度,然后发了很多论文,然后这些论文的方法有一些也是会被社区所吸收所使用的,但我们不能一概我可能不是很倾向于一概而论的把它全部说成closed的AI。
但我明白这个问题的点在什么地方,我们也是Stability AI跟其他的就跟你说的巨头不太一样的地方是我们的commitment,所有的foundational model权重一定是全开源出来的。
开放权重,开放整个模型的结构,从推理代码到训练代码到权重到数据集到底是什么?
等等这一系列的东西,其实会给社区一个很强的机会,是他能够n to end从真正从零开始到怎么训练出模型到模型怎么使用,以及模型内部是怎么工作的,会有一个非常清晰的认知,相比于论文和API而言,你获得的信息是很多的,然后开发者也好,还是研究者也好,在这个过程中就可以去更多的观察模型的运行方式,更多的去看模型的架构,看这些看到整个pipeline上的不同的节点,比较有想法的开发者和研究者就可以去优化这些东西,我们看到了一些我们一个比较直接的观察, OpenAI写了很多论文出来,包括它的DALL.E和DALL.E2,然后后面的基础技术是吧?
甚至包括diffusion的最一开始那几篇重要的论文其实都是OpenAI的,我们非常感谢OpenAI给出的基础的技术,我们的技术其实很多也是基于研究结果,但是有了论文,有了开源处的API在DALL.E发布,我只是Beta发布完了很长一段时间里面,出现的应用是没有那么多的,直到stable diffusion发的那一天,然后在短短的几个星期里面迅速的雨后春笋一样很多应用掌握出来。
这是一个完全open的 AI,或者说完全暴露权重,暴露底层架构,每个人可以自己在自己的消费级GPU上面去运行的一个AI能够带来的一个给社区的给整整个生态的一个贡献,或者说一个他给了大家一个可以在上面去做东西的土壤。
又说回 open这个词,我可能想在 open这个词上面加一个定义。有的时候我们谈open是说有没有把东西给你,然后我们可能更在意一件事情是说我给你的东西你自己能不能运转出来,能不能运转起来。
我举个例子,我就算把GPT-3的位置开出来,能运行的人也寥寥无几,因为像我没有办法在一个24g的显卡3090跑不起来的,但stable diffusion可以,甚至不需要3090, 3060就可以,这就是所谓的openness每一个人都可以来用,然后每个人都能看到它的结构,享受到它所带给你带来的福利。
Frank 07:22
你刚才指的就是普通用户用他的PC电脑, Gpu就可以访问是吧?你是这个意思吗?
Yizhou 07:34
对,然后比如说一个普通的研究者,我们之前比如说你要真的运行研究一个大型的语言模型,你可能需要一个集群,你现在想办法再把模型跑起来才行,对吧?
但如果你只需要研究stable diffusion的话,你掏出一台笔记本,上面6g的显存能跑起来,然后跑起来你就可以开始看说这个地方每一个结构到底是什么地方,发生了什么东西,什么事情,有能够跨过使用门槛的人变多了,然后能跨过可以开始研究,可以给社区做贡献的人的门门槛的人也变多了,这样对整个生态的发展是一个很有利的很有利的一个因素。
Frank 08:14
Ok,所以你觉得它开源以后,它最大的是降低了使用开发者的门槛是吧?
Yizhou 08:26
对的,从使用到可以开始贡献研究的门槛都降低了。Ok。
Frank 08:35
你们大概现在在Stable diffusion这块社区开发的社区大概多大?全球的这种工程师/科学家大概。
Yizhou 08:43
我我没有一个很好的技术可以给你,但你就从Github上的 Startups的Star上来看,然后从fork上来看,5位数是有的,就真的在上面做各种各样的事情的,绝对是有5位数以上的开发者在上面做各种各样的事情。
Frank 09:08
你刚才提到了这些像Midjourney和DALL.E这种,他们和stability和这几个有什么不一样,这两个好像都是open ai的作品是吧?
Yizhou 09:20
不是,Midjounery不是,它是一个Lab;然后很有意思,我们一开始看到社区里面比较活跃的几个人,现在有的去了Midjourney,有的在Stability AI像我一样,然后有的可能还在开源社区里面,这里就是一开始的Disco diffusion的几位主创来加上一些社区的同志们一起设立的一个lab。
那stable diffusion相对于他们两个最大的特点可能真的是开放性,因为DALL.E和Midjourney的位置都是不开放的,至少最新的位置是不开放的,以上面里面用的一些独有的方法可能也不完全暴露给社区,但是stable diffusion里所有看到的从权重到推理方法等等全部都是开源的,甚至很多很有意思的,你会经常观察我们的社区成员可能会注意到有很多最新的方法是会先到开源社区,再到我们自己的API上,包括我们的V2也是, V2刚刚发布2.0也是这样的,我们先有了开源的weight,然后再做了你的产品。从这一个开放性上来说,确实是我们相对于Midjounery达到一个最大的特点。这是从开放性角度。
然后另外如果我们直接观察作为一个文生图的产品的话,Stable diffusion更像一个平台,DALL.E和Midjourney都会更接近产品一些,比如说Midjourney现在很我会有一个比方Midjourney,像它是一个已经做好的菜,包括做好你输入了什么东西,你给它的原料它会帮你炒好,然后加一点MSG加一点味精出来,出来东西就很漂亮,非常漂亮,就几个词就可以了,没有问题。
但你能够调教的内容,其实在你自己的输入的基础上,你会加入自己的理解,他输入的东西会很艺术化很风格化,输出东西可能你说话风格化,然后可以直接可用,然后可以非常抓眼球,维持作为一个产品是个非常好的事情,然后也很受最终用户的欢迎。
DALL.E的话,它的抽象图像真实质量高,可能更多的像说我们可能作为一些产业应用,可作为API在接入的话,当然也可能是一个蛮好的选择,虽然他没有那么多可以调节的东西,可以你自己配置东西给你,而stablediffusion像是一个平台一个工具一把你可以自己去替换模块的,瑞士军刀。他效果是不如Midjourney和DALL.E,特别是用短的单词,我就说一个A Cat两个词的话,Midjourney可以给你很艺术化的东西,DALL.E会给你非常真实的图猫的照片,Stable Diffusion不行,他会给你一个就差一点意思,你需要用大量的修饰词,或者用一些其他的推理方法去限制它,去引导它,然后去把它变得更更好。
但你可以用它做更多的事情,比如最近我们看到了这个整个fine tune,比如就像dreamboots,不是这种拿了模型过来,基于你自己的数据去训练。这样的事情是你只能至少在目前这个时间段,你还是只能或者最容易stable diffusion去做的,你想让DALL.E话,你只有API没有办法做这件事情,你想Midjourney做的话可能要等服务,在stable diffusion也是你拿一趟消费级显卡拿到数据,你把权重弄下来,如果你懂一点python,现在是需要懂python,后来后面你可能都不需要懂Python,因为社区会给你非常容易的界面化的产品,然后你拿了数据拿了权重来就可以训练了一个数据属于我自己的模型,然后里面出来的所有的漫威宇宙,你可以把漫威宇宙里的任何一个角色替换成自己的脸,然后生成各种东西,这就是stable diffusion作为一个平台,作为一个开源的作为一个开源的平台给大家带来的一个特点, ok。
Frank 13:51
非常好,我之前对这几个技术还不是特别的了解。DALL.E这个是OpemnAI开发的是吧?对。Ok。你刚才说的提到了stable diffusion里面开发的权重是开源的,DALL.E他们没有开源?开源了参数的权重,这个是比较核心的一块。
Yizhou 14:29
DALL.E的权重是没有开源,但OpenAI开放了 Clip,其实是我们之前我们1.0的版本用的Clip是OpenAI的,2.0版本就是我们自己的。
Frank 14:45
然后你们现在的模型是通过AWS的A100 GPU,在全世界我看很少的机构在用,包括像 Facebook他们估计好像也用,但是好像用这个机器的机构真的很少,最近我看了一个全球AI报告上面,硬件资源是非常紧张的,所以你们的长期计划是以 AWS上的 A100 GUP吗?
Yizhou 15:19
几个点,一个是关于A100 GPU,你说他紧张他确实紧张,但你说有很少人在用,那倒不一定。
特别我们就看国内的几个大厂其实都是有a100的资源,然后甚至不用说大厂,国内中厂也有很多有自己小型的100的Cluster,可能不多,就几个Cluster的,但都有自己的资源在,但如果你想应该这么说,能拿出4000~6000张a100大集群的公司确实不多。
Ok我们在训练模型的时候,我们其实大家会首先会先想到你这4000张a100训练,但其实没有我们训stable diffusion的时候,集群没有那么大,我们训练的时候使用的我分成两个部分,一部分 clip用的计算,特别2.0的clip用了很多的计算资源,具体的计算资源的数量,我现在的报告还没有写出来,我先卖个关子,但真的说训练stable diffusion1.0版本的GPU是我们叫256块,是256块GPU在跑,当然这不包含我们在不同的实验,不包含说我吃的版本不太好,我再串一个版本,这个版本没有收敛,我在先是下一个版本,我同时开好几个版本,开调套参数我都不算,只是说单纯训练一个模型,从0~1,我要用的GPU的速度是256,而不是4000,但这4000带来的意义是什么?
4000带来的意义是你可以做很多不同的尝试,你在做尝试的时候不需要特别纠结,那就能在这里在尝试的过程中就有很多可能的创新可能的好的结果会出来,就拿我们的跟Laion合作训练的,我们现在2.0版本用的Clip,在训练的时候遇到了很多问题,中间重启了很多次,然后这个过程其实在社区和Cluster的共同的努力下训练出来的,如果是一个没有这样的一个集群的话,像训练一个Clip这样的事情,可能确实是比较大的投入成投入。
你说这个问题的下一个问题,后面我们会去依赖 aws的集群吗?
我们分开谈。
训练研究。
特别是研究给一个reseacher的这一部分,太原研究的支持,现在确实是在aws上面的,然后未来也可能会很长一段时间,我们会继续去使用aws因为它有很多便利性,我很容易调度管理,我不需要去花费大量的精力去解决一些自己维护集群需要的问题,这是长期愿景分开谈,我们的长期愿景一定要有算力,然后算力以什么方式解决,这个事情可能是动态变化的,对于我们来说现在最优解是aws,推理就是另外一个故事了。
之所以把训练和推理分开,是因为训练受网络谈网络带宽的限制,我很难说把训练distribute到各个小的node上面,我不可能用,我至少现在的架构不支持,我们用100台200台消费级GPU通过互联网连接训一个东西很难,不要想。
那在推理可以推理,其实我们现在的这样的一个方式,整个社区运转的模式已经是一个去中心化的推理了,有很多用社区的方案,比如automatic的这个stable diffusion是Web UI,比如说用diffuser是自己host在自己机器大家分布的规律,用自己的算力来做这件事情。这就已经算是开源计算或者开源推理的一一部分,后面现在这个方向我们应该也会有更多的思考。
Frank 19:46
你们现在训练一个这样大的模型要多久?一般这种大型模型。
Yizhou 19:52
1.0用了几十万个GPU,2.0的时候,因为各种优化我们的速度快了很多。
2.0从具体2.0具体的时间我还不太清楚,因为我不在训练册,但从整个pipeline来说,从一开始规划到最终模型产出,我应该是看花了一个月的时间在看。
Frank 20:29
2.0,我看最近你们好像发了篇paper跟斯坦福和Google brain合作, paper里面说提升了很多在模型里面。
Yizhou 20:41
对disco的模型,那个是在2.0基础上的,进一步的蒸馏完了以后,比如因为地球本身是一个要大量的采样的一个过程,你需要通过你希望这个模型Evaluate,就模型需要运转50次以及一开始是50次,然后现在20多次,然后被通过这个方式去做,但distill以后的模型每一步denoise效果更好,然后你不需要用那么多步denoise,可能几步三四步就ok。是这样的一个方式,就是我们对diffusion模型的一个改进。
Frank 21:21
所以我觉得StabilityAi开源的这件事情,我觉得是在整个工业界包括学术界还有整个有很大的一个影响力,我觉得推动这个行业朝一个更多元的方向发展,而且开始让普通大众对这种神经网络开始有一些兴趣,以前这种你刚刚提到的普通的工程师科学家是很难接触到这种大型的 AI模型的,但现在如果Stability AI用这种开源的方式,应该是让普通的工程师开发者都能接触到。
最近我看生态系统里面发展很快,像dream studio他们好像就在咱们开发了很多游戏的应用,就是游戏的一些场景。
然后我看到还有其他一些做游戏的游戏领域,以及包括艺术创作领域,特别多应用,包括电影制作这种,也开始接触。
我就想问一下感兴趣对咱们生态社区的基础上搭的你很多这种应用,你觉得未来包括未来现在你看到一些有趣的这种应用场景说现在或者你感到很惊讶。
Yizhou 22:45
我想你刚才说的应该是追boss那篇论文的名字叫叫dream Boots。
Dream Boss是基于我们已有的预训练模型基础上去做fine-tune的一个工作?我去用几张图片或者几十张图片或者到几千张其实都可以了,去给他植入新的概念,去把模型让模型生成他本来不认识的东西,尤其是大家用的最多的第一个方向,一个是学画风,一个是学人脸,就学你自己的形象或者学一些物件的构成等等。
这一些现在我们看到最大的应用确实在model customization上面就怎么通用的模型去做定制的生成,这是现在的一个比较大的趋势。
除此之外我就是各种模态,比如说视频有很多不同的方式,比如用现有的图像模型去拼接也好,还是用视频模型去生成也好,或者说是一些其他的模态,像text to 3D图像,这就是基于nerf的一系列模型,然后甚至有diffusion这种专用的确是模型生成,然后再去做3D match输出的这些应用。
对,我最近开始渐渐观察到,相比于最早开始发布的时候,在各个生产工具的或者说生产力场景下面,diffusion开始,或者说以stable diffusion及其延伸的一系列产品,开始渐渐有了一些位置,然后有很多各种有更多的应用,这是现在的一个观察。
Frank 24:42
Ok我作为用户,我是比如说我们公众号上的一些图片都是 最早是通过midjourney生成的,但最近几个月的图片我们都是通过这个stable diffusion应用工具,文本去搜索,然后生成图片。
这种在Stable Diffusion的discord channel里面还有一个在Stable diffusion里有一个图片搜索的应用叫lexica.art。
Yizhou 25:11
Lexica.art对。
Frank 25:13
它是底层是基于stablediffusion搭建的应用一个图片搜索的场景,我们最近几十个图片都是在上面生成的,发现效果是很好的,你刚提到如果语言比较丰富一点,它会生成的就更准确一些,如果是词语比较少的话,它确实生成的效果并没有像midjourney那么好。
然后然后我在想咱们开发者社区现在是发展情况怎么样,我比较感兴趣,因为因为我觉得Stablity AI最核心的一个,我觉得是开发者社区这一块,就是因为我觉得c端用户应该没什么问题,但我想知道开发的社区大概是现在目前进展是什么情况,能介绍一下吗?
Yizhou 26:03
其实我先说一个观察这个Generative AI,然后stable diffusion社区最大的一个特点是开发者和终端使用者之间界限比较模糊,确实我们会有一些真的,我们可能会说是纯用户的,就基于比如说你在用Web UI或者说是在用一些纯粹的服务,host在一些国内的服务上面或者说是Global的一些服务上面,直接用模型可能是纯用户,但如果你自己拖了模型的权重,然后你自己跑起来的Diffusion的代码,你稍微改一改上面的东西,你只要发过一个PR出来,这都是在社区有贡献,这都已经是有贡献的开发者了,都不单纯是开发者,有很多开发者可能不一定对社区有直接的贡献,还在开发者社区里面。
其实开源项目可能都会有这样的特点,就开发者社区不一定是一个紧密的被管理的存在,我们也不会去做这样的一个事情,我们把自己设为是开发者社区的一员,就Generative AI这个模型社区,Stability AI是其中一员,我可能会希望他成为比较核心的成员,希望他能够驱动赋能整个开发者社区更好的成长,去给大家带来更多的技术,但我不会说我要管理一个开发者社区,which会有一点点问,会有一点点这个怎么说巨头的感觉在里面,但其实不是这样,我们更多的是作为我们自己是社区的一份子,我们可能会希望社区在在围绕我们运行一些它产生一些更多的创新,我们怎么去管理开发者社区,或者说我们怎么去跟开发者社区进行交互,其实跟我们传统的校园社区一样,我们可能会给他们的项目,像我们大家自由的去提issue去做pr然后我们合代码,然后我们去做事,我们去给其他的一些项目去做一些贡献。然后 discord的里面会有几个核心的偏研究者的社区,比如说 eleuther.ai,Laion,CarperAI以及现在我们自己stable diffusion社区里面也有一个开发者研究者专有的频道,以及跟学界和产业界的这种升级。在公司层面上也交流,以及大家去这种比较重要的会议,比如说NeurlIPS,我们的很多同事现在都在NeuralIPS去开一些小的party,然后去跟参会的人去互动,整体来说是一个比较多元的跟社区互动的方式。社区对于我们来说的意义是什么?Stability是社区里面成长出来的公司,然后本身也致力于让社区更好地成长。像我们这些算力很多都是为了开源,不能说很多机构全部都是为了开源项目的投入的。
Frank 29:24
我有一个我感觉咱们Stability AI就是在 Openai或者说在generative AI里面,它是和其他这种社区,你刚提到这几个社区,都是相当是一个联合盟友的关系是吧?感觉是一种互相都是重合的,是这样吗?这些社区。
Yizhou 29:50
我们support这些社区,比如说Laion, Clip ViT-H是我在我们的基础上训练的,训练完了以后开源它也成为了我们的Stable diffusion2.0的这个基础的编码器,是一个共生的关系。
Frank 30:07
Ok我觉得对其他的这种社区,比如我接触的时候,区块链很多社区他们是并不是一种共生关系,就是要么是一个竞争关系,甚至互相排斥的,但是我发现咱们这个社区是比较大家都是就像你说共生,然后重合,大家互相在帮忙这种,我是这样感觉就这种是吧?
Yizhou 30:35
我们其实也观察过怎么说。这个领域之所以能够在一个共识下面用区块链,形成一个比较好的互动,很大原因我们在同一个基础平台上面去做事情。我们在文生图这一件事情来说的话,我们都基于stable的开发,基础模型这边主要就是stability是在做,当然现在也有一些其他的基础模型可以选fork diffusion模型做的也很好,然而是个大一统模型。大家有同一个目标,然后有同一个基础平台,就同一个基础架构,有同一个着力点,那会比较容易形成一个合力发展的状况。
Frank 31:39
Ok,我大概能get点我刚刚看到社区有朋友在提问,3D资产生成,目前的情况你大概了解吗这一块?
Yizhou 32:08
3d是这样的,我们现在其实我们内部有一些尝试探索,但是现在我们来说应用的话,现在走到应用层可能最大的掣肘有两个。Nerf质量不是大问题了,那时候特别是场景相关的NERF质量可能不是一个大问题,但从纯生成上来说,质量现在还是有一些差距,特别如果是DreamFusion那个路线,就是从diffusion往上走,再走Nerf的话,现在生成质量离直接能投入应用还有一点差距,尤其是它可能对于后期编辑也不是那么友好。
另外一个一点是它的速度太慢了,我们现在生成一个那是要10分钟,其实这个速度如果放在整个编辑的工作流里面,对于三d建模师等等需要去跟工作又去做这种human的loop,我们叫人在人要控制生成过程,然后人和生成过程要进行交互的这一个应用来说,速度还是不够快。现在看现在可能的发展路径需要一点,一个就是质量和速度都是需要有技术突破的地方。
然后另外一个如果技术能突破,我们需要有良好的数据集去建设一个3d文字之间有良好连接,或者3d与其他模态之间能有良好连接的数据集,让AI来学习,让我们能够在上面去搭建应用,搭建模型,搭建在进进一步搭建应用,这是未来可能会需要着力的地方我们在做。
然后其实也有很多社区的其他的开发者也好,还是有其他的公司也在做,应该不会很久,我们自己预期可能明年就会有一些相对能够落地的东西出来。
Frank 34:04
你们目前生态里面你大概能说一些覆盖的应用,或者说利用类型大概有哪些?比如像生成代码或者说文本到图像这种。
Yizhou 34:20
明白,你说的是Stability整个生态对吧?它对生态分几大块,其实看我们官网的话可以大概看一下做我们都有哪一些给我们去比较深度合作的开源组织。
最直接的我们自己自有自己的 stable diffusion,然后文生图其实还有一个我们叫做或者是多模态,我还有一个DeepFloyd也很快就会有一些声音出来。
然后文字方向的话有优势的Eleuther AI,做的是GPT原来做GPT-J和GPT-Neox,然后有CarperAI做的是 instruction GPT,这些都是所谓的文字生成模型,有Laion这核心目的是数据集Laion-5B,然后他们也在训练clip,Laion-5B也刚刚发论文,是现在能够找到的最大的图文数据集,完全开源的互联网图文数据集,这是我们几个比较核心的,大家可能交互会比较多的一些产品。
偏向应用层了,但除了这些偏向应用层的以外,还有一些组织,比如说像我们叫openBioML,这个是做开源开放的 AI for science,我做的是为了科学研究的,为了生物医药方向研究的一些开源模型,这是openBioML在做的事情。然后除了这些以外,我们还有很多individuals是谁来跟我们合作去做不同的模态。
总而言之,大家看到的Stability可能更多的是stable diffusion,但在整个stability里面,真正全职全心全意focus,在这波底譬如设想的人是少数,大多数的人在各个分散在各个方向上面。
Frank 36:23
Ok然后我还有一个问题,你刚提到的文本语言模型之前,像 GPT-3/GP-4 level的这种llm在openAI里面大概有很好的效果,在工业界产生很好的效果。咱们这方面你刚提到Eleuther AI他们做这块是吧?
Yizhou 36:51
对,但是我们可能跟openAI还是有一点点区别,比如说openAI的最终目标就是aigc对吧?就是所谓的通用人工智能,但stability我们并不是说要把aigc做我们的atomatic goal,我们的想做永远是叫AI for the people by the people。
首先你people要能用对吧?像偏创意的这些文本生图等等可能是我们一些重点,但我们会有语言模型,会有语言模型跟EleutherAI合作跟CarperAI合作,我们会去训练这样的相对可能参数量没有那么大,没有到几百个billion,可能几十个billion这样的语言模型。
Frank 37:44
Ok。我理解就是你们计算文本这块的图片这块模型的硬件成本是非常之高了,然后你们比如说几十亿张图片,或者说多大概多多大量的图片量。
Yizhou 38:00
2b的话,我们训练用Laion-2B的子集,就是21倍20亿的图文本,对这是1.0版本。然后再从它里面取有美学的子集,可能就没有几十亿张,可能几亿张这样去分阶段的训练。对,所以训练成本还是会比较高的。
Frank 38:24
Ok。这种这么高成本就是我在想知道别人怎么维持在工业界的领先地位,是因为因为这些大厂他们可能也有这像比如说Meta他们也有这种大概是讲一下。
Yizhou 38:40
围绕开源生态做发展,确实会给我们带来一些在生态上独特的位置,在这围绕它,我们可能会去希望在开源的模型方面更多的去做开源生态的一个基础设施,比如说模型的定制,模型的推理,然后更低的推理成本,以及在社区围绕社区生产出来应用,但是在整个通过整个生态扶持整个生态来实现自己的成长,这些就不会特别straightforward,不会说我卖不会说我close这个模型以后纯卖API,这可能是一个相对看起来比较直接的商业模式,但我们没有办没有这样的选择,我们是在一个开源的基础上,我提提供整个底层的架构,提供底层的计算能力,然后提供定制模型的能力,提供通过这种企业合作等等的形式在做。然后正好看到了群里面提了一些问题,我可以先把后半点后半段就是在国内有怎么样的布局和安排,现在我只能这么说是,我没有国内现在还是在目前这个时间点,肉身在国内的全职员工还只有我一个人。
我们对国内的市场怎么看,会不会有怎样的布局和安排?
不会完全放弃国内,但我们以什么形式来做,然后自己的定位是什么都还是一块是small market。Ok,然后我回答问题,我是怎么加入到stability AI的,我一开始有回答这个问题,我之前在社区里面贡献的一些项目,从一开始的diffusion时代,有有做当时有一个很奇怪名字的项目,接着Kathrine的V-diffuison之后,我拉了一个Fork出来,就是能够画人像的,然后第一幅画的人像,当时太太正好在读一本书叫一个小中文名字,我不知道怎么说,但简而言之就是在一个废墟里的公主的这样一个形象,然后我画出了一张图,然后是当时协议disco第一波能够拿openai的diffusion画出人像的一个社区的成员,然后我拿了这张图,我就把我的 notebook开源出来,当时因为第一张图是 generated your princess,那张图的名字叫做 princess generator, anyway。
就这么从这个项目开始,后面写了一些其他的项目,然后基于Latent diffusion开发了Majesty diffusion,然后当时也是在latent difussion基础上生成效果变得很好,基本然后也在中间的一段时间参与了一些disco diffusion的维护和这个方法的贡献。通过这一些在社区里比较活跃,就顺理成章加入到Stability AI。因为当时社区的大部分成员就是也有很多成员跟我交互的成员是Stability AI的早期的员工,包括Emad本人。
Frank 42:15
Ok。现在有一个Martin的朋友提问AIGC的主要变现模式,这个是个开放问题,Yizhou也可以说一下,我等会可以补充一下,你说这个变现模式。
Yizhou 42:28
其实我们可能要分开来谈。
变现这边我们aigc这个词有一点广,因为就像我们说aigc的时候,我们可能会求出的像Jasper这样的纯文本的模式,也可能会说提到我们现在的这些文生图,也可能会受到生产率工序等等,会有很多可能性。
如果从换一个角度来分,就to b或to c其实都有可行可能可行的变现模式,但我们确实也观察到一些一些大家做变现的时候的痛点,可能做商业服务做to b这一条路径在国外的验证验证的比较好了,在国内大厂的API等等,作为云厂商的服务可能也得到了验证,开开创业公司来做这件事情。
比如说 a我要 a能对多高,可能还是一个开放的问题。那to,c的话,现在看基于兴趣的付费模式,如果能够找到比较好的点,比较好的社区,解决一个垂类的问题,可能还是有一些空间的,但整体上来说,观察下来付费率等等也没有特别的高。
但生产工具垂类的应用,或者是做这种平台生态性的工作等等,还是会有很多机会的。我感觉这个地方想给出一个定论,为时尚早,我们可能还要看一下对。
Frank 44:28
AIGC这是一个产业,应该说是目前的 AI的大规模使用的方向,产业。Stability AI只是它里面的一个平台性的商业模式,类似于像比如像区块链里面公链这种商业模式,其实然后它里面其实还有各种各样的就是一些场景,个人都会有,比如说去除了你刚说的文本生成图像这种,然后还比如说代码生成,就自动代码生成,这也是一个还有一些消费级的这种消费级的自动生成代码,比如自动生成文本,还有自动生成文本的图像,然后然后还有像广告的一些计算广告的这种有关键词广告。
Yizhou 45:22
你看分的主要是模态,可能从另外一个角度上来思考的话,主要是作为生产与工具,还是作为一个娱乐的一个方式,还是做一个其他的什么东西,现在现在可能性确实很多非常多,能看到的应用也很多,这也可能是大家产业最近比较受关注的一个原因,因为至少从我的角度上来看,可能性远远没有被发掘完。
Frank 45:54
主要还是媒体就是多媒体文本、图像、视频还有声音,大概围绕这些上面都有一些各种比如像游戏的电影制作艺术,还有这种都有很多,比如NFT这种 。
Yizhou 46:12
c端能够感知到的确实是这些,还有一些可能c端不容易感知到的蛋白质结构,药物分子,对,这些其实也是 AIGC, C可能就有一点这个就是多媒体的问这些模态的味道了,但我们一般我们自己说的话,我们就针对AI生成式AI,它生出来的可能不只是媒体文本,这些的可能是蛋白质模型,然后建筑这些可能c端感知没有那么强,但有很多应用可能的一些模型。
Frank 46:48
对c端感知我刚才说的这些这几个多媒体这一块,你刚才提到这个叫在生物学领域也有了,代表已经有这方面的一些工作。我看前几天有一篇文章,TechCrunch报道过的主要在生物学,在化学、计算、生物,还有蛋白质分子模型构建这块,都也用了Generative AI这种技术,然后更多的更广的还可以运用到军事领域,可能各个领域都会用到,大家还有什么问题吗?没有问题的话,我最后问一个问题,因为我看你们很关注在在线教育这一块,在线教育这一块大概有什么一些想法,或者说我看创始人Emad,他说在线教育这一块有些已经有一些应用了是吧?
Yizhou 48:13
你刚才说在线这个词有点意思,它不一定是在线的,但确实是有AI的教育,在我加入Stability之前,Stability AI这个项目,,在早期我们在马拉维有一个投放了一些平板电脑,然后平板电脑里面有 AI模型,然后通过这些去做一些儿童教育,儿童教育就是偏远地区不方面联系网络,可能用AI可能会打开一些可能性。
从现在的角度上来看,现在的时间点我们也观察到很多开始使用Stable diffusion也好,使用其它的这种大型的语言模型也好,比如说基于 GPT,Eleuther AI的GPT:GPT-J,GPT-Neo或者GPT-Neox去做一些fine-tune也好,去做语言艺术教育,然后儿童启蒙等等,或者说给自闭症儿童一些可以交互的方式去探索新的数字治疗的方向也好,这些都是跟教育或者说教育,刚才也提到一点点医疗,或者说一点点健康相关的一些应用,它很多的会在这些应用层,我们会看到很多合作伙伴,很多的社区成员在做各种各样这样的探索,从我们角度上来说,我们做好了基础模型,一定是希望它能够被更多领域所使用的,而且教育医疗应用等等,其实是我们非常感兴趣且愿意去支持的定义。
Yizhou 49:57
然后我看到我看到会议里面有两个问题,一个是我的工作focus,哪个方面,我主要focus在Stable diffusion的推理,推理方法推理要架构我们自己的platform的搭建,这是我的focus。然后另下一个问题是很多内容不能够直接投入现实场景使用,未来可能吗?如果有的话多长时间能是会实现?现在有很多已经进了真实场景了,只是说我们能够适配多少的真实场景,这个场景一定是逐渐的扩大的。从文生图这个角度上来说,如果是做比如说我们经常可以看到现在很多公众号开始用了,最早可能是和菜头,然后现在有很多公众号开始说,我每天的配图我不找了,我就是用stable diffusion生成一下,这已经算是进了现实场景,但真正作为进入了一些要求比较高的见识场景,比如说我直接进到平面设计、广告生产、工业设计,我进到游戏的立绘,进到建筑的外立面的一个效果渲染等等,需要一些定制模型来做这件事情,定制模型基于平台模型,其实现在有一些定制模型已经出来了,前两天看到一个比较有意思的应用是美甲,就基于stable diffusion进行了fine-tune,然后去设计美甲图案很有意思。
就这一些经过翻成的模型,已经有很多场景可以直接适配了,还有更多的一些复杂场景,可能需要把模型放到产品里面去跟工作流去做深度结合,去做更多的产品化的思考,才能够更好的适配。不会很久,像平面的工作流,其实明年我预测应该就有一些比较好的工具能出来,但再往后走,像3d视频这些可能会需要一点更长的时间。Ok然后我就顺着回答下来了,我看问题开始变多了。
跟美国的商业落地场景有差距吗?是付费的区别还是技术区别?
有差距有。区别可能来自于三点。付费是一个付费习惯,是一个我们Saas服务以及to c的订阅服务在国内一直活得都不是很好,我们大家都知道付费习惯上确实有一些差距,有一个回升,然后。这一部分来说确实会给国内的AIGC项产品,尤其是直接to c的产品带来一些困难。
然后第二个我想提的是社区组织形式,其实像社区类的产品,明日之类这一类的产品在国内replicate是有一定难度的,这难度来自于很多方面,一个是我们对社区的认知形式跟 discord的形式是不一样的,另外一个是来自于内容,它毕竟是内容产业,就会有一定的要求,我们多年内容产业要求会比较高一些,这也会带来一定的挑战。
第三点上,他说技术上的区别倒其实没有那么大,我们很多尖端的技术也是国内的大厂写的论文里面和大量探索里面建造的比较大的;对,然后技术上的区别,然后刚才提到其实跟大厂技术差距没有那么明显,特别是在产品层,它其实很多产品国内产品做得蛮好的,呈现结果差距在几点上面,一个是其实国内的数据集倒是真的有一点差距,相比于Laion而言,在中文领域我们找不到一个可以跟来用。
相比Laion-2b并驾齐驱的世界级,可能连1/10的Scale都不到,这就会有一个是在同等质量前提下,然后即便是同等的,即便是有一些数据集,它可能在质量上面在文标注和文本相关性上面会有一些区别,然后倾向性也会不太一样。这会确实对一些呈现结果产生一些差别。技术方面的话有一些应用可能并没有做很深度的调教,没有很没有在 Inference pipeline上面下功夫,可能也会导致成结果有差距。
但整体上来说,这个领域整体的发展有点基于开源的模型在的发展速度在往前发展的意思,所以大家都不会跟开源社区之间有太大,现在已经开源的开源社区的内容有太大的区别,太大的差距,这也是开源的一个魅力。
然后我接着下来 AIGC的视频生成,如项目的能力如何,这个视频生成这件事情分几种方式,图片拼接是一种,然后基于现有的视频经济是一种,然后直接出视频,像Phenaki这种又是一种一个说拼接的这种方式,现在我们大家看到的, 比如D forma,deform diffusion aaah,或者是。
现在大家在社区里面很这样能看到一些生成视频,这是一个它的效果怎么样,它可能会比较适应特定的应用,比如说做个MV,做个风格video什么的,但你想让它去生成一个讲故事的视频不太现实,又有挺大差距。
风格视频风格化这两天可能比较火,我看到很多国内产业跟进来做这件事情,风格化其实能力完全ready,就是产品怎么做的问题。
第三个是真正有get的地方,怎么从0开始生成视频,我们就说的简单一点的话,它是在图片生成上面加上了时间维度,但说的复杂一点,它可能要考虑很多前后的consistency,以及一旦视频动了起来,我们人对它的感知变得更加的细腻更加细致,你很难去接受其中的一些瑕疵,所以对整体的生成要素质量会更高。
这些目前还没有很ready,但我们也在努力,社区很多成员也在努力,我们会希望说明年能看到一些东西,但应该不会是从0开始做电影这种。
前两天看到了一个短视频,博主说明年我们就可以看到AI生成电影了,我感觉至少跟大家现在说的电影有差距,明年不太现实。然后再下一个问题是有项比较好的项目或公司吗?开源项目的话拼接这边deform做的蛮不错的,我们自己有一些思考,我们自己dream studio也会在很快会有一些产品出来。
然后视频风格方面。视频编辑方面,runway其实做得挺靠前的,纯视频生成方面现在还没有产品。On,device的influence进展怎么样,这主要是社区在做,然后我们其实看到最新的一些已经可以在iPhone上面跑了, iPhone上的跑你可能要忍受一下,考一下手,可能要暖手保个三四分两三分钟抛出一张图来,没办法受到算力限制。但整体来说边缘计算等等的,随着模型优化,随着硬件的进步,应该肯定是越来越好的一个状况。
现在消费级的设备,不要说移动设备,如果是PC笔记本等等,现在几乎都是可用的了,因为不管是intel也好,还是在AMD上面也好,还是Nvidia上面也好,Nvidia就不用说直接上库的,都有很好的方案,在手机上面iPhone有办法可以跑。
Frank 59:06
你提到这里我有问题,苹果他们是有计划,在苹果他们好像他们的芯片好像在下一代就可能会实现这种功能是吧?
Yizhou 59:24
现在已经可以跑M1,M2是有办法跑起来的,而且并不是很慢。
Yizhou 59:32
随着他们进步,他们会往里面加更多的神经网络单元去做这种专门是与AI推理的架构肯定加入了以后效果会更好更快。
Frank 59:44
我听说苹果好像在明年好像就要推出来这种全面的它的MAC电脑和iPhone手机,然后我估计他就是全世界最大的AI公司了,如果他能做出这种,他好像应该近两年就能实现,应该。
Yizhou 01:00:00
我会比较持保留态度是这样的,我不能说在一个如果应用端做得最好,就是全球最大的AI公司,因为AI公司你需要有几个,也需要有几个,你认为几条腿不能缺,应用可能要做,然后research要做等等 okay。
明白,然后我看到下面说用矿工的矿机来辅助AI训练模型或者帮助模型运行在商业上可行吗?看是什么矿机,如果你的矿机是FPGA的可能有点悬,但如果你的矿机是GPU的definite可以,而且我们已经看到了说有一些矿机现在已经被转成了AI训练的矿场,或者说AI推理的矿场训练的可能还没有那么多,因为训练多多少少有一些要求,可能并行的架构没有那么好搭,特别是矿机的结构,其实它之间的通讯带宽不大行,但这个推理来说是完全没有问题的。训练在某种层某个scale下面也没有问题,但是要太大的scale的话,还是需要一个比较好的推计算机群才能做。
Frank 01:01:15
之前好像也就是Emad的他们好像也提出要买这个收购一些以太的GPU矿机来做推理,找一些之前挖以太的矿机公司,以太从pow转POS它有些矿机就很多矿机就没用了,它就可以直接转。
Yizhou 01:01:36
AIGC是一个很好的可以承接这些计算资源的方式,因为它确实需要计算资源,然后他对他计算资源在推理的角度上来说,他对计算资源的要求有没有那么高,你只要有算力,对太宽的要求,尤其是卡间通讯的要求要没有那么高,现有的撞击完全撑得起来就ok,但训练训练相对难一点,因为训练确实是需要比较多的这些并行和技术架构的东西。
Frank 01:02:05
Ok正好。
Yizhou 01:02:06
现在时间点不是不能做会很慢。Ok好的。
Frank 01:02:10
我看时间也差不多了,要不今天就还有一个问题。
Yizhou 01:02:20
Generative AI的2b的工业应用还有哪些机会和挑战?我们看到的一些需求,比较有意思的工业在工业设计上面有一些需求,不管是样稿也好,还是在这些嵌入到设计工作流里面去做一些复杂的东西也好,都看到了一些在设计领域的创意设计领域这个很直接,我们可能暂时先不提,因为太直接的就跟平面设计图片这些相关的游戏等等这些都属于创意公司流的,我们暂且先不提。换个角度来看。一些其他的我们现在依然在训练中或者还没有看到的一些模型建筑,然后模块化的设计,偏设计领域,生物医药就开始已经脱离上市设计领域了,化学乃至地球仿真,天气预测等等,这些都是可能的,未来生成式模型能够发展的方向。挑战是什么?其实现在我理解到挑战更多的是模型和应用场景之间距离还是有个gap,这个gap可能会需要很多的小的或者是中等中型的企业去在这种技术和服务之间去做一个拼合,能够去给到更多的需要的企业提供服务,我可能会需要很多开发者走进来填补弥补鸿沟。
现在在技术和特别在b端这个领域,在技术和实际应用场景之间,现有的技术设计应用场景之间,还是有一些不管是产品化也好,还是数据也好,还是服务也好,这些服务这些鸿沟来等着大家来填,当然也会有很多坑。
Frank 01:04:23
好的,今天要不我还补充一个问题,是因为这个技术比较新,会涉及到很多法律的一些各个国家法律的一些挑战,我认为是对不对?
现在是这块,比如说像每个地方您介大概介绍一下像美国欧洲那边对这块是怎么看的?
Yizhou 01:04:46
法律这个问题会比较敏感,我们不会给一些法律建议,或者说对现在现有的一些法律进行一些比较直接的评价。但整体上来说,我们会合规还是蛮重要的一件事情,比较重要的。
现在看到2.0模型里面就移除了很多,我们在数据集里面移除了nsfw不适于工作的内容,整体上来说更干净一些,然后其实大家在使用的时候也能感觉到,可能更能够做出自己想要的东西,不太容易走偏,然后也可能更适用于很多服务的场景,可以考虑投入使用,它不会出现surprise的东西,法律监管一定或者会是一个挑战,这些挑战我们也在积极的去应对,也其实包括在国内如果去做一些服务的话,法律和监管肯定也是一些我们需要去考虑的东西。稍微延伸一点就是的话版权也是一个正在很Active就很动态讨论的一个话题。
Frank 01:06:01
版权这一块。好的,我今天时间差不多了,反正好,非常感谢Yizhou精彩和专业的分享,大家也休息一下,有什么问题可以在我们社区微信公众或者discord群里面可以提问的。好,
Yizhou 01:06:24
感谢谢谢CFG给我们这样一个分享的机会,好的。
Frank 01:06:28
反正之后我们可能还会考虑可能因为这次是中文用户,以后可能还有英文的分享,今天感谢大家。
Yizhou 01:06:38
好,谢谢拜拜。
Reference: CFG Labs YouTube Channel