以下文章部分内容来自于Jim O’Shaughnessy 以及Emad CEO of Stability AI在infinite loops访谈中关于AI未来发展公开对话。同时也感谢Hugging Face 铁震童鞋提供的相关行业信息。
伟大的人类从400万年前的南方古猿物种一步一步演变而来,经历了史前革命,古文明时期,中世纪,文艺复兴时代,工业革命时代等,启蒙时代的物理学家丹尼斯构想出了蒸汽机的雏形,为之后的水泵、驱动轮船和火车奠定了基础。工业革命时代,人们意识到科技进步能够提升质量,带来全人类的幸福。这段时间内,潜艇,火车,摄影术,电灯,电话,电影等技术相继问世,这也是严格意义上的第二次工业革命。第三次工业革命则是继蒸汽机以及电力革命后的,以原子能、电子计算机等的主要应用为标志的时代。而过去两年人工智能惊人的发展速度,以社区主导的大规模信息聚合有潜力推动下一个世纪的主导。当然人工智能在之前并不缺乏故事和市场运作,以自动驾驶、安防、监控等应用为特征的企业服务/政府服务题材公司,比如商汤科技,旷世科技等,都是领域的龙头。前几年AI主要以inference推理的统计模型为主导,而非现在的原理基础模型。公司通过大数据的方式获取用户数据并进行推断。不过资本的助力似乎并没有为行业带来大规模的应用以及消费级别的爆发式增长,AI企业的盈利能力堪忧。而这次生成式人工智能带来的更为巨大机会似乎让头部玩家更为兴奋。
对我们现代人来说,已经长期生活在垄断互联网企业的环境中,已经离不开这些公司。上个课得通过某些第三方直播平台,超市买吃的还要通过某些应用才能有优惠,小商贩抱怨说平台还要抽成。每天不断的接受不断推送的定制化新闻(大部分还是负面的)。当然从生意的角度上来讲,这也无毋庸置疑。在这个广告驱动的模型下,什么新闻可以获得最高收入,那么一定是流量为王,一定是点击量最多的新闻。那么是什么样的新闻呢?一定是那些让人产生负面情绪,悲伤,害怕,不确定,愤怒等情绪的信息。人本身就是七情六欲的情感动物,只不过大部分人没有/很少经历过极端情绪,比如说喜极而泣,或者悲痛欲绝。但是这种特质却有巨大的商业价值。作为父亲母亲,什么样的东西你希望带给下一代?那我希望我的孩子不会再像我们一样,大脑充斥着/接受着这些被资本家,利益集团控制下,推送的不可信/过度渲染的信息,相较于传统的广告模型,推送模型,大模型时代下,主权和选择性意味着每个独立的个体享有绝对的信息掌控权,根据自己的需要去选择和决策,比如买什么书籍,比如去什么国家,而不是不停的去互联网上搜索答案。你要记住,网络上的信息不会有搜完的一天。想想我们现在的人接收到的信息数量/质量和古代人相比,一天接收到的信息可能比古人一辈子接触到的信息还要多。信息量越大,质量越低,心越混乱。当然你可以反驳,信息量越大,越有知识储备,那么更有利于生存。那么对于信息质量的筛选就是一门学问了,更何况真正有多少人当面对的大喜大悲的时候,内心能够做到如如不动呢?所以我思考下一代AI引领的革命一定是开放性,一定是我们可以基于一套标准的技术设施(软硬件等)自我创造,并且可以定制的技术,无论对于个人,对于社区,对于机构,还是公司来说,都有自己的数据,并且有大量的开放式的讨论,这里面包含的问题,讨论,甚至是批判。都应该被共享出来。同时,这些垄断企业主打的广告模型下的智能推送将会逐步被边缘化,被所谓的“生成式搜索引擎”所取代。
开年才两个月,我们看到AGI的发展比过去几年的发展都要快,不管从VC融资,硬件厂商推动的神经网络的发展,以及各大语言模型的上线,等等。在大模型时代,我们更强调在开源社区的力量下,人的主权的重要性和对于技术的可操作性/可迭代性。而技术本身也从统计模型逐步过渡到用理论推导,基本面支持的大语言模型时代。模型更为合理和可理解,同时可以吸引到有IP,有内容,有故事的真正的创作者,比如美术设计师,比如程序员,比如内容创作者等等。在这个背景下,全球化的视野对于行业领袖尤为主要,生成创作的背后实际上是妥协各方,各种信息大规模协作的能力。
当然,高门槛才能催生出顶级人才的竞争,不管是高成本的算力(千万美金,亿美金,目前三大云服务商,AWS, GCP 和Microsoft Azure每年共计花费1000亿美金在资本性支出),结构化数据,还是计算领域最顶尖的人才。而对于模型公司,像Stability, OpenAI等公司则仍然在比拼算力的阶段,大部分公司也是怀着开源社区的初心,设立成非营利组织企业,大规模商业变现之路还刚刚起步,或者说这帮人根本不想所谓的商业变现。这不是说大话,真的有团队过来谈融资,纯开源,非功利性的,不想赚钱,他们这帮极客认为钱会腐蚀初心,我觉得完全可以理解。而且我认为这种方式可以过滤掉很多短期炒作的投资人和创业者,对于行业是件好事。
Linux操作系统的安全性,强大,适应能力,让我们了解了开源的力量。那么如果我们能够吸取其开源理念的精华,吸取任何事物好的一面,并且赋予新的技术,那么人类社会一定会跟着大部队(大部分精英人才的)方向去发展,造福子孙。Stable Diffusion的模型核心在于压缩,据CEO Emad介绍,Diffusion 模型可以将100,000GB的图片压缩为2GB的文档。其实压缩技术并不为其,我们之前也在介绍项目Celestia (区块链数据可见DA层)中讲过Reed- Solomon 本质也是一种压缩技术,或者称为还原技术,有兴趣的朋友可以看我们之前关于Celestia的系列。当然这只是文生图模型,据说Stability之后会开源其大语言模型(测试结果也更优于Facebook最近发布的LLaMA), 当然同期,我们看到了技术的快速进化,ControlNet的问世,阿里参考了Diffusion模型上线了Composer,或许和SD有一定程度的竞争等等)。
Celestia的数据可用性
Celestia2-技术实践
Celestia的模块化架构
试想下大数据模型下的运作形式,作为消费者似乎只有知情权而非选择权,而对于技术的理解,掌握,甚至如何运用,根本是一窍不通,大公司更不会傻傻的把核心技术放出来,教你怎么使用。借助他们的核心技术,做了颠覆他们的产品,对于行业发展无疑是正面的,对于他们来说,则失去了核心竞争力。这无非是一场心理博弈和是否有商业巨头的足够大气和远见。更别提把自己的模型上传给像Hugging Face Hub这样的平台,供后人使用迭代了,技术的发展本身也不是一蹴而就的,只有不停的分享,迭代,大规模的协作,才有可能实现颠覆性创新,这或许才是我理解的开源精神的精髓。那么试问在现有的模式下,何来的大规模协作,毕竟口号不等于实践和行动,而真正推动人类社会发展的是action! 模型的单一,以及偏见,而非动态迭代的事实,使得AI始终无法落地。所以对于今年各大Web2.0科技公司加班加点搞模型的事儿我并不太关注,竞争 vs 协作,那么公司理念侧重于合作的公司我认为才会可能走得更远。在我看来理念,愿景,使命这东西还真不是虚的,本质上还是大于技术专业性,毕竟现在都是机器人时代了,机器人脑有望超过人脑。Web3的组织形式,似乎很契合AI的发展趋势,相较于你在大企业从分析师,研究院,熬熬熬,到工程师,科学家,然后在一个所谓的专业委员会中,被迫做出一个不太好的决策,DAO更多的强调提供人们专业技能的相应工具,比如Facebook最近的发布的AI end to end Toolformer 让工具学习,并且为人类工作。不可否认,就连人类本身也是一种被人类操作系统编好的程序,这几年脑科学,生物科学的发展,让我们不仅设想,AI是否能够帮助我们了解,并且挖掘没有被人类的造物主发觉的可编程的功能,比如人类是否一定需要氧气才可以存活?是否能够在某些特定条件触发后,能够实现永生呢?
同时模型的自定义和兼容性也很重要。目前Open AI的GPT3是最获得社区支持的语言模型,可以生成句子,诗歌。但未来或许不仅仅是语言本身,我们认识,故事,内容都可以进行比对和创造,那这就需要模型的迭代,创新以及适应性。什么是适应性,理解下,一个国家,用当地的语言级去训练,一个宗教也理应有自己的训练集合。通过交叉比对,我们可以深度理解不同的文化,宗教,种族,国家的差异和共性,这是以前的技术无法大规模实现的,所以这本质是信息的集群和规模化。大学主修数学时,Shannon的信息论是必修课,他在20世纪中期提出的理论也的确为后世几次大的技术变革奠定了理论基础。据Emad介绍,Carper是EleutherAI分支下的一个研究组织,主要负责架构分析,正在通过表征学习+RL的方法进行大规模的人类偏好学习,可以建立大规模、自然文本的个性化偏好模型,并且将模型参数降低100倍,比如GPT-3的1750亿参数可以被压缩到13亿。
至于工业界的应用,我觉得教育和医疗应该是大部分人关心的。特别是在线教育被冲击后,行业迫切需要新的技术去推动发展。传统的教育模式,说过时也不完全为过,一天十几个小时坐在那里,听着老师敦敦教诲,做着不一定完全自愿的事情。如果这真的是唯一出路,那么那些所谓的神童,辍学来创业的案例怎么解释呢。所以小朋友其实是艺术品,竟然如此,建立一个适用于大众化的教育体系难免就会失去吸引个人的个性化特色。而完全满足每个人需求的东西,那么搭建起来一定不便宜。我认为好的教育,应该是足够开放,怎么理解呢?没有做过父母,教育孩子的我觉得很难深有体会。教育不是支配,也不是满足自己的欲望,更不是一系列条条框框。而是给他们实现理想的工具,这过程中的开心和喜悦来自于他们可以支配的力量,这过程的心酸与进步,以及对未来,对理想的期待。所以技术本身可以带来的智能,适应性,最重要的我认为是共情,从别人的角度思考问题,这个很重要。
AI特色教育领域,Speak、Quazel和Lingostar这样的平台已经在尝试,还有针对某些特色学科,比如说数学,历史这种。除了学习具体科目外,学生们还在作业中利用人工智能辅助工具。像Grammarly、Orchard和Lex这样的工具帮助学生克服写作障碍,"提高 "他们的写作水平。处理其他形式的内容的产品在全国各地的高中和大学中也越来越受欢迎--例如,Tome和Beautiful.ai,协助创建演示文稿。Tome也在最新的B轮融资中获得了Stability AI, CEO, Google ex-CEO,以及光速,Coatue等4300万美金的融资。医疗方面,微软开源BioGPT的同一天,Stability也成立了MedARC, 是一家专注于医疗人工智能的基础模型研究机构,CEO还是个19岁的年轻博士。
如果说Web1 和Web2, 我们理解为UGC&PGC, 那么Web3和Web4 不妨理解为AIGC, Aledu&Albio。目前AGI领域共有350家公司获得融资,并且金额高达700亿美金,来自于头部VC机构。我们相信Google,Stability等多年的研究成果为行业奠定了扎实的理论基础,同时目前主导的Diffusion和Chat GPT模型的优势将有望延续,毕竟游戏才刚刚开始**。**
**
**