所有AI+Crypto项目都需要ZK吗？

August 14th, 2023

TLDR：

如今许多人提到AI和Crypto的结合就会想起zkml，认为这是解决AI和Crypto本质矛盾的利器。诚然，zkml打开了AI在链上应用的想象空间，这是十分让人兴奋的，但是否所有应用场景都需要ZK并受制于zkml的核心工程问题之一（复杂计算的证明生成）是值得讨论的。而本文尝试从应用的角度，讨论AI和crypto是否有“本质矛盾”，梳理不同AI+crypto应用场景下使用zk的意义，进而分析受zk工程问题影响较小的值得关注的用例，结论有：

①公链降低了数据调用以及数据转换逻辑（合约）调用的摩擦成本，AI在特定目标下根据特定输入生成输出，两者的核心功能是接壤的，而非存在本质矛盾。

②crypto项目使用AI时主要有参与链上状态转换和不参与两种，不参与主要指用链上数据做数据服务。zk可以验证ML计算过程以及输入等是否符合人们预期，也可以保护隐私。

③对于AI参与链上状态转换（如涉及交易）

a.当用户对资产的控制力弱（如AI自动交易）或涉及公平（如代币分发的审核）时，需要zk来验证AI的输出过程。Eip7007是个有趣且特殊的例子，zkp的意义可能更在于溯源AIGC的“作者”，即模型与prompts。

b.而用户控制力强时可能不需要zk，例如为用户提供最优的交易策略并由用户自行执行的策略建议工具等。

④对于AI不参与状态转换

a.对将链上数据作为ML输入且输出不上链的项目（链上数据分析），当输入涉及个人隐私时则需要zk

b.当不涉及隐私仅做链上数据分析时，人们希望验证的仅是“项目方用了目前最好的模型”。在用户可以自由选择产品的情况下，可倒逼项目方使用更好的模型，用户也可自行验证模型结果好坏而无需zkp。

⑤一种危险的情况是，大量不生成zkp直接提供AI服务（例如托管代币自动交易，但不公布模型，类似CEX）的项目有可能迅速抢占市场。由于大部分用户并不在意个人资产控制权、项目背后模型乃至个人隐私，这种情况发生的概率并不低。

因此，不涉及状态转换/个人隐私的链上数据分析类项目，用户控制力强且不涉及公平的AI辅助类项目，可能不受到zk工程问题的限制，并率先获得大规模应用。而根本不提供ML验证方式的项目也可能短期获得大量用户。

注：下文使用AI一词时可能仅指代ML，本文在名称上做简化处理

一、公链、AI和ZK的作用梳理

（一）公链的作用

公链可以粗略理解为【通过一个开放共建的数据库降低数据相互调用以及数据转换逻辑（合约）调用的摩擦成本】。公链（主要指以太坊一类）可视作一个可交互的数据库。交互包括公链内部的交互（比如合约间的相互调用），以及内外部的数据交互（如发币）。

公链相较中心化数据库的优势包括，降低了上述摩擦成本，使数据变化逻辑可以自动执行且相互叠加，并增强了数据的“安全性”。（公链和其他数据库的对比是个复杂且有争议的话题，本文粗略地总结至此）。而所有物证明以及所有物交易都可以视作数据与数据的变化，在公链中也被称为“状态”和“状态转换”。

沟通成本的降低得益于“无需许可”以及“可组合性”。无需许减少了数据调用的沟通成本，可组合性使人们可以构建各式各样的资产管理产品，并且便捷地和其他产品进行集成，这也被称为富状态性（rich statefulness ）。

安全性得益于安全的共识机制等带来的不可篡改性。但数据的不可篡改和人们认定哪个数据是“真相”是两件事。最简单的例子是，人们可能无法随意篡改一个NFT系列的数量，但项目方一旦认定另一个合约才是“真的”，那原有的合约就会被大众抛弃。那另一个常被提到的优势“可追溯性”呢？首先，对于未来的Rollup图景来说，可追溯性仅仅由以太坊L1保证一段时间，长期可追溯需要其他DA方案。其次，由于什么才是“真”的数据是受社会意见影响的，可追溯或许有一定意义，但不是创新的核心。

（二）AI的作用

AI的作用可粗略理解为【根据某些数据，产生符合目标的新数据】。在此讨论其中两个作用，一是“模拟人类对两个数据的关联”，这种关联可以是对一个“事件”下对错判断，也可以是对一个行为做定性，还可以是根据A预测B，例如根据某个账号的信息判断其是否为“骗子”，根据天气情况判断行程会延长多久。二是从大量数据中提取信息，比如从大量的购物记录中提取个人的消费习惯等。抽象来看都是【输入一个数据，产出一个数据】，但数据的形式可以有很多，语言，图像，音频，因此这件事可以代表非常多东西。

以LLM为例，它可以理解为语义上的回归，是根据上一个词，推测下一个词应该出现什么，以及不同词出现的概率。如果**【人类语言能够代表人类绝大部分的知识】，那么LLM就有能力处理许多问题**。预测、审批、翻译本质上都是语义的回归，咨询本质上也是语义的回归，比如分析做“海洋产业”的企业应该去“深圳”。编程也是语义回归，在stata中，简单的线性回归对应着“reg”，本质上也可以理解为翻译。再加上思维链路（chain of thought)（拆解最终任务使AI可以逐步产生输出）以及其他技术，AI就能解决更复杂的问题。而autogpt，metagpt等在LLM模型基础上叠加其他技术实现的AI工具，可以使AI在处理不同的问题上表现更好。

（三）公链，AI和ZK的关系

因此，公链是【通过一个开放共建的数据库，降低数据及其转换逻辑相互调用的摩擦成本】，AI是【根据某些数据，产生符合目标的新数据】，而zk也可以粗略理解为【在不暴露数据具体信息的情况下，证明某方拥有该数据（隐私功能）】/【验证某个计算的真实性（类压缩功能）】。

公链和AI则有两种关系：ML参与状态转换和不参与

不参与状态转换可理解为【数据服务】，ML的输入是链上数据而输出不上链，即利用链上数据为用户提供其他服务，如链上数据分析。涉及链上数据修改有两种，一是输入为链上数据，二是输入是链下数据。数据服务和状态转换是ML在dapp中应用的两种底层应用逻辑。

AI和区块链的功能是互补的，而非矛盾的。人们感受到矛盾，可能是因为其站在区块链的角度，希望用另一种方式实现AI，或者陷入“区块链是牺牲效率实现安全”，“AI是需要高效率”两个特点中，认为二者的目标是相反的。

二、不同用例下zk 的意义

（一）需要zk：资产控制、公平和隐私保护需求高的涉及状态转换的项目

Modulus Labs 相关的两个用例是出于资产控制以及公平性需要而使用zk的代表。Rocky 希望做到自动交易，因此AI对于资产的控制力较大，人们需要保证AI按照规定的方式执行，就需要为ML的计算过程生成zkp放至链上，以实现随时可验证。Modulus Labs与Astraly合作的AI声誉系统由于涉及到代币的分发以及公平性问题，社区会有验证ml运算过程的需求，同样需要生成zkp并放到链上。

worldcoin是因为隐私保护而需要zk的代表。其在本地使用虹膜等信息，通过ML模型生成iris code ，再生成一个zkp使得人们可以验证该iris code是从特定数据集中训练所得，同时不暴露虹膜数据。。eip7007是个有趣且特别的例子，在本人看来由于模型以及prompts是“作者”一般的存在，为生成NFT的模型计算过程创建zkp以及在metadata里保存prompts类似于AIGC时代的作者签名，对于作品溯源原作者是十分有必要的。

（注：这里的prompts可以抽象地理解成，为了得到特定输出所需的input-原观点来自eip7007作者）

（二）可能无需zk：不涉及状态转换的数据服务

**利用LLM分析链上数据/合约是典型案例。用户需要验证的是“项目方使用的ML模型是否好”，而非项目方用了什么模型。而用户可以直接体验ml效果并在不同产品间切换，因此无需zkp来验证。**DeFiLlama 和RSS3 的 ChatGPT 插件是典型例子，其利用LLM的功能将链上数据更好地展现给用户。而Mest则更加聚焦个人地址数据的展现。这类项目对zk的依赖程度较低。

（三）可能无需zk：用户控制力强的状态转换应用

我们可以将“询问chatgpt交易意见，然后手动操作”的过程集成为一个产品，比如计算收益最大化路径的推荐器，甚至是一个需要手动交易的Rocky bot。当人们把自己的交易目标输入项目后，AI可以依赖较优的数据集以及微调后的模型，在链下计算并返回一个较好的交易路径/交易方向给用户，用户选择是否进行执行。此时人们可能也不需要zk来验证背后的模型，人们需要验证的是，在这么多服务中是否这个最优，以及这是否比我原本的计划更优，而这个是可直接感受的。crypto钓鱼网站插件似乎也基于类似的模式，项目方可以做到链下使用AI审计合约，给用户返回一个风险值。

交易路径可以是跨链层面的。用户将交易目的告诉钱包，钱包将处理背后一切的跨链乃至交易路径选择的问题，用户可以不知道各种链的存在，或者也可以为用户介绍几种路径的差异。由于用户最终可以控制交易，最优交易路径的计算似乎也可以放到链下。

（四）可能无需zk：为不在乎资产控制权的用户提供自动状态转换服务

当一个自动挣钱的机器人出现时，人们是否会将资产转移给它呢？可能是会的，正如人们将代币打入CEX或传统银行进行理财时，人们并不会在乎背后的逻辑，只会在乎他们最后拿到多少钱，甚至只会在乎项目方给其显示挣了多少钱。一种不给大家验证ML计算过程方式的AI项目，或许也能通过提供服务获取大量用户，甚至比使用zkml的项目方的产品迭代速度更快。这是危险但十分可能发生的情况。