Chainbase 正在推动链上数据领域向全新的范式方向发展。
AGI 时代下的“数据荒”
算力、算法以及数据,是推动 AI 领域发展最重要的三驾马车。事实上,近年来随着硬件设施在技术上的不断革新、一些 Web3 算力体系不断面向市场,算力不再是紧缺资源。而随着不同 AI 生态的长期运行,算法也正在不断得到升级与完善, 比如 ChatGPT 大模型正在变得更更具智慧,而一些自动辅助驾驶模型也正在变得更加精准。
但在数据领域,似乎并不是那么乐观。
事实上,越是顶级的 AI 模型,对于数据的质量要求越高,而能够用于 AI 训练的数据,通常是经过筛选的优良数据。
以 AIGC 领域的 ChatGPT 大模型为例, GPT3 是在 45TB 原始数据中过滤出的 570GB 数据上训练的,而 GPT4 模型所需要筛选的优质数据量更大。所以仅在数据的筛选上,OpenAI 就要付出极高的成本。另一面,互联网数据虽然是得到了广泛的利用,但从 GPT3 到 GPT4 算法的迭代,也几乎耗尽了互联网上所有公开可用的数据。
在区块链数据领域同样面临囧境,但其与传统互联网所面临的情况恰恰相反,即大量的链上数据并没有得到充分的挖掘与利用。
链上世界现在有着上百条链,这些链每天会产生大量的链上数据,并且数据本身是公开透明且无需许可的。但问题在于链与链间是异构的,并且不同的链间是割裂的,捕获、筛选不同链上数据的难度大大提升。现阶段,链上数据的采用通常需要开发自行接入到不同的 API,并进一步根据 Raw 原始数据来解码出 Decoded 解码数据以及 Abstracted 抽象数据,但这似乎难以满足一些 AI 应用在数据上的需求。链上数据就像一块又一块亟需开采的油田,但缺乏合理且高效的开采手段,所以 AI 在加密行业的规模性采用同样存在一定的局限性。
我们看到,像 OpenAI 这类具备独立的、超大规模性筛选数据能力的公司并不多见,同时这种传统数据治理方式,也并不符合 Web3 的理念与经济逻辑。
可以预见的是,随着 AI 不断向 Web3 领域渗透与拓展,对于优质链上数据的需求将不断呈现指数型上升,并将成为新的蓝海市场。
而在该垂类领域,Chainbase 成为了率先入局者,并有望让链上数据领域所面临的问题迎刃而解。
Chainbase 正在构建一套为 Web3 设计的综合数据基础设施,基于其可拓展的全链数据集并引入了诸多系统角色,其支持用户大规模索引、转换和利用链上数据,推动链上数据领域从分散走向统一,并更易于治理、解码与采用,最终从根本上改变加密货币和人工智能之间的协作,打破链上世界的“数据荒”。
作为全新蓝海市场的率先入局者,Chainbase 近期也备受资本市场的关注。据悉,在今年 7 月,Chainbase 获得了一轮 1500 万美元规模的 A 轮融资,本轮融资由经纬中国(Matrix Partners China)领投,Folius Ventures、Hash Global、JSquare、Mask Network 和 Bodl Ventures 参投。顶级的投资阵容也代表了一级市场对于 Chainbase 叙事方向以及潜力的高度认可。
本文将进一步对 Chainbase 的解决方案进行探索,以加深读者对于 Chainbase 项目认识与了解。
Chainbase:打造 Web3 最大的链上数据集
Chainbase 旨在以 Web3 的方式打造全链数据集,并成为 AGI 时代最大的数据基建设施。该网络是一个开放的且多元化的链上数据资源网络,囊括 Raw 原始数据、Decoded 解码数据、以及 Abstracted 抽象数据。
网络本身的开放性意味着所有人可以从网络中获取数据,同样所有人也都可以加入网络中。
从输入端看,任意链的 NODE operator 或者 RPC provider,都可以接入Chianbase 网络,通过 Chainbase 产品架构中的公开数据网关(open data gateway)提供不同链的上述数据,作为网络中的 Raw 原始数据。
而在数据的解码端,Chainbase 网络允许开发者自由的加入其中,他们可以在 Chainbase 网络上使用 SQL 等常见编程语言创建自己的数据格式"手稿”,以对原数据定义、提取、转换和处理,从全链数据中提取有价值的信息进行分析。所以开发者角色将帮助网络中的数据解码并实现更好的治理,在这个过程中其也将从网络中获得激励。
而在共识端,节点运营商通过运营 Chainbase 节点,将保证数据网络体系更平稳的运行。
基于分布式的体系,即增强了 Chainbase 数据网络在数据治理上的可拓展性,也大大增强了数据的可访问性、透明度和可操作性。
当然,作为一个分布式的全链数据生态,Chainbase 网络无时无刻都在处理大量的数据,那么为了让网络更好的实现可编程性和可组合性,并支持高吞吐量、低延迟和最终性,Chainbase 设定了一个四层架构以及双链体系。
Chainbase 数据网络设定了四层架构设计,从数据进入网络到数据治理再到数据的执行采用等,分别发生在不同的层中,保证了网络保持高性能的同时,也保证了数据的全链链接。
四层架构的四个层级分别是:数据处理层、共识层、执行层以及协处理层。
数据处理层是 Chainbase 数据网络的数据入口端,链上、链下数据都会基于该层以无需信任的方式传输到其数据湖中,该过程将基于零知识证明以及 SCP 存储共识机制来确保数据的完整性与可靠性,并以 Rollup 的方式传输至网络中。通过与任意链的 NODE operator 或者 RPC provider 的链接,保证了 Chainbase 数据网络与全链链接。目前 Chainbase 的数据刷新间隔小于 3 秒,保证数据的实时性,并且与 8000+ 的加密项目方、链上生态达成合作。
共识层是网络对数据状态建立共识的关键,基于网络中的大量且分散的节点运营商,并以 Cosmos 的 CometBFT 共识算法为基础,保证系统在大数据负载下能够高效且稳健地达成共识,并保证网络数据处理的效率和弹性。
执行层在 Chainbase 网络中,负责数据的存储与调用。事实上,在以太坊的顺序型数据库通常需要处理大量的数据读写操作,特别是在智能合约执行和状态更新时,因顺序处理任务经常导致延迟和吞吐量限制,这意味着随着网络规模的扩大和交易量的增长,其面临着性能瓶颈和扩展性挑战。
Chainbase 网络中在执行层中构建了创新的 ChainbaseDB 数据库,该数据库支持数据任务的并行化处理,保证网络在数据的高频调用时,仍旧能够让 网络保持高效性与吞高吐性。目前网络中已经存储了 PB 级别的数据量,并且每天处理着 1.1亿- 1.5 亿次的全链数据调用,而累计调用总量已经超过了总共 5, 000 亿次。
与此同时,为了保证数据在执行时的安全性,Chainbase 网络正在从 EigenLayer 寻求支持。通过在 EigenLayer 建立自己的 AVS(主动验证服务),使得 Chainbase 获得 ETH 质押者从以太坊继承的强大经济安全性,这不仅保证了网络数据处理服务的安全,并平衡了执行层的高性能和高安全优先级,同时也大幅降低了网络数据安全执行的经济成本。
协处理层是网络中数据处理、输出的主要层级。协处理层中支持开发者进行协作来对帮助网络解码、治理数据,比如基于协议统一标准和简单的交互界面,开发者可以创建“手稿”来持续为网络数据的解码做出贡献,并在众多优质开发者的协作、知识贡献下构建更为优质的可用数据集。网络会为贡献者们的 CBT 代币的方式量化并资产化,通过激励来推动贡献者们积极参与网络的贡献。
事实上,协处理层基于自身数据体系以及开发者群体,已经构建了一个智能化的数据集,用户可以向该层提出某些方面的数据需求,协处理层的开发者则可以帮助用户归纳出可能需要的数据,直接满足数据上更为精准的意图。据悉,目前 Chainbase 网络已经合作的 15000 + 开发者。
另一面,基于网络中的优质、实时的数据集,Chainbase 目前也正在训练自己的 AI 大模型 Theia。Theia 大模型以其 70 亿通用大语言模型参数以及超 2 亿 Crypto 参数进行训练,基于其复杂的 D2ORA 算法和人工智能技术为基础,其擅长从大量链上和链下数据中辨别加密模式能够为用户提供了完整的推理链,产生透明可靠的结果。从用户端,它们支持自然语言交互,显著提升了用户体验,并允许直观地探索和分析区块链数据,获得前沿的链上洞察,更能够定向的满足于加密用户。
事实上,相对于 ChatGPT 以及一些现有的 AIGC 模型,Theia 模型最大的优势在于其完整、优质且实时的数据体系,通过对全链数据更为全面的遍历,其能够更为精准、全面的为用户提供洞察。而对于一些开发者、科学家群体,有望进一步基于 Theia 定向化的构建一些任务模型,以服务与具备不同需求的用户群体。
而随着 Theia 模型的进一步迭代,链上世界也将从“向前看”,进一步迈入智能化的“向后看”的全新时代。
上文提到,Chainbase 本身从 Cosmos、EigenLayer 获得了不同方面的支持,以增强跨链数据的可编程性和可组合性,支持高吞吐量、低延迟和最终性,并且这种中心化和并行的环境不仅提高了效率,也提高了经济安全性。
Chainbase 高效的共识机制来源于已经得到验证的 Cosmos 的 CometBFT 共识算法,保证数据网络高效、弹性运行。而通过采用 Eigenlaver AVS 来承担执行层的任务,意味着用户不能可以使用 CBT 代币进行网络安全质押,同时也可以通过 ETH 代币质押达到同样的效果,双币体系与单一质押模型相比(代币价值下跌导致网络整体安全性下降),该架构进一步实现了更高的博弈论安全性。
从生态进展上看,目前 Chainbase 已经启动了 Prima Materia 测试网现,以作为 Chainbase 主网部署前的关键里程碑,该测试网为全球开发者提供了一个安全、高效、可扩展的 Dapp 开发环境。Prima Materia 测试网通过兼容 Manuscript 标准,已经具备上述特性。与此同时,
Chainbase 为开发者提供了全面的 AVS Operator 设置文档、教程和社区支持,开发者通过设置 AVS 节点,可获得未来代币激励。
上一代链上数据生态通常仅支持链上数据,甚至一些数据网络主要以以太坊以及 EVM 兼容链的数据为主,同时社区用户难以参与到数据体系的共建中,数据体系的增长、拓展存在局限性。Chainbase 作为新兴链上数据网络,其相对上一代分布式数据网络。有着独特的竞争优势。
从数据网络规模上看,Chainbase 以链抽象的方式,支持任意数据颗粒度的跨链跨表互操作,实现更广泛的数据覆盖。**并且其不仅能够广泛的覆盖全链数据,同时还囊罗了链下数据(目前每天处理约 1.1亿- 1.5 亿次的全链数据调用),并且该网络以社区共建的方式推动数据网络体系的增长,与此同时,抗审查的架构拥有最好的数据扩展能力。从长期看,随着 Chainbase 数据集的拓展,尤其是Theia 模型的拓展,其在网络规模上有望更具规模性。
从数据网络结构上看,绝大多数分布式数据网络本身并不涉及数据库的复杂处理,所以在处理大规模、复杂数据时,依赖于集中或分布式系统的性能可能成为瓶颈,尤其是在高频数据更新的场景下,确保数据的一致性和实时性可能是一大挑战。另一面,基于 PoS 的单币质押仍旧是维护网络安全的主流。而 Chainbase 则基于网络的四层、双链架构结构,兼顾到去中心化的同时,能够实现网络的高迸发、高效运转并保证网络的安全性,能够更好的与各类场景相适配,天花板上限更高。
在数据生产关系上,通过代币经济学的激励机制,Chainbase 网络不仅能够吸引全球数据工程师参与到网络建设中,更好的构建数据管道和 Theia 模型,提供优质数据并不断提升现有数据质量,并打造数据贡献创作者友好型生态体系。
而从数据的服务端和数据的利用方式来看,绝大多数链上数据体系的目标,是让更多的用户有数据可用,即具备数据储备的能力,但用户不仅需要主动去查询、捕获自己所需的数据,而对于一些不具备技术能力的用户,则通常难以获得服务。
Chainbase 向开发者、科学家群体提供了更为宽泛的可编程性,比如可以基于原始数据编辑手稿,并且随着 Theia AI 模型的推出支持建立系列任务模版,这使得该数据网络本身更具“智能化”、“意图化”特性。该数据网络不仅仅服务于专业的开发者用户,普通用户也能够基于以 Theia Model 为核心的用户交互界面,让用户仅需使用自然语言,就能轻松挖掘整个数据网络中的价值,获取高质量的链上数据,赋予了普通用户读取和利用链上数据的能力。
整体来看,Chainbase 正在推动链上数据领域向全新的范式方向发展。**而这种独特的趋势性、未来性,以及广阔的生态发展潜力,也正在让 Chainbase 备受市场青睐。据悉,Chainbase已完成由经纬中国领投的1500万美元的A轮融资,并与 AltLayer 、阿里云等行业领先企业达成战略合作,共同支持测试网建设。