在 Web3 市场中构建一个数据管道,除了具有去中心化的特点外,还可以作为实际捕捉这些机遇的起点发挥关键作用。
撰写:Jay : : FP
编译:深潮 TechFlow
2008 年比特币白皮书的发布引发了人们对信任概念的重新思考。区块链随后扩展了其定义,包括了无需信任的系统的概念,并迅速发展,认为个体主权、金融民主化和所有权等不同类型的价值可以应用于现有系统。当然,在区块链能够实际应用之前,可能需要进行大量的验证和讨论,因为与各种现有系统相比,区块链的特点可能显得有些激进。然而,如果我们对这些场景持乐观态度,构建数据管道并分析区块链存储中包含的有价值信息,有潜力成为行业发展的另一个重要转折点,因为我们可以观察到以前从未存在过的 Web3 原生商业智能。
本文通过将现有 IT 市场常用的数据管道投射到 Web3 环境中,探讨了 Web3 原生数据管道的潜力。文章讨论了这些管道的好处、需要解决的挑战以及这些管道对行业的影响。
“语言是人类与低等动物之间最重要的区别之一。这不仅仅是发音的能力,而是将明确的声音与明确的思想联系起来,并将这些声音用作思想交流的符号。"
— 达尔文
在历史上,人类文明的重大进步伴随着信息共享的创新。我们的祖先使用语言,包括口头和书面语言,彼此交流,并将知识传承给后代。这使他们在其他物种面前具有重大优势。书写、纸张和印刷术的发明使得更广泛地分享信息成为可能,这导致了科学、技术和文化的重大进步。特别是古腾堡圣经的金属活字印刷术是一个分水岭时刻,因为它使得大规模生产书籍和其他印刷材料成为可能。这对宗教改革、民主革命和科学进步的起点产生了深远影响。
2000 年代 IT 技术的快速发展使我们能够更深入地了解人类行为。这导致了生活方式的变化,现代大多数人基于数字信息做出各种决策。正因为如此,我们将现代社会称为“IT 创新时代”。
而在互联网全面商业化仅 20 年后,人工智能技术再次让世界惊叹。出现了许多可以取代人力的应用程序,许多人正在讨论 AI 将改变的文明。有些人甚至处于否认状态,想知道这样一种技术如何能够如此迅速地出现,以至于能够动摇我们社会的基础。尽管有“摩尔定律”表明半导体的性能会随着时间呈指数级增长,但 GPT 的出现所带来的变化却太突然,无法立即面对。
然而,有趣的是,GPT 模型本身实际上并不是一种非常突破性的架构。另一方面,AI 行业将以下列为 GPT 模型的主要成功因素:1)定义可以针对大客户群体的业务领域,以及 2)通过数据管道进行模型调优——从数据采集到最终结果和基于结果的反馈。简而言之,通过完善服务提供目的和升级数据/信息处理过程,这些应用程序能够实现创新。
我们所说的大多数创新实际上都是基于对积累的数据的处理,而不是基于机遇或直觉。正如俗话所说,“在资本主义市场上,不是强者生存,而是幸存者强”。如今的企业竞争激烈,市场饱和。因此,企业正在收集和分析各种数据,以抓住即使是最小的利基。
我们可能过于沉迷于 Schumpeter(深潮注:熊彼特,著名经济学家) 的“创造性破坏”理论,而过于重视凭直觉做出决策。然而,即使是出色的直觉最终也是个人累积数据和信息的产物。数字世界将在未来更深入地渗透到我们的生活中,越来越多的敏感信息将以数字数据的形式呈现。
Web3 市场因其赋予用户对其数据的控制权的潜力而受到广泛关注。然而,作为 Web3 的基础技术的区块链领域,目前更关注解决三难问题(深潮注:三角困境,即安全、去中心化和可扩展问题)。为了使新技术在现实世界中具有说服力,重要的是开发可以以多种方式使用的应用程序和智能。我们已经看到这种情况发生在大数据领域,自 2010 年左右以来,构建大数据处理和数据管道的方法论已经取得了重大进展。在 Web3 的背景下,必须努力推动行业发展,建立数据流系统,以便产生基于数据的智能。
那么,我们可以从 Web3 原生数据流系统中捕捉到哪些机遇,需要解决哪些挑战才能抓住这些机遇呢?
简而言之,配置 Web3 原生数据流的价值在于可以安全有效地将可靠数据分发给多个实体,从而可以提取有价值的见解。
信任是不同实体相互交互和做出决策的基础。因此,当可靠数据可以安全分发时,意味着许多交互和决策可以通过各种实体参与的 Web3 服务进行。这有助于最大化社会资本,我们可以想象以下几种应用案例。
链上数据具有可以增加行业价值的独特优势。然而,要充分实现这些优势,必须解决行业内外的许多挑战。
当前的 Web3 数据原语之间没有连接,它们独立地提取和处理数据。这使得实验信息处理的协同效应变得困难。为了解决这个问题,本文介绍了在 IT 市场常用的数据管道,并将现有的 Web3 数据原语映射到该管道上。这将使使用案例更加具体化。
数据管道的构建就像是在日常生活中概念化和自动化重复决策过程的过程。通过这样做,人们可以随时获取所需的特定质量的信息,并将其用于决策。要处理的非结构化数据越多,使用信息的频率越高,或者需要实时分析的程度越高,通过自动化这一系列过程可以节省获取未来决策所需主动性的时间和成本。
上图显示了在现有 IT 基础设施市场中用于构建数据管道的通用架构。适用于分析目的的数据从正确的数据源收集,并根据数据的性质和分析要求存储在适当的存储解决方案中。例如,数据湖提供了用于可扩展和灵活分析的原始数据存储解决方案,而数据仓库专注于存储结构化数据,以进行针对特定业务逻辑优化的查询和分析。然后,数据以各种方式被处理为洞察力或实用信息。
每个解决方案层次也可以以打包服务的形式提供。将从数据提取到加载的一系列过程连接起来的 ETL(抽取、转换、加载)SaaS 产品组也越来越受到关注(例如 FiveTran、Panoply、Hivo、Rivery)。顺序并不总是单向的,根据组织的具体需求,各层次可以以多种方式相互连接。构建数据管道时最重要的是要最大限度地减少数据在发送和接收到每个服务器层次时可能发生的数据丢失风险。这可以通过优化服务器的解耦程度和使用可靠的数据存储和处理解决方案来实现。
前面介绍的数据管道的概念图可以应用于链上环境,如上图所示,但需要注意的是,完全去中心化的管道是无法形成的,因为每个基本组件在某种程度上都依赖于中心化的链下解决方案。此外,上图目前并未包括所有的 Web3 解决方案,分类的边界可能存在模糊之处——例如,KYVE 除了作为流媒体平台外,还包括数据湖的功能,可以看作是一个数据管道本身。此外,Space and Time 被归类为去中心化数据库,但它提供了诸如 RestAPI 和流媒体等 API 网关服务,以及 ETL 服务。
为了使普通用户或 dApp 能够高效地使用/操作服务,他们需要能够轻松识别和访问主要在协议内部生成的数据源,例如交易、状态和日志事件。这一层是一个中间件在其中发挥作用,帮助包括预言机、消息传递、身份验证和 API 管理在内的过程。主要的解决方案如下。
流媒体/索引平台
节点即服务和其他 RPC/API 服务
预言机
与 Web2 存储解决方案相比,Web3 存储解决方案具有持久性和去中心化等几个优势。然而,它们也存在一些缺点,例如高成本、数据更新和查询的困难。因此,出现了各种解决方案,可以解决这些缺点,并实现对 Web3 上结构化和动态数据的高效处理——每个解决方案的特点各不相同,例如处理的数据类型、是否结构化以及是否具有嵌入式查询功能等。
去中心化存储网络
去中心化数据库
*每个协议都有不同的永久存储机制。例如,Arweave 是基于区块链的模型,类似于以太坊存储,将数据永久存储在链上,而 Filecoin、Sia 和 Storj 是基于合约的模型,将数据存储在链下。
在 Web3 的背景下,转换层与存储层一样重要。这是因为区块链的结构基本上由分布式节点集合组成,这使得使用扩展性后端逻辑变得容易。在人工智能行业,人们积极探索利用这些优势进行联邦学习领域的研究,并出现了专门用于机器学习和人工智能操作的协议。
数据训练/建模/计算
*联邦学习是一种通过将原始模型分布在多个原生客户端上,使用存储的数据对其进行训练,然后在中央服务器上收集学习到的参数的方法,用于训练人工智能模型。
下面列出的仪表板服务和最终用户的洞察与分析解决方案是允许用户观察和从特定协议中发现各种洞察的平台。其中一些解决方案还为最终产品提供 API 服务。然而,需要注意的是,这些解决方案中的数据并不总是准确的,因为它们大多使用单独的链下工具来存储和处理数据。也可以观察到解决方案之间的错误。
同时,有一个名为“Web3 Functions”的平台可以自动/触发智能合约的执行,就像谷歌云等中心化平台触发/执行特定的业务逻辑一样。使用这个平台,用户可以以 Web3 原生方式实现业务逻辑,而不仅仅通过处理链上数据来获取洞察。
仪表板服务
最终用户的洞察与分析
Web3 Functions
正如 Kant 所说的那样,我们只能目睹事物的现象,而无法触及其本质。尽管如此,我们还是利用了被称为“数据”的观察记录来处理信息和知识,我们看到信息技术的创新如何推动文明的发展。因此,**在 Web3 市场中构建一个数据管道,除了具有去中心化的特点外,还可以作为实际捕捉这些机遇的起点发挥关键作用。**我想用几点思考来总结本文。
拥有数据管道的最重要前提是建立数据和 API 治理。在日益多样化的生态系统中,每个协议创建的规范将继续重新创建,并且通过多链生态系统的碎片化交易记录将使个人更难以得出综合的洞察。然后,“存储解决方案”是能够通过收集碎片化信息并更新每个协议的规范,以统一格式提供集成数据的实体。我们观察到,现有市场上的存储解决方案(如 Snowflake 和 Databricks)正在迅速发展,拥有庞大的客户群体,通过在管道中运营各个层次进行垂直整合,并引领行业发展。
当数据变得更易获取且处理过程改进时,成功的用例开始出现。这会产生一个正循环效应,即数据源和收集工具会爆发性地出现——自 2010 年以来,由于构建数据管道的技术取得了巨大进展,每年收集的数字数据的类型和数量呈指数增长。将这一背景应用于 Web3 市场,未来可以在链上递归生成许多数据源。这也意味着区块链将扩展到各种业务领域。在这一点上,我们可以预期通过 Ocean Protocol 等数据市场或 Helium 和 XNET 等 DeWi(去中心化无线)解决方案以及存储解决方案来推进数据采集。
然而,最重要的是不断询问应准备哪些数据以提取真正需要的见解。没有什么比为了构建数据管道而没有明确的假设来验证而构建数据管道更浪费的了。现有市场通过构建数据管道实现了众多创新,但也通过反复的无意义失败付出了无数的代价。对于技术堆栈的发展进行建设性讨论也是很好的,但行业需要时间来思考和讨论更基本的问题,例如应该将哪些数据存储在区块空间中,或者数据应该用于何种目的。“目标”应该是通过可操作的情报和用例实现 Web3 的价值,而在这个过程中,开发多个基本组件并完成管道是实现这一目标的“手段”。
深潮 TechFlow 是由社区驱动的深度内容平台,致力于提供有价值的信息,有态度的思考。
社区:
订阅频道:https://t.me/TechFlowDaily
推特:@TechFlowPost
进微信群添加助手微信:blocktheworld