分布式媒体平台
February 2nd, 2023

试图展开探讨分布式媒体平台这个话题,无法避免先要回顾互联网过去的发展历史。小林知道在《圣经》上有句经文「已有的事后必再有;已行的事后必再行。日光之下并无新事」用在这里再恰当不过了。小林之所以敢这样断言,是因为在瀛海威的客户端上这些业务模式也都曾经出现过。

‬小林曾在腾讯外传《微信就是第四代QQ邮箱》里提过两项技术,他们分别是「群聊」和「订阅号」,因为微信采用类似电子邮箱系统架构设计的背景,把「群聊」与「新闻组」、把「订阅号」与「邮件列表」做类比也并非很不恰当之事。

事实上在 NNTP 网络新闻传输协议 RFC-977(请求意见稿,由 IETF 互联网工程任务组发布的一系列备忘录)文档里,恰也提到 Internet 邮件列表和 USENET 新闻组系统这两个典型案例,并且做了明确的定义以及协议的说明。

Internet 邮件列表

Internet 组织根据用户邮件列表发送新闻。他保存了所有已经订阅的用户的邮件地址和回复地址。邮件列表将信息的副本发送给每个已订阅的用户。但当一个邮件列表的定户超过一定数量时,邮件列表的发送效率将降低。发送每一个拷贝给列表中的每个人将占用大量的网络带宽,CPU 资源,以及珍贵的主机磁盘空间。他自身的维护也是一个大问题如:用户从一个主题换到其他的主题;新用户的加入和老用户的离开;服务器服务内容的增加和减少。

USENET 新闻组系统

毫无疑问,如果用存储在中央数据库中的信息内容代替每个用户的邮箱,对总的资源占用会有大的减少。USENET 新闻组系统给出了实现这一目标的方法。它将新闻组信息存储在中央存储仓库中并存放于一个位置(通常是一些分类目录),通过软件的管理允许用户选择订阅他们感兴趣的主题阅读,索引、参照,删除过期消息等。

也就是说这两种近乎革命性的业务模式,在这份发布于1986年2月份的备忘录里早已提过,并且还引用了1982年8月的 RFC-822(文本消息格式标准)、1983年6月的 RFC-850(USENET 消息交换标准)、1981年9月的 RFC-793(传输控制协议)、1982年8月的 RFC-821(简单邮件传输协议)。

然而,因为每一款软件在设计用户界面时差异太大,导致用户学习成本大增,除了底层通信协议相同,在用户体验上参差不齐。小林在《纪念 Web 30 年:说说小林和 Web 的那些事》一文中曾提到过比前面这几种协议晚几年出现的 HTTP 超文本传输协议和 HTML 超文本标记语言,在 Web 技术普及后,从早期的 C/S 架构变成了 B/S 架构。

正是因为 HTTP 协议和 HTML 语言足够开放和简单,简单到无法被超越。只需掌握鼠标和浏览器操作,便可以连接整个互联网世界。这也恰好可以证明,如果一项新技术不能为人们节省时间或金钱,就不会大规模普及。虽然业务模式没变,但是人机交互方式却在悄悄发生着变化,那就是和 Web 有关的一切都崛起了,无论是历史上曾经闪耀过的 Netscape 网景浏览器还是 Yahoo! 目录服务,又或是后来的 Google 搜索引擎均得益于 Web。

今天的微信虽然看起来是个 APP,甚至有着电子邮箱的影子,但不得不说的是,微信同样也是一款浏览器。虽然没有了「输入网址」的入口,其实手机扫描二维码就是移动互联网时代用鼠标点击超链接的过程。整个微信的通信协议确也基于 HTTP 和 HTTPS,即使你看不见,在生态系统内已经形成闭环,这也是 Web 最牛的地方。

Apple 和 Google 的粉丝

探讨分布式媒体平台,同样无法避免要谈到博客或称为网志的网络服务。我们都知道博客几乎被视为 Web 2.0 最典型的应用,从过去的集中工的 ICP(Internet Content Provider)互联网内容提供商模式到个人内容提供者的转变,后来这种模式也被称之为自媒体。

从技术上来说,门户网站和博客系统的后台管理功能并没有本质的差异,都是 CMS(Content Management System)内容管理系统的一种,也许稍微简单些、也许稍微复杂些。其实有很多非常有影响力的垂直网站就是基于博客系统架构,

据最为著名的 WordPress 博客系统官方网站介绍,目前有超过6000万人选择使用。这里面当然包括个人用户和商业用户。在开源的内容管理系统里面,如果他说第二,没人敢说第一。上面有5400个插件、7140个模板可供下载使用。原则上只要是你看过的业务模式,几乎都被人基于 WordPress 重新实现过。

自己架设博客系统要求自己有一定的动手能力,因此又有很多 BSP(Blog Service Provider)博客服务提供商的存在,可以使用免费或收费的托管服务。其中 WordPress 除了提供开源的博客系统,同时也是一家博客服务提供商。虽然服务器可能集中在一起,但相对来说很中立,不像国内的机构如新浪博客还有小编在关注、推荐或审查你的内容。

Web 2.0 在尝试去中心化的过程中,同时还出现了一种叫 RSS(Really Simple Syndication)简易内容聚合协议的技术,使用 XML 可扩展标记语言描述。这种协议解决了博客太分散内容难发现的问题。因为这种技术的出现,又产生了一类信息聚合网站和软件,如 Google Reader 等阅读器。

有中国 IT 第一博客之称的 Keso(洪波),源于他最新发表的每一篇博文均作为 DoNews IT 评论的头条被推荐,其 RSS 做为 Feed 的订阅量也非常巨大。自己除了是「对牛乱弹琴 | Playin' with IT」博客的博主之外,他在 Google Reader 上订阅其他网站或作者的 RSS 内容源也多达一千多,以往每天在电脑上比现在在手机上的阅读量估计多多了。

互联网江湖也是一个分久必合,合久必分的过程。即使互联网把计算机连接成一个网络,最初的网络服务依然还是孤岛。在 Web 服务出现前找内容有 Gopher 协议,找人则有 Finger 协议。

在 Web 发展起来之后,有 Yahoo! 目录服务来索引各种网站,据说 Netscape 浏览器曾经想收购 Yahoo! 雅虎被拒绝而未逐,的确没有想到后来 Yahoo! 比 Netscape 网景牛多了。

类似的故事发生在以整合全球信息的 Google 搜索引擎身上则截然相反,Google 谷歌曾经想寻求 Yahoo! 的投资或收购可是竟然没有被看上,如今作为网络巨头的 Google 和落魄被 Verizon 收购的 Yahoo! 地位之悬殊真可谓三十年河东,三十年河西。

从最早集中式的服务模式,到去中心化或者称为分布式的以个人为中心的模式。没有超链接,就算连接着,依然是孤岛。前有 Yahoo! 目录服务,后有 Google 搜索引擎,都在为中心化的网站或个人化的博客建立索引和连接。

互联网第一个阶段有搜索引擎红利,第二个阶段才进入了社交红利。搜索引擎把分散的内容连接起来,社交网络把分散的人群连接起来。在移动时代,微信向左,头条向右,头条最开始更像是聚合(门户)模式,微信最开始更像是原创(专栏、博客)模式,但是又互相影响。如今你中有我,我中有你,谁借鉴谁,谁影响谁,说不清楚。

从邮件列表到新闻组系统,从中心化网站到个性化博客。要想继续探讨分布式媒体的可行性,还得找到问题的根本所在,那就是如何才能定义清楚「分布式媒体平台」这个概念。关于分布式、区块链或者去中心化这些近期较为热门的概念倒是也好理解。媒体理解起来好像应该更简单不是?要说简单其实也没有那么简单,让我们来看看媒体定义和 ITU-T(CCITT)对媒体的5种分类。

媒体定义

传播媒体称「传媒」、「媒体」或「媒介」,指传播信息资讯的载体,即信息传播过程中从传播者到接受者之间携带和传递信息的一切形式的物质工具;现在已成为各种传播工具的总称,如电影、电视、广播、印刷品(书刊、杂志、报纸),可以代指新闻媒体或大众媒体,也可以指用于任何目的传播任何信息和数据的工具。

媒体分类

(1)感觉媒体(Perception Medium):指直接作用于人的感觉器官,使人产生直接感觉的媒体。如引起听觉反应的声音,引起视觉反应的图像等。

(2)表示媒体(Representation Medium):指传输感觉媒体的中介媒体,即用于数据交换的编码。如图像编码(JPEG、MPEG 等)、文本编码(ASCII 码、GB2312 等)和声音编码(WAV、MP3 等)。

(3)表现媒体(Presentation Medium):指进行信息输入和输出的媒体。如键盘、鼠标、扫描仪、话筒、摄像机等为输入媒体;显示器、打印机、喇叭等为输出媒体。

(4)存储媒体(Storage Medium):指用于存储表示媒体的物理介质。如硬盘、软盘、磁盘、光盘、ROM 及 RAM 等。

(5)传输媒体(Transmission Medium):指传输表示媒体的物理介质。如电缆、光缆等。

由此可见,媒体的表现形式是多样化、多维度的,我们讨论的话题可以归纳为网络媒体。在刘韧和韩磊合著的《网络媒体教程》(https://www.amazon.cn/dp/B00116YC10/)一书中体系的介绍了网络媒体的特征,甚至还包括如何推广以及版面设计和制作规范等内容。该书出版于14年前的2005年,即使今天看来某些案例如论坛部分在移动时代模式已经发生重大改变,但依然有借鉴意义。

我们通过回归本质来看待问题,其实媒体、多媒体或富媒体就是贯穿整个信息产业发展史的过程。最早在 DOS 单机或终端时代,几乎只有简单的文字处理和极其简单的图像(16色或256色)和及其简陋的声音(机箱内的喇叭或蜂鸣器)。即使是拨号上 BBS 也是文本终端界面,这就是为什么历史上曾经出现过 ASCII 艺术的原因。

在光驱、声卡和性能较高的显卡(当时是 1MB 以上)逐渐成熟之后,才开始有图像和音频的普及,如图片才有真彩色的概念,动画有简单的 GIF 和 AVI,大家对分辨率也没有太大要求。至于视频还得益于阶段性的硬件解压卡,才可以让386或486播放 VCD 电影,此时才宣告多媒体时代的到来。再后来基本上得586以上的机型,才开始可以使用软件解压技术。当时 XingMPEG Player 是最为经典的视频播放软件,后来梁肇新还借鉴了 Xing 的解码技术实现了超级解码。

简而言之,表示媒体才是我们要讲的核心,也即文本、图像、音频和视频,且视频是集前三者为一体。这些技术在图书、广播和电视都实现过,为什么在电脑上叫多媒体,在互联网上还叫富媒体呢?电脑多了一种交互的可能,是前三者无法做到的,并且到了网络时代,这样交互能力进一步升级,不仅可以在本机交互,还可以远程交互,到了移动时代甚至随时随地,这才是多媒体、富媒体或者说新媒体和传统媒体的区别所在。而各种应用软件、网站页面即是透过表现媒体来实现人机交互。

Web 的出现迅速取代了此前的 Gopher、Finger 和 Wais 等协议。Web 的核心由 HTTP 协议和 HTML 语言组成,开始只能处理简单的静态文档。后来扩展出 CGI(Common Gateway Interface)通用网关接口和 JavaScript 脚本语言以及 CSS(Cascading Style Sheets)层叠样式表。

也就是说文本和链接形成的超文本,最初也只是静态文档的传输和展示。这种超文本所包含的多媒体资源正是前面的段落中所提到的文本、图像、音频和视频等文档。和 HTTP 较为接近的另一种协议是 FTP 文件传输协议,但 FTP 协议只解决了文件的传输问题,缺少 HTML 语言相关的展示或者说交互部分。

其实互联网天生就是分布式的,如 DNS(Domain Name System)域名系统几乎是世界上分布式规模最大的数据库。不是说域名系统上存储的数据有多少,而是有共识且自治的协作服务其分布式足够分散,要知道目前稳定运行的 Bitcoin(比特币)全节点还没突破一万。

据北龙中网和 CNNIC 发布的一份报告显示,截至2010年8月10日,监测到世界范围内域名服务器总量为16,306,432个,其中权威域名服务器2,903,550个,递归域名服务器13,402,882个。监测到国内的域名服务器总量为978,713个,其中权威域名服务器107,540 个,递归域名服务器871,173 个。

虽然一些开源项目或者软件站点也有很多镜像服务,然而 Web 服务还是相对孤立。很多时候由一些企业、云计算和数据中心控制,与 DNS 这种分布式体量不能相提并论。与此规模可以相提并论的是 P2P(Peer to Peer)点对点网络,通常由个人电脑或某些主机组成。

BitTorrent是最为典型的 P2P 应用,发布资源时通常需要指定 Tracker Server(跟踪服务器),其他用户通过唯一的 Seed(种子)信息去 Tracker Server 寻找其他用户 Node(节点)。后来发展出 DHT(Distributed Hash Table)分布式哈希表,只要客户端首次完成Bootstrap(自举),通常就不再需要 Tracker Server。

事实上比特币 P2P 应用的 NAT(Network Address Translation)网络穿透能力比 BitTorrent 等常见应用要弱。只因矿工的利益足够有诱惑力,他们都采取规模化运营,专业的矿场、矿池规模不比一般的数据中心小,都有自己的机房,因此也就不存在穿透问题。

此外比特币交易广播机制恰好借鉴了 NNTP 新闻组,这在比特币白皮书里也曾有描述。如果去查考 Bitcoin 0.1 的源代码,还能发现其通过 IRC 聊天室交换 IP 地址的代码。新闻组完成了信息的交换,比特币完成了价值的传递,在这里充分体现了两者的真正差异。

IPFS(InterPlanetary File System)星际文件系统基于 P2P 网络,设计了一个分布式 Web 或者叫去中心化 Web,试图创造一个有别于 HTTP 超文本传输协议的 P2P 超媒体协议,定义更快、更安全和更开放。其实 IPFS 只是一个基础协议,如果协议上没有应用,仅仅是个协议罢了,这两年被吹得天花乱坠,说要颠覆搜索引擎真是不知所云。

IPFS 星际文件系统,是一种提供内容寻址服务、采用点对点的方式来存储和共享超媒体的分布式文件系统。以 IPLD 数据模型存储信息,类似 BitTorrent 和 Git 概念的文件系统,文件可定位,但不可修改。其 IPNS 星际命名空间允许可变的状态,类似磁力链接(Magnet)的寻址服务。有 HTTP 网关和文件系统适配器,可以像「WebDav」一样通过挂载整个网络文件系统到本地盘。

由同一个机构设计的 FileCoin 则像「种子市场」的去中心化存储市场,是网络提供存储资源的激励,其共识协议使用 Proff of Replication 和 Proof of SpaceTime 来保证每片数据被复制某个特定的拷贝数量且存储某个特定的时间,但已离原计划推迟了一年以上。

Subscribe to linxinglu
Receive the latest updates directly to your inbox.
Nft graphic
Mint this entry as an NFT to add it to your collection.
Verification
This entry has been permanently stored onchain and signed by its creator.
More from linxinglu

Skeleton

Skeleton

Skeleton