币圈核武器:Social Data聚合器
0xA62F
February 27th, 2022

『如何从煤渣里面寻找金矿? --Panda Media』

我们每天可以从互联网上获取到海量的信息,但是什么样的信息是有价值的?什么样的信息是真实的?什么样的信息是即时性的?这个就是Panda Media正在做的事情,也是一个DAO版的区块链媒体信息聚合器。因为很多人对Panda Media不太了解,接下来我会阐述一下它是如何工作的,如何确保信息的即时性,有效性,可溯源性和它未来可以做的事情。

信息源的筛选

你们每天会看多少信息?10条?20条?还是…..成千上万条?信息多种多样,如何挑选高效的信息源,这个是我们首先需要做的。针对SEC官网,Coindesk,交易所官网等这些固定网站,基本就是执行一个爬虫程序,设置定时任务作为提醒。但是社交数据如何挑选高效的信息源?

我们知道twitter上有很多人买粉,如果单独看粉丝数据,肯定是不准确的。也有一些人的twitter账户发布了大量的抽奖推文,获得了海量的粉丝,但是抽奖推文不能算作是高效或有价值的信息。这里我们使用的数据的交叉对比分析。是不是有点难理解?没关系,我会用简单的语言解释清楚。

首先我们用手工的方式,获取了币圈数千个粉丝数大于1万的账户。然后,我们会做交叉对比,查看这些账户关注了谁,也就是这些KOL关注了谁,他们关注的对象,将会是我们关注的重点。

数据源获取简单解释
数据源获取简单解释

再根据他们『关注对象』的『关注对象』,进行第三次递归查询。这样,我们就可以获取到一个基本准确的信息源列表。

信息源
信息源

过程看起来挺简单的,就是写模型和调取接口有些复杂,也搞了三四天。有个简单的案例,大家可以看一下,里面只做了一级过滤,但是也非常精准了。

信息索引和分析

当信息完成筛选后,则进入了索引阶段。每个小时,我们会获取数千条有价值的信息。在未来,这个数据量会越来越庞大,为了高效的对信息检索,我们需要构建高性能的数据索引方案。这里主要采用了MySQL + Elasticsearch + Redis方案,我这里简单做个解释,不会很复杂,不懂技术的也能看懂。后期可以增加IPFS和AR方案,进行数据的灾备处理。
MySQL:数据存储
Elasticsearch:数据索引(增加数据检索速度)
Redis:内存高速索引
IPFS和AR:数据灾备处理

数据存储和索引
数据存储和索引

总之就是给数据的索引速度提高了数个量级,可以支持百亿级别的数据检索,可以在很短的时间内得到查询结果。同时还可以基于Elasticsearch,构建一个分词系统,这样我们就可以得到全网币圈的舆情数据。

分词系统很好理解,大家不用理解的过于复杂。比如一句话,我需要给这句话拆解成不同的词汇进行存储,这样才能做全网的注意力分析或舆情分析。目前在Elasticsearch用的比较多的是IK分词器,我们在这块会输入收集的一些词汇列表,后期也许可以靠AI算法对分词系统进行升级,支持更多的语言和更高的精准度。

DAO模式对信息进行审核和优化

目前我们已经完成了信息的筛选,优化和存储,但是里面还是会存在一些无价值信息。这里有个点很关键,什么样的信息是有价值的?每个人对于信息价值的判断标准不同。针对这个模块,我们采用了DAO模式对信息进行二次优化和审核。

PandaDAO会拥有数百乃至数千位审核员,审核员的主要工作,就是用零散的时间,完成对信息重要程度的评分和打上标签(标签功能应该在第二期上线)。这样就可以获取到一个信息重要程度的平均值。以量来弥补质的不足,尽量达到100%精准。

针对审核员还有一个单独的系统,用作审核员的贡献值计算。审核员的主要贡献者来源于:

  1. 信息的评分的准确度(综合评分偏差值)
  2. 标签准确度(综合标签偏差值)
  3. 信息评分的即时性(信息评分速度)
  4. 信息评分的数量(评分数量)

基于以上四个唯独的数据,我们可以构建一个黑盒贡献值计算数据模型,对审核员的贡献值进行计算。得到每个审核员的贡献值占比,就可以知道每个审核员可以claim的Token奖励在多少。也许会有部分人,采用机器刷分的方式进行攻击,这个我们之前有考虑过,在WAF和数据模型上有做了这个防御。

币圈舆情系统

目前我们已经有了精准的数据源,用户可以查阅到每条信息的源链接,同时也知道信息的质量,标签等等。接下来可以开展分词系统的应用了,也就是币圈舆情系统,或者叫做注意力监控系统,用作全网币圈的关键词数据监控。

在对所有的信息进行分词后,我们可以知道每个词汇出现的时间点和源头,然后进行去重排序的方式,可以知道每个词汇出现的频率,从而可以计算出当前甚至未来互联网上会爆发的舆情线索。

总结

目前整个系统的大概架构如下

Panda Media
Panda Media

这个只是其中一个产品线,当我们积累海量的数据后,如果在加上AI的计算,可以使得分词系统更加完善,也可以更加准确的判断出市场情绪,或许可以提前预知很多我们意想不到的东西,比如你要买某个币种,突然AI给你提示这个币种未来的舆情走向,哈哈哈!但是这个是后话。

Panda Media的存在,最大程度上避免了欺诈信息的存在,不会说你给钱就给你上信息。所有信息源都是基于数据模型这种黑盒方式获取,信息的排序由庞大的审核员团队决定。同时每条信息都是可溯源的,方便研究员,交易员,项目方等快速查询到信息的源头。在获取海量的信息后,分词系统可以快速的判断市场注意力和舆情指标,用户也可以快速规避风险或者抓住机会。

Panda Media只是PandaDAO其中一个产品线,除此之外,我们也在构建DAO的Ve合约,claim合约,DAO贡献值计算模型,未来还有很多社区提议做的产品,这个只是沧海一粟。

『what people want, what pandas build』

PandaDAO官网:

里面包含了白皮书,融资页面,团队信息,多签人信息等,欢迎查阅~

Arweave TX
zsmjrsm1k-Mc1ZKg-m2dMHS9ug_rWhpu6IpZm-64ZXE
Ethereum Address
0xA62F8ABb12094F5651C8bA7222A0dC1034Ca4B20
Content Digest
eC5qXSW_1cGwdV_JIGTbCGUVNHqDMBwJHR_i1-U4TSM