当前位置:比特时代 > 动态 >

EpiK团队:塑造共建共享共益的开源常识平台

  • 动态
  • 2021-09-07 17:03
  • admin

1月十日,由EpiK铭识协议主办的“2021开源常识运动”主题活动为业界带来了一场常识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机掌握常识图谱 SIG 主席/著名常识图谱专家/OpenKG主要发起人王昊奋、东北大学自然语言处置实验室副主任/小牛思拓开创者王会珍在内的重量级嘉宾参与。

在此次大会上,EpiK中国区负责人Eric Yao 做了《分布式常识图谱构建》的主题演讲,其中他重点提及了区块链去中心化的协作模式搭建共建共享共益的开放常识库的构想与实践。同时EpiK商品负责人介绍了马上推出的游戏化数据标注平台,详细内容如下:

前面三位老师分别讲述了常识图谱、区块链和数据标注三个方向的细则,而这三个方面融合在一块又会产生什么样的火花呢?下面我要讲的EPIK PROTOCOL铭识协议,它的目的就是为了构建人类的永恒常识库,从而提升人工智能的智能,这就是数据开源或者是常识开源。

构建开源常识平台有什么挑战?

常识图谱底层的存储要开放开源和监督,但大家如何可以协作共建常识库,同时可以访问常识库?

这里面有不少挑战,人类的常识是很多的,范围也很多,怎么样搭建共享平台我如果考虑什么时间。

第一点,怎么样开放常识共享,通过构建一些适当的工具和机制,被人人都有途径贡献常识,由于每个人都是智能体,让有需要的人可以有办法和访问这部分常识。

第二条,怎么样防范常识篡改,或者常识被更改的时候可以溯源的,这就需要用到区块链的东西,它能保证常识的确权和不可更改,同时也可以通过适合的机制保障它可以持续的公开和更新。

下面是大家怎么样能维持常识的水平,因为区块链其实是价值的载体,它的存储本钱非常高,它的优势其实不在于存储本钱,而是在于数据的共建和共享,怎么样保证常识水平是非常重要的一个话题。

在常识的产生层面,常识要可以被监督,在常识水平出现问题的时候,它需要被追责,才会形成一个良性循环,让链上的数据变得水平愈加高,愈加有价值。

最后一点,怎么样勉励常识贡献,每一个人都会通过大家的系统提供常识或者为大家系统做贡献,但其实每一个人都可能不是自发性的喜好,所以需要适当的勉励机制,怎么样权衡各方面的收益的动态平衡,同时使得勉励的分发本钱相对比较低,让系统良性的可循环的运作起来,也是尤为重要的。

为何会选择在2021年做这个事情?大家察看到了一些适合的机会,不少的机会已经成熟了:2021年的时候基于区块链的去中心化存储技术刚刚成熟,譬如非常有名的项目Filecoin,可以借用0常识证明,以极低的管理本钱组织超大规模的防篡改可共享的开放存储资源;2021年数据标注这个行业也迎来了一个大的爆发,预计2025年会达到100亿左右的人民币规模,同时会促进很多的年青的就业人口涌入,为这个行业提供丰富的常识贡献和常识质检人才;2021年,去中心化的金融这个定义迎来了空前的进步,可以更好的帮忙解决线上的勉励动态分配的问题,同时让数字虚拟货币的勉励方法变得愈加灵活;社会对数字虚拟货币的同意程度愈加高,愈加同意勉励的合理性的定义。

EpiK构建超大规模常识图谱的解决方法

基于上面的考虑,诞生了EPIK PROTOCOL,EPIK指的是EpigraphyKnowledge,翻译过来就是铭刻在石头上的常识,代表着进入区块链上的常识,就像铭刻在石头上一样,不能被随意的篡改,目的是依托区块链技术,构建人类永恒常识库,从而发展人工智能的学识。针对前面提出的问题,提出三大解决方法。

第一点,要借用去中心化的存储技术,来解决数据的不可篡改问题,就是如此的数据是不能被随意篡改的,这部分常识不会由于私人的利益而随意篡改的,从而达成常识在全国各地永恒存储得以广泛传播。

第二点,借用去中心化自治组织解决劳动力问题,达成各国各界各族人民去中心化协作中公平获益。

第三点,借用通证经济解决自驱力问题,达成生态中各个成员为追求自己利益最大化,从而无形中推进常识图谱数据壮大的过程。

Epik技术构造,分为三大模块,常识提取、常识存储、常识应用,由低到高的三个层级,里面包含了不少的技术细则。

Epik生态参与者包含五个角色:持币用户、数据矿工、范围专家、赏金猎人、数据网关。把这部分角色根据数据从生产到存储到用这三个过程,数据产生的团体包含三种角色,一个是核心用户,一个是范围专家和赏金猎人,核心用户是可以通过投票来票选出范围专家,确保范围专家的权威性和专业性,范围专家是一个很核心的的人物,负责组织生产各个类目的人类常识库数据,因为整个工作是很劳动密集型的工作,所以涉及到很多的冗杂的数据纠错和清洗的工作,数据专家是没办法完成的,他需要把这部分任务拆分出来,发布到平台上,由赏金猎人认领,他的目的就是为了完成范围专家发布的任务,同时获得对应的奖励。

经过范围专家发布任务,把数据梳理和清洗出来将来,通过范围专家上传给数据矿工上,就是底层的存储机制上,这里面有数以万计的数据矿工来一同保持着整个平台数据的不可篡改和确权。

数据从产生到存储下来,可能涉及到应用的环节,上面会有不少应用的生态,怎么样便捷的访问这部分数据,就引入了第五个角色,就是数据网关,它有哪些用途就是为整个底层的数据存储提供数据访问和数据索引的服务,为上层的应用层赋能,让上层的应用层更好的用整个平台存储的数据。

上面说到的两个图偏定义化,下面举一个具体的例子,怎么样达成商业闭环,这就是一个具像化的图。

第一可以看到上面已经标注了一些角色了,范围专家,数据网关等等,范围专家是行业专家和范围达人,目的是梳理数据格式,组织数据生产和验收数据水平,其处置的数据都是自己所在该范围的公开的数据源,譬如说公开的企业信息,公开的教程信息等等,当他把这两个数据源梳理的格式定好了,所要处置的数据任务发到去中心化的平台上,赏金猎人就可以在这个平台上认领任务,他的角色通常是大学生、年轻人白领等等,有肯定的空闲时间,有肯定的常识储备和用工具素养的一些人,他们可以领取众包任务,同时对这部分数据进行校对,获得肯定的收益。

数据根据大家所需要的格式和水平生产好将来,由范围专家提供给矿工,矿工就是底层的分布式存储节点,因为大家的数据存储比较定向化,都是针对常识范围的,所以对数据存储的需要能力都不是非常高,可能需要这部分服务器八核16G,250G的ssd固态硬盘,5兆的带宽就可以满足。数据存储了将来,上层会有不少的应用,会访问大家的数据,由于大家的数据非常有价值,由于大家整理了公开的企业信息,原题库整理了教程信息,这两种信息对他们来讲都是很有用的,同时大家可以看到上层常识的应用场景都有非常大的规模,就是证明大家所服务的市场增长潜力和空间是巨大的,也可以保障整个项目的迅速进步。

他们可以通过数据网关非常不错的访问大家平台上存储的常识和数据,从而达成更多的商业化应用,为整个常识的变现提供价值。

这个系统为何会非常不错运作起来?这里面就有一个区块链行业的定义,叫做通证经济,就是大家期望设计适当的通证经济,每一个人提供贡献在里面都会有对应的收益,譬如范围专家天天会有5880元人民币的收益,可能每一个月的收益足够他养活10到20人的小团队,持续的做这个事情。赏金猎人都是小镇年轻人和白领时间比较零散化的一类人,他们是时薪的方法,可能达到每小时36块钱,完成任务就可以领取这部分的收益。矿工,大概会有30元每台节点一天的收益。最后底层的应用场景,用户想要用数据是需要去耗费肯定的资源的,这是给整个系统注入能量的一个过程,他们需要大概抵押天天是202块钱人民币左右的积分,就可以获得1GB数据的访问权,可以随时的赎回,这形成了商业闭环。

下面看一下整个项目的路线图:第一阶段是大家已经完成的,如白皮书测试发布,测试网方尖碑发布,到白皮书发布,测试网预挖计划发布,范围专家招募计划启动,都已经完成了,第二阶段是主网v1.0罗塞塔发布,还有《治理白皮书》发布和常识众包商品1.0发布,到今年的二三季度,就会发布主网v2.0,引入要紧的定义就是ETH,EVM虚拟机,同时去中心化治理平台发布和常识众包商品2.0发布。

顺便提一下,为何引入EVM信息?这可以非常便捷或者0本钱的把ETH上的经济或者去中心化的Eth经济资源引入到常识生态系统中。譬如用户想访问大家链上的数据,但没链上积分如何解决,就可以通过抵押其他的资产,来获得数据地访问,如此可以迅速扩大用户规模,这只不过其中的一个应用。

大家将EpiK使命描述为:这将是一场至少延续50年的碳基生命向硅基生命的史诗级布道。这是一个很长期的赛道,而且Epik也会持续的给这个系统赋能和迭代,让愈加多的用户非常不错的贡献常识和用常识。

为何要搭建开源常识平台?

EpiK项目是基于区块链的可信的分布式数据和常识的共享平台,通过去中心化数据存储和协作的方法来达成数据的共建和共享。为何Epik会嵌入到AI和区块链的结合的角度,来切入到创业中来?这与当下的年代背景密不可分。

第四次工业革命已经到来了,全方位自动化是这个阶段的核心目的之一,各种智能体也在渐渐的走入平时生活,譬如说siri、小爱同学等等AI的语音助手,还有各种有人工智能学习力的家电,譬如说冰箱洗衣机彩电等等。

人类的常识传承已经有数万年了,最早是甲骨文刻在石头上,最后演变成竹帛纸张,到数字化存在硬盘上,这部分常识都以文本图片和音视频非结构化的数据结构来存储,人类理解这部分常识是比较容易的,譬如,大家可以非常轻松的从电影中或者是从歌曲中判断这个人物的关系和情节。但对这部分信息,机器理解是非常难的,非常难通过一祯一祯的屏幕来把人类的关系梳理出来,怎么样让机器理解大家的人类的常识?

Google2012年提出常识图谱,它通过结构化的人类体系,从而让机器学会人类的常识,发展人工智能的认知。这里有一个常识图谱,也是大家很了解的一部电影,叫做《复仇者网盟》,它是用一个一个的图谱组成的互联网结构,描述了电影中透露的各种各样的信息,有了这部分图谱,人工智能就可以了解常识图谱回答不少的问题,譬如怎么样获得宝石地方,从哪个那里获得宝石等等。

AI是一个大的方向,但这个事儿和区块链有哪些关系,这个就需要引入到一个非常严肃的话题,是人类如何才能信赖AI或者机器智能,这里就涉及机器人会不会欺骗人类,引导人类作出错误的决策。

人工智能或者常识图谱是不少的公司在做得事情,脸书,苹果、亚马逊、阿里巴巴等等,他们每一个大公司都耗时费力的构建我们的常识图谱,但这部分常识图谱不是互联互通的,每一个公司有我们的常识库,这就涉及到一个问题,中心化的常识库会面临被篡改常识图谱的隐患,因为常识图谱是一个可以一个一个三元组成的拓扑式互联网结构,一个结点的变化,比较容易致使计算机或者AI理解这个节点有关其他节点的关系都会发生变化,从而导致善恶或者立场的变化,这是很危险的。

同时构建超大规模的常识图谱,还面临着没办法组织很多的人工参与到构建常识库的过程中,缺少如此的组织结构,专业化是非常难做到的,也会成为机器自动化巨大的障碍。

基于这两点可以看到,构建超大规模常识图谱,区块链技术是现在唯一找到解决这个问题的出路,因此,常识图谱就要开源开放可见度,这是它的必须具备属性,而不是不可对它产生的结果做讲解。

Eh3iK Protocol 铭识协议

EpiK Protocol 致力于去中心化的超大规模常识图谱构建,通过去中心化存储技术(星际文件系统)、去中心化自治组织(DAO)和通证经济模型(Token Economy),组织并勉励全球社区成员将人类各范围常识梳理成常识图谱,共建共享并持续更新这一人类永恒常识库,从而将AI的视线拓展到更智能的将来。

游戏化数据标注平台马上发布

在这推荐一下关于游戏化的数据标注平台商品的一些考虑,为大伙展示一下将来一般人如何能非常轻松的参与到EpiK常识图谱构建体系中,来为系统提供我们的常识,从而获得收益。

游戏目前是让整个网络消耗用户时长很多的一个范围。这里有一组数据:2004年—2010年《魔兽世界》这个游戏所有玩家的小时数加一块约等于593万年,这个基本上比人类文明的历史还长了,平均玩家每周在虚拟世界里要花调17—22个小时,这基本上等于上班时间的50%了。

而全球最好的图片数据集,已经有100万张是已经标注的图片。它的图片总数是可能过千万的,但100万张是带标注的。假如每一张图片的标注本钱是5分钟,那其实仅需《魔兽世界》这个游戏六十万分之一的工作量就可以完成了。所以说其实游戏是一个特别值得大家去考虑的东西。

游戏化其实就是把游戏的一些容易见到的设计思路运作到一些非游戏的范围,譬如在线教育、譬如一些公益类的项目或者是一些商品设计当中去。

举例:支付宝的蚂蚁森林和蚂蚁庄园,蚂蚁森林的累计用户应该是有5.5个亿了。由于这是公益项目,用户可以依据能量换成植的真树,等于这个蚂蚁森林种下了1.22亿颗真的树。蚂蚁庄园的累计用户有4亿,送出了150亿个鸡蛋,这两个项目其实都是一个游戏化的公益项目,但却增加支付宝的活跃度,增加支付宝的黏性,与拓展支付宝的社交关系链。其实这是一个商业和公益上都双赢的非常大体量的项目,虽然它看着只不过一个小游戏。

另外还有一个非常不错的例子,是一个在台湾的工作室Fourdesire,这个工作室专门喜欢去做这种游戏化的商品。譬如说其中有一个叫《记账城市》,《记账城市》是鼓励用户天天去记账,由于记账是一个非常枯燥的事情,它用一个用户不断地记账就能换取一些积分,这部分积分就能进步用户我们的城市,这个城市里面还有不少好玩的一些小的游戏化的一些特质,如此的话就让挺多人喜欢上记账了,成为一个培养性的存在。

这部分游戏类的APP有一个一同的特征,它原本是把一些非常枯燥的东西、非常枯燥的一些任务包装成一个游戏的壳,用户就能渐渐地沉迷其中了。而且这个工作室最后也获得了一个流量上很好的表现,这是一个二三十人的工作室,但他在全球累计获得了超越2500万的用户,而且《记账城市》常常会被推荐上APP Store首页。

游戏的核心体验是什么?容易概要为四点,第一个就是积分等级成长体验,就是用户长期持续地完成任务会得到这种积分、奖励、等级提高,像《记账城市》就是这个城市渐渐地进步壮大,像《太空冒险》就是你可能去了更远的星球,如此是一个积分等级成长的体验。

另外,游戏当中沉迷的另外一个元素就是它有故事和情感体验,譬如说游戏的《使命召唤》里面会有那种战友的剧情,用户就能沉浸其中并能情感投射。包括蚂蚁庄园那只很讨人喜欢的小鸡,大家常常看到在朋友圈里不少用户其实会感觉我们的小鸡好久没喂食了,他其实会产生一种愧疚感,这部分东西其实都是这个商品塑造出来的优良的情感体验。

还有一个比较要紧的是游戏可以有一个成瘾性和进入感也是由于它有即时反馈体验,当用户完成某一个任务之后是有明显的反馈体验设计的。譬如说在打篮球的时候当大家去投中一颗篮球的时候,它会擦中那个篮网发出一个声音,这个其实就是一个即时的反馈。譬如说大家打FPS类游戏若是爆头屏幕中间会出现巨大的一个图标提示,这个就是一个即时反馈体验。

最后,社会性互动体验,譬如说大家可以跟好友之间一块互动,当年盛行一时的Social game譬如说偷菜其实就是借用游戏本身达成人与人之间的互动,这个互动充满了一些非常小的暧昧或者说隐含表达性一些东西,这其实是玩家们都非常喜欢的。

大家的尝试探索是如此的,第一就是大家感觉数据标注这个业务跟游戏化其实是可以放在一块的。为何说大家感觉数据标注这个业务跟游戏化是比较合适放在一块的?

其实就是由于第一标注这个任务本身是枯燥重复的,另外,大家也是期望用户在碎片化的时间里可以去进行数据标注的。

倘若这时大家有一个标注任务是口腔医学有关这个范围的,譬如说口呼吸会不会致使下颌缩短,这个东西其实普通的用户是没办法去标注的,若是大夫他又非常忙,他平常又有很多主业的工作。假如大家能把如此像数据标注的业务,在大夫这个全国大概只有14万左右人的群体里面,去把它用碎片化的方法拆解成任务,并用游戏化的方法去鼓励用户采集,那样可能这个标注任务就能更好地实行。

为此,大家期待做出如此一个体验的商品,第一它有流畅的标注体验的,这需要有强大的算法支持,可以智能地分配标注任务。第二,大家一定要尝试不一样的游戏化的场景设计,赋予用户这个故事与世界观。

另外,大家要把一些游戏化的元素融入进去,譬如大家做随机的抽卡或者成长体系如此的东西,让这个游戏可以拥有一个基本的可玩性。

先说下流畅的数据交互,大家目前觉得大多数的数据标注任务其实上下文无关的,就是标一个任务和标下一个任务之间是没太强的关系的。因此,就可以把一些大的任务拆解,拆解之后就可以分发给适合的一些人,譬如,大家会发布让用户朗读句子五遍的任务,用户对着这个把这句话朗读出来,满五遍之后这个任务自动提交了,然后用户就能获得相应的一些积分,然后这部分积分可以拿来在游戏里做一些好玩的东西。

在游戏场景大家期望讲一个故事,这个故事中可能是某一种浩劫人类文明目前已经被摧毁了,那样大家在这个基础上如何重启人类文明?在这个主线中,大家要不断地派遣探险队出去探险,去找到过往历史中的一些科技遗迹,然后去升级大家的一些建筑。譬如说原本给人类提供能源的是火堆,通过反复的派遣探险队大家最后能变成蒸汽发电站,变完蒸汽发电站之后大家可能会变成核聚变发电站。如此也携带大家重塑一遍人类的科技文明史,携带大家的玩家可以体验到一种携带人类文明从蛮荒的年代走向农业年代、走向蒸汽年代、工业文明包括目前的AI将来,将来可能走向太空年代。

但这件事情其实本身是非常难的,大家觉得将来的工作难题是:第一,大家的数据标注任务的推荐系统设计,潜在的问题也会很地多。譬如说大家的标注任务如何可以实时的生成、如何可以实时的分发,当然还要考虑用户的专业性门槛和反作弊。第二,不同于专业性职员的标注,大家是有职员雇佣的。大伙的工作场所是安静的,大家用户的用场景可能是在地铁上、可能是在上班的空余时间、可能是家。如此的话哪种人在什么场景下获得哪种任务能保证大家较好的数据水平,这也是一个问题。第三,多用户提交的时候大家整个标数据的质性度的问题;第四,如何合理地勉励每个用户,用户贡献量和勉励平衡。整个这一系列的东西都是大家要长期去解决的问题;第五,真的好玩的、用户周期非常长、高黏性的一个前端游戏化是如何达成的,这个也需要逐步探索。譬如怎么说样的玩法用户喜欢,大家是做一个成长积分不断增长的游戏更好,还是做一个自我挑战的游戏更好,还是单纯只不过把一点游戏化的元素融入到移动APP的标注当中就可以,如何可以防止用户感觉有新鲜感之后就厌烦,或者大家能否频繁更换主题,这部分东西都是将来大家在前端上需要探索的地方。

  • 关注微信
下一篇:没有了

猜你喜欢