这是一篇发表在ICDM2019的预测比特币的文章,作者是Nazmiye Ceren Abay, Cuneyt Gurcan Akcora, Yulia R. Gel, Umar D. Islambekov, Murat Kantarcioglu, Yahui Tian, Bhavani Thuraisingham。
1 背景问题
- 区块链图结构如何影响底层加密货币价格?
- 传统的方法:利用图特征比如度分布、模体数目、聚类系数等等;无法捕获重要的属性,如事务量、事务数量及其与底层图结构的关系。
chainlets:仅限于对交易类型的分析,而不考虑转移金额等关键信息
2本文贡献:
- 本文是第一个将持久同源引入加密货币预测分析的方法。此外,将基于同源的区块链拓扑特征与机器学习技术相结合,以预测比特币价格。
- 定义了一个新概念:Betti derivative,捕获在区块链图的拓扑结构中发生的变化速率。本文展示了其在预测比特币价格方面的预测效用。
3 LEARNING GRAPH BASED AND TOPOLOGICAL FEATURES
问题描述
已知数据:
比特币网络上的特征:
对应比特币价格(美元为单位):
Q&A
- 区块链网络活动如何决定现实世界的比特币价格?因果关系能被证明吗?
我们的假设是,基于输入和输出的比特币交易结构编码了各种买家和卖家的动机,这些动机反映了市场情绪,进而决定了价格的波动。因果性证明在前文工作上扩展。 - 大多数在线交易所的比特币交易都是通过在用户之间交换私钥/公钥对来内部处理(handled in-house)。我们如何解释这些丢失的事务?
过去工作证明这种交易是区块链上公开的交易的3-30倍,有工作证明内部交易仍然定期批量发布到区块链。因此兑换交易还是包含了有用的信息。 - 从方法论的角度来看,为什么价格预测问题很重要?
价格预测很重要,因为价格动态影响着一个价值10亿美元的加密货币行业。此外,我们认为,在现实世界中由链外仲裁的price是一个独特的外部验证器,可以在一个由世界各地的真实参与者创建的复杂系统上测试机器学习模型的能力。
基本方法:
graph filtration(FL)图过滤
论文用不断增加的比特币金额阈值过滤交易网络,并创建该网络的多种实现,然后合并这些实现来训练一个模型。
the Betti sequences
使用拓扑summaries来捕获关于Betti序列和Betti导数的持久特征。Betti方法基于代数拓扑的严格数学基础,并提供了系统的多视角视图,而图过滤是一种启发式方法,允许手动选择数量阈值和相关的网络过滤
Learning Graph Representations
构造异构区块链网络(heterogeneous Blockchain graph),节点为地址或者交易。边按照发生区块的时间排序,交易节点只出现一次,地址节点可出现多次(实际上比特币种地址是不能重用的)
The k-Chainlet
有向异构图为:
B代表节点类型:B = {Address, Transaction}
令交易节点的个数为k,则k-chainlet为:(一般默认k=1)
chainlet方法在区块链图上应用网络模体,缺点如下:
- shapes较多;
- 没有考虑转账金额等信息
a) Occurrence and Amount Matrices:
交易表示为:
它的output和input地址集为:
每个input地址
发送
总的output金额为:
共有T个交易,input和output的最大地址数为:
把chainlet编码成2个维度:
整个区块链图给表示为2个矩阵:第 i 行第 o 列带包了子结构C的信息
-
occurrence matrices
-
amout matrices
如图共有4个chainlet,分为3种:
各出现一次:
出现2次:
b) Graph Filtration (FL)
它们的自然组合需要使用用户定义的amount阈值来过滤occurrence矩阵,或者使用用户定义的occurrence阈值来过滤amount矩阵。
如果满足转账金额阈值,chainlet出现的次数用O记录:
FL通过根据一组尺度值保留节点之间的边来捕获持久的子结构。
Learning Topological Representations
用基于TDA的方法分析区块链图。
目标:
使用Betti序列作为持久同源计算的总结,以增加尺度值编码这些特征的计数。它们各自的元素被称为Betti数,它根据刻度的每个值计算:
4 实验评估
数据集
作者收集了2009年1月至2018年12月的比特币交易数据,并进行了一些筛选。
特征学习
在某天内的交易特征为: