自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 NameError: name ‘jsonlines‘ is not defined

需要在serialize_utilsd.py的开头加上import jsonlines。如何没有装这个需要pip install jsonlines。

2024-01-30 11:21:21 150 1

原创 python针对特定解释器安装包

/path/to/python -m pip install package_name

2023-08-13 17:26:01 152 1

原创 python调用networkx库实现二分图最大权匹配

运行结果为: {(1, 'A'), ('C', 4)}

2023-08-03 17:27:19 482

原创 python 安装networkx失败原因

在关闭网络代理后就好了。

2023-08-03 16:46:56 981 1

原创 Aurum: A Data discovery System个人阅读心得(二)

作者提出的RESS方法在维护时只需重新计算少量数据标签,在重新计算完这些标签后,重新对数据间的关系进行计算即可完成维护。建立链接:利用上一步所存储的标签进行计算,在这一步中利用hash将时间复杂度从O(N^2)降为O(N)1) 寻找相关数据:data discovery问题的核心是在总的数据集T中寻找子集S。超边:可以连接任意数量的有层次关系的节点(同一表中的列或同一数据库中的表)2) 依据覆盖率进行排序:在寻找到的相似的数据表中寻找相似列最多的表。1) why: 哪个输入的DE决定了哪个输出的DE。

2023-07-22 00:52:40 142

原创 Seeping Semantics: Linking Datasets using WordEmbeddings for Data Discovery个人阅读心得

SEMPROP生成的许多链接都将source elements与不同的类之间建立的链接,这种情况一方面是由于不存在对应匹配;在findcutter函数中,首先找到包含全部链接的子树的根节点,然后依次遍历它的子节点,寻找是否有子节点满足cutting ratio,若没有,则结果为该根节点。transitive link propagation: 在上一步中获得链接后,通过链接关系的传递获得source elements之间的关系。1) 预处理,去掉"-"/"_"等符号,将输入变成词向量中的单词的集合。

2023-07-21 20:38:08 59 1

原创 Aurum: A Data Discovery System 个人阅读心得

其中,在建立EKG的过程中,提出了一种只用遍历一遍数据库的方法;在维护过程中,提出了RESS方法,只需要使用数据集中的一小部分即可判断数据库中需要更新的部分。算法输入:数据库中所有列的集合、存储各个列标签的store库、衡量某一列变化程度的阈值γ。算法输出:H = (V,E),其中V为EKG中的节点,E是连接节点的语义关系集。数据存储在不同的数据库系统中,导致查询效率很低,降低了研究人员的工作效率。在这个方法中,只需根据这一列数据c的子集s便可判断这列的标签是否需要更新。

2023-07-21 17:01:37 183 1

原创 linux gcc-4.8.5下载心得

首先我使用了下述命令,但无论我用什么代理下载速度都过慢,每秒只有几十 k。

2023-07-17 23:12:18 665 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除