zzzzzzzcccc-CSDN博客

原创 NameError: name ‘jsonlines‘ is not defined

需要在serialize_utilsd.py的开头加上import jsonlines。如何没有装这个需要pip install jsonlines。

2024-01-30 11:21:21 150 1

原创 python针对特定解释器安装包

/path/to/python -m pip install package_name

2023-08-13 17:26:01 152 1

原创 python调用networkx库实现二分图最大权匹配

运行结果为： {(1, 'A'), ('C', 4)}

2023-08-03 17:27:19 482

原创 Aurum: A Data discovery System个人阅读心得（二）

作者提出的RESS方法在维护时只需重新计算少量数据标签，在重新计算完这些标签后，重新对数据间的关系进行计算即可完成维护。建立链接：利用上一步所存储的标签进行计算，在这一步中利用hash将时间复杂度从O(N^2)降为O(N)1) 寻找相关数据：data discovery问题的核心是在总的数据集T中寻找子集S。超边：可以连接任意数量的有层次关系的节点（同一表中的列或同一数据库中的表）2) 依据覆盖率进行排序：在寻找到的相似的数据表中寻找相似列最多的表。1) why: 哪个输入的DE决定了哪个输出的DE。

2023-07-22 00:52:40 142

原创 Seeping Semantics: Linking Datasets using WordEmbeddings for Data Discovery个人阅读心得

SEMPROP生成的许多链接都将source elements与不同的类之间建立的链接，这种情况一方面是由于不存在对应匹配；在findcutter函数中，首先找到包含全部链接的子树的根节点，然后依次遍历它的子节点，寻找是否有子节点满足cutting ratio，若没有，则结果为该根节点。transitive link propagation: 在上一步中获得链接后，通过链接关系的传递获得source elements之间的关系。1) 预处理，去掉"-"/"_"等符号，将输入变成词向量中的单词的集合。

2023-07-21 20:38:08 59 1

原创 Aurum: A Data Discovery System 个人阅读心得

其中，在建立EKG的过程中，提出了一种只用遍历一遍数据库的方法；在维护过程中，提出了RESS方法，只需要使用数据集中的一小部分即可判断数据库中需要更新的部分。算法输入：数据库中所有列的集合、存储各个列标签的store库、衡量某一列变化程度的阈值γ。算法输出：H = (V，E)，其中V为EKG中的节点，E是连接节点的语义关系集。数据存储在不同的数据库系统中，导致查询效率很低，降低了研究人员的工作效率。在这个方法中，只需根据这一列数据c的子集s便可判断这列的标签是否需要更新。

2023-07-21 17:01:37 183 1

原创 linux gcc-4.8.5下载心得

首先我使用了下述命令，但无论我用什么代理下载速度都过慢，每秒只有几十 k。

2023-07-17 23:12:18 665 1

zzzzzzzcccc的博客