- 博客(8)
- 收藏
- 关注
原创 NameError: name ‘jsonlines‘ is not defined
需要在serialize_utilsd.py的开头加上import jsonlines。如何没有装这个需要pip install jsonlines。
2024-01-30 11:21:21 150 1
原创 Aurum: A Data discovery System个人阅读心得(二)
作者提出的RESS方法在维护时只需重新计算少量数据标签,在重新计算完这些标签后,重新对数据间的关系进行计算即可完成维护。建立链接:利用上一步所存储的标签进行计算,在这一步中利用hash将时间复杂度从O(N^2)降为O(N)1) 寻找相关数据:data discovery问题的核心是在总的数据集T中寻找子集S。超边:可以连接任意数量的有层次关系的节点(同一表中的列或同一数据库中的表)2) 依据覆盖率进行排序:在寻找到的相似的数据表中寻找相似列最多的表。1) why: 哪个输入的DE决定了哪个输出的DE。
2023-07-22 00:52:40 142
原创 Seeping Semantics: Linking Datasets using WordEmbeddings for Data Discovery个人阅读心得
SEMPROP生成的许多链接都将source elements与不同的类之间建立的链接,这种情况一方面是由于不存在对应匹配;在findcutter函数中,首先找到包含全部链接的子树的根节点,然后依次遍历它的子节点,寻找是否有子节点满足cutting ratio,若没有,则结果为该根节点。transitive link propagation: 在上一步中获得链接后,通过链接关系的传递获得source elements之间的关系。1) 预处理,去掉"-"/"_"等符号,将输入变成词向量中的单词的集合。
2023-07-21 20:38:08 59 1
原创 Aurum: A Data Discovery System 个人阅读心得
其中,在建立EKG的过程中,提出了一种只用遍历一遍数据库的方法;在维护过程中,提出了RESS方法,只需要使用数据集中的一小部分即可判断数据库中需要更新的部分。算法输入:数据库中所有列的集合、存储各个列标签的store库、衡量某一列变化程度的阈值γ。算法输出:H = (V,E),其中V为EKG中的节点,E是连接节点的语义关系集。数据存储在不同的数据库系统中,导致查询效率很低,降低了研究人员的工作效率。在这个方法中,只需根据这一列数据c的子集s便可判断这列的标签是否需要更新。
2023-07-21 17:01:37 183 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人