- 博客(26)
- 收藏
- 关注
原创 【知识图谱】知识推理
推理:通过已有知识推断出未知知识的过程。:自上而下的推理逻辑,指在给定的一个或多个前提的情况下,推断出一个必然成立的结论的过程。:自下而上的推理,基于已有部分观察得出一般结论的过程。归纳推理是一种非形式化的推理,是由具体到一般的推理过程。归纳推理又包含了溯因推理和类别推理两种。:在给定一个或多个已有观察事实O并根据已有的知识T推动出对已有观察最简单且最有可能的解释的过程。推理过程要使基于知识T而生成的对观察O的解释E是合理的。需要满足以下两个条件“
2023-09-24 14:39:13 622
原创 【知识图谱】知识挖掘相关原理与方法
特征计算:给定实体对(h,t)和某一特征路径\pai,PRA从实体s为起点沿关系路径\pai进行随机游走抵达实体t的概率作为该实体在关系路径\pai特征的值。每个实体对应输入信息包括实体E、实体拥有的关系R、实体类型ET和实体描述D。关系分类:基于训练样例(目标关系正例实体对和反例实体对)和它们的特征,PRA为每个目标关系训练的一个分类模型。确定文本中的实体指称可能指向的实体集合。基本思想是通过发现连接两个实体的一组关系路径来预测实体间可能存在的某种特定关系,PRA会自动发现有用的关系路径来构建预测模型。
2023-09-20 15:40:00 419
原创 【知识图谱】知识抽取
R2RML映射是通过逻辑表从数据库中检索数据(逻辑表可以是数据库的一个表、视图、有效SQL语句查询),每个逻辑表通过三元组映射映射到RDF数据,而三元组映射是可以将逻辑表中每一行映射为若干RDF三元组的规则。三元组映射的规则主要有两部分:一个主语映射和多个谓词-宾语映射,主语映射从逻辑表中生成所有RDF三元组的主语,通常基于数据库表中的主键生成的IRI表示。特征定义,定义单词级别特征(首字母大写、句点结尾、是否包含数字、词性)、词典特征(预定义的此表、地点列表等)和文档级特征(文档集中的词频、同现词)。
2023-09-18 10:49:26 758
原创 【知识图谱】知识表示篇
一个槽用于表示描述对象的一个属性,而一个侧面用语表示槽属性的一个方面,槽和侧面都可以有属性值,分别称为槽值和侧面值。RDF中的主语是一个个体,个体是类的实例。提出了一种以规则为指导的知识图谱嵌入方法,其中提出的软规则指用AMLE+规则学习方法在知识图谱中挖掘的带有置信度的规则,该方法的整体框架是一个迭代的过程,包括。指的是 exp:hasMother 在主语属于 exp:Person 类的条件下,宾语的取值只能取一个,“1”的数据类型被声明为xsd:integer,这是基数约束,本质上属于属性的局部约束。
2023-09-16 14:54:06 270
原创 【知识图谱】概念篇
用图模型来描述知识和建模世间万物之间关联关系的技术方法。由节点和边组成,节点可以是实体或抽象的概念,边可以是实体的属性或实体之间的关系。知识图谱旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事务关系的可计算模型。知识图谱构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面技术,应用领域涉猎语义搜索、智能问答、语言理解、决策分析多个领域。
2023-09-16 14:52:28 52
原创 【Flink】水位线设置与窗口的合并
Flink 水位线时间语义事件时间:数据产生的时间处理时间:数据真正被处理的时刻一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础。Flink 将事件时间作为默认的时间语义。事件时间和窗口逻辑时钟:事件进展靠着数据记录的时间戳来推动,使计算过程完全不依赖处理时间(系统时间)水位线用来衡量事件时间进展的标记。有序流中的水位线理想状态下希望数据按生成顺序进入流中,每条数据产生一个水位线。在实际中,由于数据量非常大,为提高效率,每隔一段
2023-08-28 08:17:49 103
原创 【Flink】窗口的机制及相关实验
Flink作为流计算引擎,主要用来处理无界数据流。数据源源不断、无穷无尽。通过将无限数据切割成有限的“数据块”进行处理,就有“窗口”的概念。在Flink中,窗口可以把流切割成有限大小的多个“存储桶”,每个数据都会分发的对应的桶中。当到达窗口结束时间时,就会对每个桶中收集数据进行计算处理。窗口不是静态准备好的,是动态创建的——有数据到达时才会创建对应窗口。窗口结束时间时,窗口会触发计算并关闭。
2023-08-27 17:02:53 355
原创 【Flink】集群与部署
Flink中每一个TaskManager都是一个JVM进程,它可以启动多个独立的线程执行多个子任务。TaskManager包含了一定数量的Slots,Slot是资源调度的最小单位,Slot数量限制了TaskManager能够并行处理的任务数量。整个流处理程序的并行度是所有算子并行度最大的那个,这代表了应用程序需要的slot数量。只要属于同一作业,对不同任务节点(算子)的并行子任务,就可以放到同一个slot上执行。是Flink集群中任务管理和调度的核心,是控制应用执行的主进程。
2023-08-27 08:02:00 73
原创 【Kafka】消息的产生与消费
Kafka是一种高吞吐量的分布式发布订阅消息系统。相关概念:Broker:Kafka集群上的服务器Topic:发布到集群上的消息类别Partition:物理上的分区Producer:负责发布消息到集群Consumer:消息消费者。
2023-08-21 09:46:52 93 1
原创 【Spark】Spark Streaming 流计算
静态数据在企业中是用于支持决策分析构建数据仓库系统的历史数据,数据使用ETL加载到数据仓库中,且不会发生更新。流数据指的是时间分布和数量上无限的一系列动态数据集合体,数据记录是流数据的最小单元。特征如下:数据快速持续到达,潜在大小也许是无穷无尽的。数据来源多,格式复杂。数据量大,但不关注存储。=> 流数据某个元素经过处理要么被丢弃要么归档存储。关注整体价值而非个别数据。系统无法控制到达数据元素的顺序。批量计算:以静态数据为对象,在充裕时间内对海量数据批量处理。
2023-08-20 13:55:48 305 1
原创 【Spark】Spark SQL的原理及实操
Spark SQL在Hive兼容层面仅依赖于HiveQL解析和Hive原数据。通过使用DataFrame(带有Schema信息的RDD)使用户执行SQL语句。
2023-08-20 09:44:25 297 1
原创 【Spark】Spark框架RDD算子实操
项目名称:使用RDD算子在日志文件中找到不同省份的人对各城市关注度的排行实验时间:2023年8月18日实验地点:sict-reid。
2023-08-18 16:13:37 44 1
原创 【大数据存储系统】HDFS+HashJoin+HBase实验记录
大数据系统HDFS+HashJoin+HBase实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)
2023-06-08 07:36:50 5028 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人