Apriori算法应用:挖掘高中物理知识点的关联规则

本文探讨了利用Apriori算法挖掘高中物理知识点间的关联规则,揭示了如动能定理与牛顿第二定律等知识点的强关联性,并指出在数据有限和标注错误情况下,这些规则的有效性有待验证。通过这种方法,可以为教学提供新的视角。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章均从个人微信公众号“ AI牛逼顿”转载,文末扫码,欢迎关注!


每道物理习题里,往往考察了多个知识点,那么不同的知识点之间有没有一些相关性呢?比如考察某一个知识点,会不会大概率考察另一个知识点呢?本文从数据出发,利用经典的Apriori算法,尝试找出一些有趣的规则,并利用业务知识加以评判。(此算法已经在各种机器学习的书上都有介绍,这里就不再赘述)

 

一、什么是关联规则

关于这个名词的一个经典例子,莫过于“啤酒与尿布”了。这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

这个例子很好的体现了联系的多样性

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

这个例子里,由尿布推送啤酒称为一条关联规则,反应了尿布的出现对啤酒的出现有多大的影响。

 

二、物理知识点的关联规则

规则词云图

图中的关联规则统一记作“A ==>> B”,表明A知识点出现时,会大概率考察到B知识点。图中字体越大,则说明此条规则的关联性越强;颜色只是加以区分不同的规则。高于设定的阈值,规则才会显示在图中(阈值在代码里有说明)。一起看看有哪些有趣的发现:

 

1、一些强关联性的规则

(1)带电粒子在电场中的偏转 ==>> 动能定理

(2)电磁感应中能量类问题 ==>> 导体切割磁感线产生的感应电动势

(3)右手定则 ==>> 导体切割磁感线产生的感应电动势

(4)带电粒子在电场中的加速 ==>> 动能定理

(5)变速圆周运动 ==>> 动能定理

(6)动力学中的临界与极值问题 ==>> 牛顿第二定律

 

这几条规则能从很多习题中得到体现,稍有经验的老师,甚至可以直接想出对应的习题长啥样。

 

2、牛顿第二定律的重要性

图里的规则中,在规则右侧的知识点里,“牛顿第二定律”出现了16次,几乎要刷屏。说明很多知识点的出现,必然会涉及到牛顿第二定律。

虽然条条大路通罗马,爷我就是罗马!

3、一些可能错误的规则

(1)导体切割磁感线产生的感应电动势 ==>> 闭合电路欧姆定律

(2)闭合电路欧姆定律 ==>> 导体切割磁感线产生的感应电动势

(3)牛顿第二定律 ==>> 动能定理

(4)动能定理 ==>> 牛顿第二定律

 

如果按照新课的进度,显然规则(2)与规则(3)是不正确的,因为这两条规则的右侧知识点都比左侧知识点要后学。当然了,如果放在高三复习阶段的话,这两条规则可以成立,能间接说明知识点以怎样的组合方式来考察。

 

三、后记

由于数据量很小(1000题左右),导致很多知识点组合的规则没能很好的体现出来;另外,由于数据标注也存在一定的错误,所以挖掘的规则不一定有效。但是这个思路可以帮助我们发现一些隐含的信息,提升习题在教学中的使用价值。

 

另外,考虑到数据的保密性,不上传真实数据,只提供本文的代码。但是会根据真实数据的样子,随机伪造十余条数据作为代码测试用。

千里之行始于足下!定期分享人工智能的干货,通俗展现原理和案例实现,并探索案例在中学物理教育过程中的使用。还有各种有趣的物理科普哟。坚持原创分享!坚持理解并吸收后的转发分享!欢迎大家的关注与交流。

 

下载链接:https://download.csdn.net/download/weixin_43917778/11637058

最近几年,例如YAGO和DBpedia等大规模知识库发展有了很大的进步。知识库提供了大量的不同种类的实体信息,如人、国家、河流、城市大学等等,同时知识库包含了大量的在实体(entity)间的关系既事实(fact)。当今的知识库包含的数据量是巨大的通常有百万个实体和上亿个描述实体间关系的事实数据。 虽然目前的知识库存在大量的实体和事实数据,但是这样大规模的数据仍然不完整。目前构建知识库的方法主要有两种,一种是从大量的文本中抽取事实但这种方法必然会带来大量的噪声数据,第二是人工扩展,但这样的方法对于时间的开销是极大的。如果确保一个知识库是完整的则必须花费很大的努力来抽取大量的事实,并检查事实的正确性,因为只有正确的事实加入到知识库中才是有意义的。同时知识库的本身由于有足够的信息可以推理出更多的新的事实。例如有这样一个例子,一个知识库包含一组事实是孩子c有一个妈妈m,这样可以推理得出孩子妈妈的丈夫f很可能是孩子的父亲。该逻辑规则形式化的描述如下: motherof(m,c)∧marriedTo(m,f)⟹fatherof(f,c) 挖掘这种规则可帮助做一下四种事情:1、利用这种规则来推理出新的事实,而这些被挖掘出的新的事实可以使知识库更完整。2、这些规则可以检测出知识库潜在的错误例如一个陈述是一个与一个男孩无关的人是这个男孩的父亲,这样的陈述很可能是错误的。3、有很多推理工具依赖其他工具提供规则,所以这些被挖掘出来的规则可以用于推理。4、这些规则描述一个普遍的规律,这些规律可以帮我我们理解分析知识库中的数据,如找到一些国家通常与说同一种语言的国家交易。或结婚是一个对称关系,或使用同一个乐器的音乐家通常互相影响等等。 AMIE的目标是从RDF格式的知识库中挖掘如上所述的逻辑规则,在语义网(Semantic Web)中存在大量的RDF知识库如YAGO、Freebase和DBpedia等。这些知识库使用RDF三元组(S,P,O)提供二元关系(binary relation)的描述。由于知识库一般只包含正例而(S,P,O)没有反例(S,¬P,O),所以RDF这样的知识库中仅能通过正例来推理。进一步来说在RDF知识库上的操作是基于开放世界假设(OWA)的。在开放世界假设下,一个事实没有在知识库中存在那么我们不能说这个事实是错误的,只能说这个陈述是未知的。这与标准的数据库在封闭世界假设的设定有本质上的区别。例如在知识库中没有包含marry(a,b),在封闭世界假设中我们可以得出这个a没有和b结婚而在开放世界假设下我们只能说a可能结婚了也可能单身。 压缩包内包含AMIE可运行源代码与相应文档资料,欢迎下载参考
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值