基于Python的数据分析与数据挖掘
文章平均质量分 59
浪荡子爱自由
深度学习与机器学习、自然语言处理技术
展开
-
【Python】处理中文文本最全python源代码
中文文本处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符。全角符号转半角符号。def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return True else: return Falsedef is_chinese_all(ustring): """判断一....原创 2022-05-06 10:38:52 · 1078 阅读 · 0 评论 -
【推荐系统】最全的推荐系统数据集,包括基于社交网络的推荐数据集
推荐算法 数据集 社交网络 推荐系统原创 2022-03-16 23:29:23 · 9420 阅读 · 2 评论 -
【数据挖掘】电商数据合集
Amazonproduct co-purchasing networkhttps://www.heywhale.com/mw/dataset/5a698cdeafceb51770d610b4女性用户网购服装反馈数据集https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30该数据集包含23000个顾客的网购评论及评价,基于真实的消费记录ZARAUR 优衣库👔👔服装销售数据https://www.heywhale.com/m原创 2022-03-01 21:32:14 · 16897 阅读 · 1 评论 -
遗传算法及旅行商问题(TSP问题)Python实现
遗传算法(Genetic Algorithm,简称GA)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法,由美国的J.Holland教授1975年首先提出。遗传算法是一种模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,通过模拟自然进化过程搜索最优解,它常用来解决多约束条件下的最优问题。遗传算法的基本操作及步骤初始化: 随机生成一个规模为N的种群,设置最大进化次数以及停止进化条件。计算适应度:适应度被用来评价个体的质量,且适应度是唯一评判因子。计算种群中每原创 2022-01-06 23:53:24 · 5156 阅读 · 2 评论 -
【Python】Python的整数、列表和访问修饰符使用注意事项
1.整数使用注意事项注意事项1在 Python 中一切都是对象,整数也是对象,在比较两个整数时有两个运算符==和is,它们的区别是: is比较的是两个整数对象的id值是否相等,也就是比较两个引用是否代表了内存中同一个地址。 ==比较的是两个整数对象的内容是否相等,使用==时其实是调用了对象的__eq__()方法。 案例1:x = y = -1while True: x += 1 y += 1 if x is y: print('%d is %d' % (x,原创 2021-11-27 23:35:21 · 190 阅读 · 0 评论 -
【数据挖掘】基于Python对Keras版本的卷积神经网络(CNN)可视化
keras实现卷积神经网络(CNN)可视化的Python环境要求如下:pip install keras==2.3.1pip install tensorflow==1.8.0pip install opencv-pythonPython实现卷积神经网络(CNN)可视化,其中卷积神经网络实现模块为keras。卷积神经网络可视化包括以下四方面:1. 卷积核输出的可视化,即可视化卷积操作后的结果,帮助理解卷积核的作用。2. 卷积核的可视化,对卷积核本身进行可视化,对卷积核学习到的行为进行解释。原创 2021-11-27 00:24:13 · 3041 阅读 · 1 评论 -
【数据挖掘】基于卷积神经网络的非侵入式负荷分解(NILM)Python实现
本方法主要利用基于卷积神经网络的非侵入式负荷分解方法实现住宅设备的识别,输入数据为在设备运行时获得的瞬态功率信号数据。训练卷积神经网络使用数据为开源数据REDD(1Hz),具体实现原理请参考文献下载链接。只供学习参考,Python实现代码如下:1 第一部分:数据可视化import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdata = pd.read_csv("data.csv")#print(d...原创 2021-11-24 09:26:21 · 5296 阅读 · 11 评论 -
【数据挖掘】频繁模式挖掘及Python实现
1.理论背景 在美国,著名的沃尔玛超市发现啤酒与尿布总是共同出现在购物车中,于是沃尔玛超市经过分析发现许多美国年轻的父亲下班之后经常要去购买婴儿的尿布,而在购买尿布的同时,他们往往会顺手购买一些啤酒;因此沃尔玛超市将啤酒与尿布放在相近的位置,方便顾客购买,并明显提高了销售额。这是频繁模式挖掘的一个经典例子——"啤酒和尿布"。简单来说,频繁模式就是当出现物品A时也经常出现物品B,比如在分析超市的购物清单时,发现买啤酒的人经常也买尿布。购物篮分析(或是亲密性分析)是介绍...原创 2021-11-23 00:07:19 · 9289 阅读 · 3 评论 -
【Python】pgmpy模块安装教程
1.pgmpy模块描述pgmpy 模块是贝叶斯网络的纯 Python 实现,专注于模块化和可扩展性。 可实现用于结构学习、参数估计、近似(基于采样)和精确推理以及因果推理的各种算法。2.pgmpy模块安装方法 【提醒】Python安装教程见:点击链接安装方法1:pgmpy需要Python 3.7+(3.7.1及以上版本,好像要是3.7系列)。pgmpy托管在pypi和anconda上。要通过pypi进行安装,请使用以下命令:pip install pgmpy...原创 2021-11-21 11:16:03 · 5549 阅读 · 0 评论 -
【数据挖掘】贝叶斯网络理论及Python实现
1.理论知识 贝叶斯网络(Bayesian Network,BN)作为一种概率图模型(Probabilistic Graphical Model,PGD),可以通过有向无环图(Directed Acyclic Graph,DAG)来表现。因为概率图模型是用图来表示变量概率依赖关系的模型,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。在处理实际问题时,如果我们希望在数据中挖掘隐含的知识,可以通过概率图模型构建一幅图的方式实现,具体实现就是用观测结点表示观测到的数据,用隐含结点表示潜在原创 2021-11-21 00:52:38 · 38059 阅读 · 10 评论 -
【Python】Python学习教程与资源链接
一、Python基础Python简明教程(Python3)Python3.7.4官方中文文档Python标准库中文版廖雪峰 Python 3 中文教程Python 3.3 官方教程中文版Python3 Cookbook 中文版 Think Python 2e 最新版中文Python 核心编程 第二版 中文菜鸟教程 Python3基础W3cschool Python3基础Python最佳实践指南Python 精要教程Python进阶 中文版中文 Python 笔记莫烦pyth原创 2021-11-14 23:55:19 · 1230 阅读 · 0 评论 -
【Python】通过Anaconda安装Python环境
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。步骤1:下载Anaconda软件,下载地址:Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source M.原创 2021-11-14 20:19:40 · 5583 阅读 · 1 评论 -
【数据挖掘】数据的相似性与相异性
概述学习内容原创 2021-11-13 23:49:27 · 548 阅读 · 0 评论 -
【数据挖掘】数据的基本统计描述
数据挖掘-认识数据数据的基本统计描述【目的】把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。更好地识别数据的性质,把握数据全貌。知识结构图:代码实现##############################################1. 数据的基本统计描述-集中趋势#############################################import numpy as npfrom sk原创 2021-11-13 23:19:57 · 1563 阅读 · 0 评论 -
【数据挖掘】数据的属性
原创 2021-11-12 23:43:52 · 373 阅读 · 0 评论