数据挖掘
文章平均质量分 71
DM&&ML&&computet science
其中最主要是对数据挖掘算法学习的分享,希望能够记录自己的学习进阶之路。
斑马!
本科和研究生就读于某普通一本院校的计算机科学与技术专业,目前研究生三年级,暑期实习拿到美团,阿里,京东等大厂offer;秋招拿到了美团,京东,小米等大厂offer。方向是大数据开发工程师,主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我!
展开
-
数据挖掘方向研究生常用网站
数据挖掘原创 2022-06-02 15:20:00 · 927 阅读 · 2 评论 -
机器学习,数据挖掘,计算机方面牛人博主链接
1.机器学习,深度学习,概率论DriveC2.机器学习,自然语言处理,深度学习,基础知识AI柠檬3.科学空间,数学,计算机科学科学空间4.廖雪峰官方网站廖雪峰5.数据挖掘(老师推荐)数据挖掘6.AI,机器学习(老师推荐)AI7.机器学习百度的一位牛人8.南京大学周志华机器学习与数据挖掘研究所9.国外数据挖掘牛人数据挖掘...原创 2019-05-04 09:12:23 · 260 阅读 · 0 评论 -
大数据-数据集汇总-各种数据集网站/中心
1.购物篮数据集(网站) 在测试fp-growth算法的时候百度到了这个购物数据集 http://fimi.uantwerpen.be/data/ 【注】:这是一个数据中心,还有很多其他的数据集...原创 2019-09-21 18:17:09 · 5124 阅读 · 3 评论 -
机器学习回归算法整理1
机器学习回归算法整理相关:1.(Coursera maching-learning week1 and week2) 2.以编程提交作业展开论述。 3.个人笔记心得,以项目实践为指导。参考:1,https://www.zybuluo.com/EtoD...原创 2019-01-10 23:15:17 · 408 阅读 · 0 评论 -
DES加密算法
一:理论简介:1.DES是一种最通用的对称密钥算法。(基于密钥的算法通常分为:对称算法和公开密钥算法) (对称性体现在加密密钥能够从解密密钥推算出来,反之亦然) (在大多数对称算法中,加密,解密的密钥是相同的)2.DES的加密解密的密钥是相同的。(可见,对称密钥算法里面的密钥都是保密的)(而公开密钥算法的加密密钥是公开的,解密密钥是保密的)3.D...原创 2019-02-14 20:32:09 · 2115 阅读 · 1 评论 -
图像处理-增强现实-基本概念总结
增强现实第一章基础概念:增强现实是一个新兴的多学科交叉研究领域,它的研究范围非常广泛,包括以下多门技术:信号处理、计算机图形学、图像处理、计算机网络、三维建模技术、三维渲染技术、新型显示器和传感器的开发与设计。一个完善的AR系统包括多个学科研究的技术,其中系统显示技术、跟踪定位技术、虚实融合技术和用户交互技术是实现一个AR系统的基本支撑技术。一般增强现实的显示技术分为以下五类:头盔显示器、投影式 (Project Display)显示技术,手持式(Hand Held Display)显示原创 2020-06-06 23:02:28 · 2180 阅读 · 0 评论 -
算法-智能算法/传统算法-多种算法介绍及异同点
一:描述分治法,贪心算法,动态规划算法,回溯算法,分支限界的基本思想,适用范围和应用1.1分治法1.1.1 基本思想 将规模为n的问题分解为k个规模较小的子问题,使这些子问题相互独立可分别求解,再将k个子问题的解合并成原问题的解.如子问题的规模仍很大,则反复分解直到问题小到可直接求解为止.在分治法中,子问题的解法通常与原问题相同,从而导致递归过程.1.1.2 适用范围 该问题的规模缩小到一定的程度就可以容易地解决;该问题可以分解为若干个规模较小的相同问题;分解出...原创 2020-06-06 16:06:17 · 2673 阅读 · 0 评论 -
数据集-20个免费的数据源/网站
20个免费的数据源/网站注意:大部分网站需要科学上网,才能访问。1. datasetsearchhttps://datasetsearch.research.google.com 它可以让你搜索到已经根据 schema.org 标准进行正确标记的可用数据集。你可以看到所有搜索结果,每个结果包括数据集名称、最近更新时间、数据集简介等。2.Google Trendshttps://trends.google.com/trends/explore ...原创 2020-07-10 08:42:53 · 10999 阅读 · 0 评论 -
住哪儿网上面酒店信息爬虫源代码
import urllib.parseimport urllib.requestimport jsonimport timeimport pymysql.cursors#from datetime import date, datetime, timedeltadef getjson(page): url = 'http://www.zhuna.cn/?m=search.getList' cityname = urllib.parse.quote('北京') page .原创 2020-07-16 19:00:38 · 359 阅读 · 0 评论 -
python学习-微信好友签名词云展示
微信好友签名词云展示一:介绍1.主要是按照百度上的流程一步一个脚印2.做好相关包安装和配置3.复制粘贴代码,然后进行修改4.一般都是修改文件放置的位置5.此处主要是图片所处的位置,事先下载好图片,并放到与代码一个文件夹下。6.生成的图片也会在此文件夹下源代码:#!/usr/bin/env python# -*- coding:utf-8 -*- import itchatimport reimport jiebadef echart_pie(friends)原创 2020-07-16 19:06:10 · 145 阅读 · 0 评论 -
python--基础学习--文件及目录操作
目录一:基本文件操作1.创建和打开文件1.2关闭文件1.3 打开文件时候使用with语句1.4写入文件内容1.5读取文件二:目录操作2.1 os和os.path模块2.2 判断目录是否存在2.3创建目录一:基本文件操作1.创建和打开文件要想操作文件需要先创建或者打开指定的文件并创建文件对象,通过内置的open()函数实现file = open(filename[,mode[,buffering])1)打开一个不存在的文件时先创建文件在原创 2021-01-30 15:59:07 · 323 阅读 · 0 评论 -
python--python基础学习--字符串及正则表达式
目录一.字符串的常用操作1.1 拼接字符串1.2计算字符串的长度1.3 截取字符串1.4分隔,合并字符串1.5检索字符串1.6 字母的大小写转换1.7 去除字符串中的空格和特殊字符1.8格式化字符串2.字符串编码转换2.1 使用encode()方法编码2.2 使用decode()方法解码3.正则表达式3.1行定位符3.2 元字符3.3 限定符3.4排除字符3.5 选择字符3.6转义字符3.7分组四.使用re模块实现正则表达.原创 2021-01-28 17:48:29 · 245 阅读 · 0 评论 -
python--python基础--序列介绍
目录一:序列1.1 索引1.2 切片1.3 序列相加1.4 序列乘法1.5 检查某个元素是否是序列的成员1.6 计算序列的长度,最大值,最小值1.7 序列的其它内置函数二 列表2.1列表的创建和删除2.2 访问列表2.3 遍历列表2.4 添加,修改,删除列表元素2.5对列表进行统计和计算2.6对列表进行排序2.7 列表推导式2.8 二维列表三 元组3.1元组的创建和删除3.2 访问元组元素3.3 修改元组元素3.4元组.原创 2021-01-27 21:25:19 · 392 阅读 · 0 评论 -
python--python基础--函数,面向对象,模块,异常处理
目录一:函数1.1函数创建和调用1.2 参数传递1.3 返回值1.4变量的作用域1.5匿名函数二:面向对象程序设计三:模块四. 异常处理及程序调试一:函数1.1函数创建和调用1)创建函数创建函数也称定义函数,可以理解为创建一个具有某种用途的工具def functionname([parameterlist]): ["comment"] [functionbody]2)调用函数functionname([parametersv原创 2021-01-30 09:16:52 · 160 阅读 · 0 评论 -
python--基础学习--pymysql
目录1.连接对象2.连接对象的方法3.游标对象4.mysql实际操作1.连接对象样例:config = { 'host':'127.0.0.1', 'port':3306, 'user':'root', 'password':'oaken', 'db':'hotel', 'charset':'utf8mb4', 'cursorclass原创 2021-01-30 16:59:11 · 142 阅读 · 0 评论 -
python--pandas学习总结
一、Series和DataFramePandas特别适合处理表格数据,如SQL表格、EXCEL表格。有序或无序的时间序列。具有行和列标签的任意矩阵数据。打开Jupyter Notebook,导入numpy和pandas开始我们的教程:importnumpyasnpimportpandasaspd1. pandas.SeriesSeries是带有索引的一维ndarray数组。索引值可不唯一,但必须是可哈希的。pd.Series([1,3,5,np.nan,...原创 2021-02-21 18:14:46 · 1270 阅读 · 4 评论 -
python-- numpy学习总结
https://mp.weixin.qq.com/s/Lj7vqjW0iw7I5AabMTtYtA原创 2021-02-09 19:54:11 · 907 阅读 · 0 评论 -
python文章学习专栏--文章目录汇总
一:python基础学习python基础学习--语言基础及流程控制语句python基础--序列介绍python基础学习--字符串及正则表达式python基础--函数,面向对象,模块,异常处理python基础学习--文件及目录操作基础学习--pymysql二:python进阶学习numpy学习总结pandas学习总结Matplotlib学习总结三:python应用微信好友签名词云展示住哪儿网上面酒店信息爬虫源代码数据预处理-判断csv文件中每一行中空格/原创 2021-02-22 15:13:43 · 217 阅读 · 0 评论 -
python--Matplotlib学习总结
目录一、Matplotlib常见用法1. 绘制简单图像2. 添加常用元素3. 绘制多曲线4. 认识figure(画布)5. 绘制多图像6. 绘制常用图7. 参数简写7.1c代表color(颜色)7.2 ls代表linestyle(线条样式)7.3 marker(记号样式)7.4 其他缩写二、Matplotlib进阶用法1. 添加文本注释2. 绘制3D图像3. 导入图像(加州房价)4. 绘制等高线绘制动画Matplotlib ..原创 2021-02-22 14:58:26 · 732 阅读 · 0 评论 -
Python对Excel中具体某几列进行数据预处理
1.利用python读取Excel中.xls文件中所有数据#encoding=utf-8import xlrdimport xlwtfrom xlwt import *fileName="test01.xls"bk=xlrd.open_workbook(fileName)shxrange=range(bk.nsheets)try: sh=bk.sheet_by_name("Sheet1")except: print ("代码出错")nrows=sh.nrows #获原创 2022-05-07 20:34:59 · 1538 阅读 · 0 评论 -
数据预处理-Excel 两列合并为一列中间加空格
目录一:leetcode二:算法三:经典题目一:leetcode数组:https://blog.csdn.net/yezonghui/article/details/100932562字符串:https://blog.csdn.net/yezonghui/article/details/111990036二分查找:https://blog.csdn.net/yezonghui/article/details/111996594深度优先DFS:https://blog.csdn原创 2021-05-28 14:09:57 · 10986 阅读 · 0 评论 -
数据预处理-判断csv文件中每一行中空格/(数据值)数量(python版)
一:问题描述: 如下图所示,我们要统计表格中每行数据值(例如艺术,设计,历史是三个数据值)的个数二:空格替换逗号 从表格中可以看到有些数据值之间是空格,有些数据值之间是逗号。我们利用excel本身有的搜索替换把逗号替换为空格。三:文件读取 利用csv.reader(csvfile)进行一行一行的读取。with open('mooctypecount.csv','r',encoding="utf-8") as csvfile: r...原创 2020-07-06 16:56:57 · 2748 阅读 · 0 评论 -
数据预处理-Excel表中如何在数据中批量添加(括号)/「尖括号」等
1.问题: Excel表中如何在数据中批量添加(括号)/<尖括号>等2.解决办法: 假设数据在A列,在B1输入="<"&A1&">",然后通过右下角往下填充就可以了。3.样例: ...原创 2020-07-03 09:05:55 · 12782 阅读 · 1 评论 -
数据预处理-将相同ID的字符串进行合并-时间变量操作/csv文件操作(python)
一:要解决的问题 将相同ID的字符串进行合并。我们便于理解,我们要解决的问题可以使用下面三种说法,三种说法代表的含义是一样的。类似的问题我之前使用Java解决过,具体实现过程请参考https://blog.csdn.net/yezonghui/article/details/105638382 网上类似问题及其解决见pandas如何将相同ID的字符串进行合并 说法一:如图所示,我们遇到的问题就是根据第一列的stu_id,进行具有相同stu_id的字符串进行合并。这是我...原创 2020-06-27 23:47:36 · 1828 阅读 · 0 评论 -
数据处理-对Excel文件读取和操作和存储(python版)
一:利用python读取Excel中.xls文件中所有数据#encoding=utf-8import xlrdimport xlwtfrom xlwt import *fileName="test01.xls"bk=xlrd.open_workbook(fileName)shxrange=range(bk.nsheets)try: sh=bk.sheet_by_name("Sheet1")except: print ("代码出错")nrows=sh.nrows #获取原创 2020-06-28 09:09:14 · 849 阅读 · 0 评论 -
数据处理-数据可视化-折线图的绘制/柱状图绘制(指数级坐标轴)(python版)
#encoding=utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['Arial Unicode MS']#折线图#x = ["随机森林","贝叶斯","逻辑回归","深度学习","机器学习","数据挖掘"]y = [56.5,55.4,53.1,54.5,54.3,52.9]#线1的纵坐标plt.plot(x,y,'s-',color = 'r',label="ATT-RLSTM")#s-:方形.原创 2020-05-18 11:16:01 · 2388 阅读 · 0 评论 -
数据分析-数据预处理-完成数据统计的柱状图的绘制(Java版本)
一:问题描述 在我的博客文章https://blog.csdn.net/yezonghui/article/details/105665709里面详细介绍使用Excel进行数据分离,每行序列长度统计,长度数量计算,柱状图的绘制。在本文章中我们将采用Java编程来达到上述数据预处理的效果。二:问题解决1.数据的最初格式:2.数据每行长度进行统计 思路:即判断一...原创 2020-04-25 16:44:44 · 978 阅读 · 0 评论 -
数据分析-数据预处理-数据数量统计和柱状图绘制(Excel版处理)
一:解决的问题: 问题描述1:原始数据在Excel里面,且每行都只有一个单元格存放该行的所有数据;我们需要做的事情是统计该Excel表每行数据的个数。 问题描述2: 1)原始数据集 2)先把每行放在一个单元格里面的数据集准确地放到多个单元格里面,即每个整数对应一个单元格。 3)采用count()函数,统计每行(元素)整数的个数...原创 2020-04-21 21:26:40 · 5696 阅读 · 0 评论 -
数据分析-数据预处理-根据CSV格式的数据的第一列作为key,若第一列的key相等,则将相同的key后面的第二列合并添加(Java版)
一:题目--文章需要解决的问题题目的意思也可以表述为: 将一堆项集数据,根据数据的第一列值是否相同,来判断第二列的值是否该进行合并,相当于使之变成序列数据集。题目的样例1表述: 输出的数据格式 (可以先用Excel进行升序处理,便于userID相等的呆在一起) a,v1 a,v2 b,v3 a,v4...原创 2020-04-20 17:11:06 · 875 阅读 · 0 评论 -
数据挖掘-序列模式挖掘-prefixspan算法(样例)
数据挖掘-序列模式挖掘-prefixspan算法(样例)‘所有结果: 通俗来讲:可以以1-频繁项d为例,我们的思路讲解的很明白;这儿我们一般化我们的求解过程:1)第一次扫描原始数据库,得到长度为1的频繁序列。f_list = {a:4, b:4, c:4, d:3, e:3, f: 3}2)从长度为1的频繁项开始,即从a,b,c,d,e,f开始(注意各个是独立的,分别开始)以a开始为例,第二次扫描原始数据库得到a的投影数据库。对a的投影数据库进行计...原创 2020-07-28 16:53:10 · 528 阅读 · 0 评论 -
数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)
PrefixSpan算法通俗来讲:前缀prefix就是序列数据前面部分的子序列后缀:对于某一个前缀,序列中除去前缀后面剩下的子序列就是我们的后缀。投影数据库:假设alpha是序列数据库 S的一个序列模式,那么alpha的投影数据库就是它在S 中关于前缀alpha的序列的后缀的集合。投影数据库的支持度:相当于现在beta(beta是一个带前缀alpha的序列)支持度不是再在原始数据库中去找了,而是在alpha的投影数据库里面找了。思想:之前计算某一个(候选)序列的支持度计数原创 2020-07-28 14:17:56 · 597 阅读 · 0 评论 -
数据挖掘-序列模式挖掘-FreeSpan算法总结
一:论文位于: https://www.researchgate.net/publication/221654035_FreeSpan_Frequent_pattern-projected_sequential_pattern_mining 标题:FreeSpan: Frequent pattern projected sequential pattern mining 基于频繁模式投影的序列模式挖掘二:FreeSpan算法 基于频繁模式投影的序列模式挖...原创 2020-07-27 15:38:19 · 1126 阅读 · 0 评论 -
数据挖掘-数据挖掘综述-基础知识和概念总结
数据挖掘-数据挖掘综述-基础知识和概念总结 目录1.数据挖掘的发展历史1.1 20世纪60年代及更早1.2 20世纪70年代到80年代初期1.3 20世纪80年代1.4 20实际90年代1.5 20世纪90年代到现在2.数据挖掘专业术语列表3 数据挖掘介绍3.1 数据挖掘概念3.1.1 数据挖掘定义3.1.2 数据挖掘特点3.1.3 什么样的数据能被挖掘3....原创 2020-06-07 09:59:57 · 7741 阅读 · 0 评论 -
数据挖掘-课内课程-基础知识迁移
1.最大模式:对于频繁模式p,使得p的任何真超模式都不是频繁的。2.频繁闭项集:是一个频繁的闭的项集,项集c是闭的:如果不存在c的超集c',使得每个包含c的事务也包含c'. 通俗的讲:c的直接超集c'的支持度计数都不等于它本身的支持度计数。举例如下:3.基于约束的关联挖掘4.基于约束的分类:反单调的单调的:简洁约束可转变的约束...原创 2020-05-29 09:15:39 · 646 阅读 · 0 评论 -
数据挖掘-序列模式挖掘--GSP算法
一:基本概念介绍序列模式挖掘:指挖掘相对时间或其他模式出现频率高的模式序列模式挖掘的动机:大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID,事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式,即用户几次购买行为间的联系,可以采用更有针对性的营销措施。序列:(sequence) 以SID表示,一个序列即是一个完整的信息流序列符号化表示:...原创 2020-05-03 18:14:52 · 4748 阅读 · 1 评论 -
数据挖掘-项集挖掘-apriori算法和fp-growth算法(论文核心思想)
如何寻找频繁模式呢? 1.最原始的方法:各个项进行排列组合,即找出所有的候选集,然后再一一判断这些候选集是否是频繁项集。 2.apriori算法:1)核心思想就是集合的超集的支持度一定小于或者集合本身的支持度。 2)候选集的产生过程中的一个技巧:例如两个频繁k-项集(按字典顺序排好的)去组合产生一个(k...原创 2020-04-30 16:51:43 · 675 阅读 · 0 评论 -
数据挖掘-项集挖掘--fpgrowth总结(ppt图片版)
在这篇博客中主要分享一下我制作的关于fp-growth算法的ppt。原创 2020-04-30 16:25:12 · 383 阅读 · 0 评论 -
数据挖掘-项集挖掘--apriori算法(ppt图片版)
ppt版本来介绍我们的apriori算法原创 2020-04-20 23:22:50 · 524 阅读 · 0 评论 -
数据挖掘-序列模式挖掘-基础知识和概念总结(sequential pattern mining)
一:基础概念介绍序列模式挖掘:指挖掘相对时间或其他模式出现频率高的模式序列模式挖掘的动机:大型连锁超市的交易数据有一系列的用户事物数据库。每一条记录包括用户的ID,事物发生的时间和事物涉及的项目。如果能够在其中挖掘涉及事物间关联关系的模式,即用户几次购买行为间的联系,可以采用更有针对性的营销措施。序列:(sequence) 以SID表示,一个序列即是一个完整的信息流序列符号化表示:...原创 2020-04-20 22:05:16 · 4772 阅读 · 0 评论