李博清-CSDN博客

原创【数据挖掘】[01]心跳信号预测

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言首先感谢datawhale组织的组队学习，学习地址GitHub：https://github.com/datawhalechina/team-learning-data- mining/tree/master/HeartbeatClassification阿里云天池：https://tianchi.aliyun.com/competition/entrance/531883/notebook一、pandas是什

2021-03-16 23:51:58 244

原创【数据挖掘实战】task2-task3详情

文章目录前言一、任务2：共享单车潮汐点分析1.geohash 原理2.分析结果二、任务三：共享单车潮汐点优化1.sklearn.neighbors2.from sklearn.neighbors import NearestNeighbors3.距离度量三提交结果参考资料前言感谢datawhale组织的学习，并免费提供答疑服务。学习地址：https://coggle.club/learn/DCIC2021/博客主要记录相关的问题代码示例地址：https://cdn.coggle.club/dc

2021-02-24 23:49:41 290 1

原创【数据挖掘入门实战】DCIC城市大数据专题baseline 跑通

文章目录前言一、安装geohash报错二、folium库1.遇到的问题2.folium库基础使用3.为地图添加标记部件4. 在地图上绘制任意几何图形3总结：参考资料前言感谢datawhale组织的学习，并免费提供答疑服务。学习地址：https://coggle.club/learn/DCIC2021/博客主要记录相关的问题代码示例地址：https://cdn.coggle.club/dcic2021/DCIC-baseline.html一、安装geohash报错虽然“pip install

2021-02-19 23:39:27 441 1

原创【数据分析 05】完结篇作者信息关联

文章目录一、预备工作任务说明相关知识二、数据操作1.引入库2.读入数据3.数据处理Ⅰ创建无向图Ⅱ绘制作者关系图Ⅲ 得到作者之间的距离Ⅳ 500篇论文构建图总结1.itertuples()对dataframe进行遍历参考资料提示：以下是本篇文章正文内容，下面案例可供参考一、预备工作任务说明1.学习主题：作者关联（数据建模任务），对论⽂作者关系进⾏建模，统计最常出现的作者关系；2.学习内容：构建作者关系图，挖掘作者关系3.学习成果：论⽂作者知识图谱、图关系挖掘相关知识1.社交⽹络分析图是

2021-01-25 17:40:42 153

原创【Pandas学习 01】预备知识

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-01-21 23:00:04 89

原创【Numpy学习 11】排序，搜索和计数

文章目录一、排序【例1-1】numpy.sort(a[, axis=-1, kind='quicksort', order=None])【例1-2】排序后索引位置替代排序后的结果numpy.argsort【例1-3】照某一指标进行排序numpy.lexsort【例1-4】numpy.partition(a, kth, axis=-1, kind='introselect', order=None)【例1-5】numpy.argpartition(a, kth, axis=-1, kind='introsel

2021-01-21 00:27:07 156

原创【Numpy学习 10】向量化和广播

文章目录一、介绍二、示例介绍【例2-1】二维数组加一维数组【例2-2】两个数组均需要广播【例2-3】不匹配报错的例子演示一、介绍向量化和广播这两个概念是 numpy 内部实现的基础。有了向量化，编写代码时无需使用显式循环。这些循环实际上不能省略，只不过是在内部实现，被代码中的其他结构代替。向量化的应用使得代码更简洁，可读性更强，也可以说使用了向量化方法的代码看上去更“Pythonic”。广播（Broadcasting）机制描述了 numpy 如何在算术运算期间处理具有不同形状的数组，让较小的

2021-01-20 00:40:46 165

原创【数据分析 04】论文种类分类

文章目录一、预备工作任务说明具体细节二、数据处理1.引入库2.读入数据3.拼接标题和摘要4.提取类别并编码5.使用TFIDF提取特征三、总结机器学习编码方式1. pd.get_dummies()函数 ---one-hot encoding2.sklearn封装的api——OneHotEncoder3.Label encodingTF-IDF参考资料一、预备工作任务说明1.学习主题：论⽂分类（数据建模任务），利⽤已有数据建模，对新论⽂进⾏类别分类；2.学习内容：使⽤论⽂标题完成类别分类；3.学习成

2021-01-19 23:44:05 880

原创【数据分析 03】论文代码统计

文章目录一、预备工作任务说明具体细节二、处理步骤1.引入库2.读入数据3.对pages进行抽取3.1pages储存在comments中，用正则表达式进行提取3.2可以看到pages列是列表形式，需提取数字3.3分类统计论文页数4.论文图表个数进⾏抽取总结正则表达式之信息提取1.替换re.sub(正则表达式，新替换的str，被查的str)2.提取2.1 re.sub()2.2 re.match()2.3 group(num) 或 groups()2.4 re.findall()一句话绘图数据分析系列，使

2021-01-19 00:51:10 281

原创【Numpy学习 09】数组操作

文章目录一、更改形状【例1-1】numpy.ndarray.shape【例1-2】numpy.ndarray.flat【例1-3】numpy.ndarray.flatten([order='C'])【例1-4】numpy.ravel(a, order='C')【例1-5】numpy.reshape(a, newshape[, order='C'])二、数组转置【例2-1】转置三.更改维度【例3-1】增加维度numpy.newaxis = None【例3-2】删除单维度numpy.squeeze(a, axi

2021-01-16 00:14:01 893

原创【数据分析 02】论文作者统计

文章目录前言一、预备工作1.任务说明2.字符串处理知识二、操作步骤1.引入库2.读入数据3.选择部分论文进行处理3.1选则cs.cv下面的论文3.2拼接所有作者姓名3.3 姓名频率统计（取前10，下同）3.4 统计作者的姓3.5统计作者姓的首字符总结1.df.apply()2.匿名函数lambda3.sum()4.pandas的index参考资料前言学习主题：论⽂作者统计（数据统计任务），统计所有论⽂作者出现评率Top10的姓名；相关的数据集在专栏的第一篇文章一、预备工作1.任务说明任务主

2021-01-14 23:30:05 580 2

原创【Numpy学习 08】数组迭代

除了for循环，Numpy 还提供另外一种更为优雅的遍历方法。apply_along_axis(func1d, axis, arr)当数据为二维时，axis = 0,代表x轴，取1代表y轴当数据为三维时，axis = 0，代表z轴，取1代表x轴，取2代表y轴import numpy as npx = np.array([[11, 12, 13, 14, 15],[16, 17, 18, 19, 20],[21, 22, 23, 24, 25],[26, 27, 28, 29, 30],.

2021-01-14 14:56:27 97

原创【Numpy学习 07】索引与切片

终于来到重点部分了。。。说白了用途就是在创建的数组上提取数据或者修改数据，以下为具体介绍。数组索引机制指的是用方括号（[]）加序号的形式引用单个数组元素，它的用处很多，比如抽取元素，选取数组的几个元素，甚至为其赋一个新值。1.整数索引【例1】要获取数组的单个元素，指定元素的索引即可。import numpy as np#一维数组x = np.array([1, 2, 3, 4, 5, 6, 7, 8])print(x[2]) # 3#5*5数组，二维x = np.array([[1.

2021-01-14 14:45:17 115

原创【Numpy学习 06】副本与视图

在 Numpy 中，尤其是在做数组运算或数组操作时，返回结果不是数组的副本就是视图。在 Numpy 中，所有赋值运算不会为数组和数组中的任何元素创建副本。1. numpy.ndarray.copy() 函数函数创建一个副本。对副本数据进行修改，不会影响到原始数据，它们物理内存不在同一位置。import numpy as npx = np.array([1, 2, 3, 4, 5, 6, 7, 8])y = x #赋值y[0] = -1print(x)# [-1 2 3.

2021-01-14 13:41:55 75

原创【Numpy学习 05】数组的属性

数组属性numpy.ndarray.ndim 用于返回数组的维数（轴的个数）也称为秩，一维数组的秩为 1，二维数组的秩为 2，以此类推。numpy.ndarray.shape 表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。numpy.ndarray.size 数组中所有元素的总量，相当于数组的 shape 中所有元素的乘积，例如矩阵的元素总量为行与列的乘积。numpy.ndarray.dtype ndarray 对象的元素类型。numpy.ndarray.

2021-01-14 13:22:09 538

原创【数据分析 01】论文数据统计 --学术前沿分析

数据来源：https://www.kaggle.com/Cornell-University/arxiv目的：统计2019年全年，计算机各个方向论文数量以下基于jupyter环境实现1.导入数据数据介绍：导入数据# 导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式，匹配字符串的模式import requests #⽤于⽹络连接，.

2021-01-13 16:33:22 355

原创推导表达式嵌套循环

嵌套循环：result= set([i for l in [x.split(’ ') for x in data[“categories”]] for i in l])图解拆分写：list = []temp = [x.split(’ ') for x in data[“categories”]]for l in temp:for i in l:list.append(i)result = set(list)实例九九乘法表：for i in range(1,10): for

2021-01-13 00:21:21 191

原创【python】正则表达式学习笔记

1.什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。2.常用匹配规则...

2021-01-12 23:20:30 145 1

原创【Numpy学习 04】数组创建

1 现有数据创建 ndarray【例1-1】array（）函数创建import numpy as np#一维数组创建a = np.array([0,1,2,3])print(a,type(a)) #[0 1 2 3] <class 'numpy.ndarray'>#二维数组创建b = np.array([[0,1,2,3],[1,2,3,4]])print(b,type(b)) #[[0 1 2 3]#[1 2 3 4]] <class 'numpy.ndarray

2021-01-11 23:38:54 271

原创【Numpy学习 03】时间日期和时间增量

1、datetime64 基础在 numpy 中，我们很方便的将字符串转换成时间日期类型 datetime64 （ datetime 已被 python 包含的日期时间库所占用）。datatime64 是带单位的日期时间类型，其单位如下：日期单位代码含义Y年M月W周D天h小时m分钟s秒【例1-1】默认下创建datetime类型默认情况下np会根据字符串自动选择对应单位def DateTest(time): a

2021-01-11 00:35:47 775

原创【numpy学习 02】数据类型

1、常见数据类型Python 原生的数据类型相对较少，** bool、int、float、str**等。科学计算中要求较高，为了加以区分 numpy 在这些类型名称末尾都加了“_”。2、创建数据类型numpy的数值类型实际是dtype对象的实例#源码dtypeclass dtype(object): def __init__(self, obj, align=False, copy=False): pass【例2】创建不同的数据类型import numpy as npa =

2021-01-10 22:43:44 204

原创【Numpy 学习01】常量

前言注：文章代码示例均导入 import numpy as npnumpy 库包括以下几个常量：np.NaN、 np.inf、np.pi、 np.e1 np.NaN表示空值 np.nan=np.NaN=np.NAN两个np.NaN不相等#两个np.NaN 不相等import numpy as npprint(np.NaN == np.NaN) #Falseprint(np.NaN != np.NaN) #Truenumpy.isnan(x, *args, **kwarg

2021-01-10 21:24:16 267

原创理论知识

业务与指标OMTM 唯一核心指标法：原则：点、线、面、体指标：三部分组成核心需求：分析一个转化，曝光，留存对象：分析哪一个场景，哪一个功能、哪一个条件时间：需要限定，分析哪个时间段。3.指标如何拆解：以分析app为例第一步：理解业务和目标第二步：确定核心指标第三步：维度拆解业务流程法第一步：梳理业务流程基本步骤：第一步梳理整个事项的流程，第二步，确定每个步骤当中涉及到的一些业务点，第三步，根据每一个业务点去梳理量化其中的一些数据第二步：量化业务流程

2020-12-29 13:05:40 134

weixin_44454670的博客