数据科学
文章平均质量分 77
有关数据分析,数据挖掘算法及流程等
A half moon
这个作者很懒,什么都没留下…
展开
-
Datawhale——时间序列分析Task0 前置内容
统计的任务是由样本推断总体统计量就是加工出来的、反映样本数量特征的函数,它不含任何未知量《时间序列分析及应用R语言》系列课程视频强推:时间序列分析的基本思路与步骤原创 2021-10-12 19:47:14 · 84 阅读 · 0 评论 -
解决pip使用异常 No module named ‘pip‘
转载:解决pip使用异常 No module named ‘pip’转载 2021-08-29 15:26:11 · 128 阅读 · 0 评论 -
Datawhale组队学习21期_学术前沿趋势分析Task5:作者信息关联
任务5:作者信息关联5.1 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Gra原创 2021-01-25 23:14:34 · 121 阅读 · 0 评论 -
Datawhale组队学习21期_异常检测_Task5:高维异常
异常检测——高维数据异常检测主要内容包括:Feature Bagging孤立森林1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之原创 2021-01-24 23:07:29 · 311 阅读 · 1 评论 -
Datawhale组队学习21期_学术前沿趋势分析Task4:论文种类分类
任务4:论文种类分类4.1 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;4.2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;4.3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征原创 2021-01-22 22:18:51 · 127 阅读 · 0 评论 -
Datawhale组队学习21期_异常检测_Task4:基于相似度的方法
异常检测——基于相似度的方法主要内容包括:基于距离的度量基于密度的度量1、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。 实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪原创 2021-01-21 22:34:40 · 170 阅读 · 0 评论 -
Datawhale组队学习21期_学术前沿趋势分析Task3:论文代码统计
任务3:论文代码统计3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;3.2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;3.3 正则表达式正则表达式(regular expression)描述了一种字符串匹配的原创 2021-01-19 21:59:56 · 192 阅读 · 0 评论 -
Datawhale组队学习21期_异常检测_Task3:线性模型
异常检测——线性相关方法主要内容包括:线性回归主成分分析1、引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。 需要明确的是,这里有两个重要的假设: 假设一:原创 2021-01-18 22:57:24 · 332 阅读 · 1 评论 -
Datawhale组队学习21期_学术前沿趋势分析Task2_论文作者统计
任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\'azs, E. L. Berger, P. M. Nadolsk原创 2021-01-16 21:53:44 · 171 阅读 · 0 评论 -
Datawhale组队学习21期_异常检测_Task2:基于统计学的方法
异常检测——基于统计学的方法主要内容包括:高斯分布箱线图1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点 统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法原创 2021-01-15 23:07:46 · 161 阅读 · 0 评论 -
Datawhale组队学习21期_学术前沿趋势分析Task1_论文数据统计
Task1_论文数据统计导入package并读取原始数据# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import原创 2021-01-14 16:40:55 · 322 阅读 · 1 评论 -
Datawhale组队学习21期_异常检测_Task1:异常检测介绍
1.什么是异常检测?异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q2wRcksL-1610462513859)(C:\Users\86151\AppData\Roaming\Typora\typora-user-images\image-20210112220655392.png)]异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正原创 2021-01-12 22:44:06 · 150 阅读 · 1 评论 -
Datawhale--组队学习第12期--pandas基础学习---Task06缺失值处理
第6章 缺失数据在接下来的两章中,会接触到数据预处理中比较麻烦的类型,即缺失数据和文本数据(尤其是混杂型文本)Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的import pandas as pdimport numpy as npdf = pd.read_csv('data/table_mi...原创 2020-05-01 23:09:24 · 665 阅读 · 1 评论 -
Datawhale--组队学习第12期--pandas基础学习---Task05合并
第5章 合并import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head() School Class ID Gender Address Height Weight ...原创 2020-04-30 22:47:10 · 257 阅读 · 0 评论 -
Datawhale--组队学习第12期--pandas基础学习---Task4 变形
第4章 变形import numpy as npimport pandas as pddf = pd.read_csv(r'D:\86151\桌面\Datawhale\pandas\joyful-pandas-master\data\table.csv')df.head() Unnamed: 0 School Clas...原创 2020-04-29 22:55:51 · 375 阅读 · 0 评论 -
task4
大作业:爬取腾讯新闻了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Thwzx4X-1588001147685)(1585810800%281%29.png)]热点精选至少...原创 2020-04-27 23:25:59 · 137 阅读 · 0 评论 -
Datawhale--组队学习第12期--pandas基础学习---第3章 分组
第3章 分组import numpy as npimport pandas as pddf = pd.read_csv(r'D:\86151\桌面\Datawhale\pandas\joyful-pandas-master\data\table.csv',index_col='ID')df.head() Unnamed: 0 Sc...原创 2020-04-26 19:00:36 · 186 阅读 · 0 评论 -
Datawhale--组队学习第12期--python爬虫基础学习---Task03:Task03:session和cookie、ip代理、selenium自动化 拔高:丁香园留言板爬取(2天)
作业Q1: 怎么在ip被封之后实现自动更换代理池内的代理?A1: 用random.choice 随机选取ipQ2: 如何用一句通俗的语言解释清楚request、beautifulsoup和selenium三者与浏览器之间的关系?A2: BeautifulSoup:处理速度快,同时可以连续查找,主要用于静态网页经过BeautifulSoup处理以后,编码方式都变成了Unicode,需要将其...原创 2020-04-25 22:58:35 · 302 阅读 · 0 评论 -
Datawhale--组队学习第12期--python爬虫基础学习---Task02:bs4、xpath和正则表达式(2天)
二、学习内容2.1 Beautiful Soup库入门1.学习beautifulsoup基础知识。2.使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。B...原创 2020-04-24 12:06:09 · 861 阅读 · 0 评论 -
Datawhale--组队学习第12期--pandas基础学习---Task2: 索引
第2章 索引今天课有些多…还未完成问题,每天早上补齐。。!import numpy as npimport pandas as pd df = pd.read_csv('D:\\86151\\桌面\\Datawhale\\pandas\\joyful-pandas-master\\data\\table.csv',index_col='ID') df.head() ...原创 2020-04-23 22:50:48 · 209 阅读 · 0 评论 -
Datawhale--组队学习第12期--python爬虫基础学习---task0/task1环境配置和网页请求基础
先修知识:task0(基本类库安装,git,anaconda,文本处理)Task0(前置):需要自己安装有关环境,学习git(b站),下载有关driverChromedriver 作用 驱动浏览器(一个驱动程序,配合浏览器一起使用),满足一些爬虫的需要,需花一定精力参考配置教程再使用,后面说跟自动化测试有关…后续补上介绍Task01:html等有关知识,api使用,request-get使...原创 2020-04-21 23:12:34 · 4209 阅读 · 0 评论 -
Datawhale--组队学习第12期--pandas基础学习---第1章 Pandas基础
第1章 Pandas基础import pandas as pdimport numpy as np查看Pandas版本pd.__version__'1.0.1'#如何更新一、文件读取与写入1. 读取(a)csv格式#路径地址问题 斜杠??df = pd.read_csv('D:\\86151\\桌面\\Datawhale\\pandas\\joyful-pandas-m...原创 2020-04-20 23:19:58 · 651 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task5 模型融合
Datawhale 零基础入门数据挖掘-Task5 模型融合模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。1. 简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合2. stacking/blending:构建多层...原创 2020-04-04 21:16:21 · 97 阅读 · 0 评论 -
信息论---启示录(一)
首先推荐一下YouTube的《信息论四十讲》,里面没有直接谈论香农的信息通信理论那些复杂的公式,而是一些关于理解信息的一些非常有启发的概念和原理的解释,每一辑精短却包含深刻思想,引人思考~链接就不发了,搜一下就可以知道,第一讲题目是“影响世界的三比特信息”。有一个问题:如何告诉孩子计算机科学是怎么一回事?这个行业的从业者都在干什么?作者答:从事计算机科学的工作,第一步是将我们这个世界的现实问题...原创 2020-04-02 21:31:34 · 175 阅读 · 0 评论 -
数据挖掘 建模调参 Datawhale 零基础入门数据挖掘-Task4 建模调参
**Datawhale 零基础入门数据挖掘-Task4 建模调参4.2 内容介绍线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线性模...原创 2020-04-01 21:50:22 · 340 阅读 · 0 评论 -
数据挖掘 特征工程 Datawhale 零基础入门数据挖掘-Task3 特征工程
Datawhale 零基础入门数据挖掘-Task3 特征工程3.1 特征工程目标对于特征进行进一步分析,并对于数据进行处理3.2 内容介绍常见的特征工程包括:1. 异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2. 特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);...原创 2020-03-28 21:40:29 · 217 阅读 · 0 评论 -
数据挖掘 EDA---数据探索性分析 Datawhale 零基础入门数据挖掘-Task2 数据分析
Datawhale 零基础入门数据挖掘-Task2 数据分析赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX(https://tianchi.aliyun.com/com...原创 2020-03-24 21:45:52 · 240 阅读 · 0 评论 -
数据挖掘 赛题理解 Datawhale 零基础入门数据挖掘-Task1 赛题理解
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2020-03-24 19:37:35 · 283 阅读 · 0 评论
分享