datawhale
weixin_44593278
这个作者很懒,什么都没留下…
展开
-
数据竞赛入门 #task1 EDA
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2020-03-24 21:27:45 · 121 阅读 · 0 评论 -
爬虫第八期 #task 1
爬虫基础get和post请求get 和 post 请求是http 协议中本地计算机与服务器的交互方式,在爬虫中我们需要用脚本模拟本机计算机向服务器发出请求并解析发回的html文件。get和post有使用上的区别。区别get多用于搜索、排序,目的是获取数据。post可以用于修改、写入数据。post更安全,提交数据位于实体区中(get读取数据后参数会显示于url中,保存在浏览器记录中)g...原创 2019-08-06 20:42:57 · 250 阅读 · 0 评论 -
爬虫第八期 #Task 2
Beautiful Soupbs和urllib爬取丁香园评论bs 是一个强大的html解析器,通过解析html把内容转化为一个文档树,每个树节点都是一个python对象,可以调用,4个对象种类:Tag(一个个标签)NavigableString(.string 获取标签内的文字内容)BeautifulSoup(一个特殊的tag对象,表示一个文档的内容)Comment(一个特殊的str...原创 2019-08-08 20:45:29 · 144 阅读 · 0 评论 -
Excel组队学习打卡(一)
Excel 基础操作基础界面的认识开始开始里基本都是关于单元格里字体的格式操作,与单元格的操作。其中条件格式与排序筛选是数据分析时关注的重点。值得注意的是,左上角的快速启动栏十分有用,对于日常使用频繁的函数或是按键可以直接添加进去。工作表左下角工作表部分能够对该工作表进行添加、重命名、删除等。右下角能够调整窗口显示视角和比例大小。数据与公式在做数据分析时这是两个最重要的板块,涉及数据...原创 2019-05-12 16:06:43 · 353 阅读 · 0 评论 -
Excel组队学习 # task3
Vlookup,Hlookup,lookup的区别与使用vlookup是以行为查找单位的,即竖直地查找。hlookup是以列为查找单位的,即水平地查找,lookup则可以认为是前两种的模糊查找。根据需要可以进行选择。需要注意绝对引用与相对引用。match和index的嵌套使用可以代替三种lookup函数,但是当条件较多时建议使用lookup。column函数的使用可以嵌套在vlookup的...原创 2019-05-16 15:41:31 · 133 阅读 · 0 评论 -
Excel组队学习#task2
task2 文件为data analyst任务一1.1 Q列中用文本提取函数对P列进行提取,先用FIND找到第一个k,然后退一个位置便是我们要提取文本的最终位置。再用MID嵌套可得。需要注意的是,因为是文本提取,所以返回值格式是文本,需要转换为数值以进行之后的计算,转化单元格格式有点麻烦,简单的方法有直接在后面乘上数字1或是加上数字0 。完整公式为 ** =MID(P2,1,FIND(“k”...原创 2019-05-14 10:02:54 · 121 阅读 · 0 评论 -
统计学基本知识 # datawhale 任务三
假设检验基本原理假设检验是数理统计中根据一定假设条件由样本推断总体的一种方法,依据的原理是小概率事件原理,即小概率事件在一次试验中是几乎不可能发生的。基本概念与基本步骤基本步骤建立假设——原假设与备择假设原假设记作H0H_0H0,是指待检验的假设,一般为研究者想要收集证据反对的,没有充分理由否定的假设。备择假设记作H1H_1H1,是指与原假设相对的假设,一般为研究者想要收集证据...原创 2019-03-03 17:48:25 · 156 阅读 · 0 评论 -
统计学基本知识 #datawhale 任务四
线性回归平方误差每个点同回归直线的竖直距离SEline=∑i=1n(yi−(mxi+b))2SE_{line} = \sum^n_{i=1}(y_i -(mx_i + b))^2SEline=∑i=1n(yi−(mxi+b))2可以看作直线对数据点拟合程度的度量设回归直线 y=mx+by = mx +by=mx+b由公式拆分推导可得:决定系数概念:y的波动程度有多少百分比...原创 2019-03-05 17:39:51 · 157 阅读 · 0 评论 -
统计学基本知识 #datawhale 任务三
统计学分布的描述偏态表示数据分布的不对称性,指数据分布的偏斜方向和程度。测定指标用偏态系数SK表示。偏态有正负之分。峰度表示数据分布的尖峭程度或峰凸程度,根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。测定指标用峰度系数K表示。K越大,峰越尖。中心极限定理在一定条件下,多个相互独立的随机变量的均值(或其他数字特征如极差),服从或近似正态分布。对随...原创 2019-03-01 16:59:41 · 253 阅读 · 0 评论 -
统计学基本知识#datawhale 任务一,二
按照网易云课堂可汗学院统计学进度,从第1课~描述性统计数据展示条形图线型图饼图箱线图茎叶图各种作用就不一一阐述了,比较基础。数据数字特征表示数据集中趋势:反映了一组数据向某一中心值靠拢的程度。参考值:均值,分位数(中位数),众数表示数据离散程度:反映一组数据的差异大小。参考值: 方差,标准差,极差(全距),分位距数据分布的测定:反映一组数据分布的形状参考值:峰度...原创 2019-02-28 17:09:36 · 221 阅读 · 0 评论