自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 基础介绍---5.Git使用指南

基础介绍---Git使用指南Git 简单应用学习目标学习内容练习仓库资源与工具Git 简单应用学习目标能够使用常见的 Git 命令,以便在后面的任务中可以将自己的代码提交到 GitHub 上,并且可以使用 GitHub 可以友好的和小伙伴一起协作打怪升级。学习内容如何在系统上安装 Git如何配置 Git 基本信息:git config如何把文件增加到.gitignore里以忽略它如何初始化版本库:git init如何查看仓库的状态:git status如何把某个文件添加到 Git 暂存

2021-11-09 16:14:41 249

原创 基础介绍---4.Git Getting Started

基础介绍---4.Git Getting StartedGit 简单应用学习目标学习内容练习仓库资源与工具Git 简单应用学习目标能够使用常见的 Git 命令,以便在后面的任务中可以将自己的代码提交到 GitHub 上,并且可以使用 GitHub 可以友好的和小伙伴一起协作打怪升级。学习内容如何在系统上安装 Git如何配置 Git 基本信息:git config如何把文件增加到.gitignore里以忽略它如何初始化版本库:git init如何查看仓库的状态:git status如何把

2021-11-09 16:08:11 263

原创 基础介绍---3.Markdown支持

基础介绍---3.Markdown支持Markdown支持本节学习目标学习内容资源与工具Markdown支持本节学习目标能够熟练掌握 Markdown 语法,并能够使用 Markdown 来写博客。学习内容各种header, 如#, ##, ###, 等等,以及=====, ------文字修饰:**, __分隔符 ------列表:-以及1.插入图片:插入链接: 及 <>引用: >行内代码:code,以及代码块 ````````(注意都是三个`)表格资源与

2021-11-09 15:59:34 248

原创 基础介绍---2.如何提问

基础介绍---如何提问如何提问学习目标学习内容资源与工具如何提问学习目标提问是学习过程中必须掌握的技能,它又分为两个场景:如何当面向人请教技术问题如何在问答网站上提问。学习内容遇到问题时,如何全面正确的分析问题,找到关键因素如何使用“向小黄鸭提问”的方法来帮助自己理清路在向人提问前应该做好哪些准备工作在提问时如何清楚的表达自己的问题,并有效与对方沟通在网上问答网站提问时,有什么需要注意的地方好用的技术类问答网站资源与工具技术类问答网站(国内)技术类问答网站(国外提问

2021-11-09 15:51:22 192

原创 基础介绍---1.初识Linux

基础介绍---1.初识Linux初识Linux本节学习目标本节内容其他资料推荐初识Linux本节学习目标初步掌握Linux系统的命令本节内容什么是Linux系统?Linux操作系统诞生于1991 年10 月5 日(这是第一次正式向外公布时间),是一套免费使用和自由传播的类Unix操作系统。Linux存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。但Linux

2021-11-09 11:51:08 613

原创 Markdown基本语法总结

Markdown基本语法总结文章目录Markdown基本语法总结Markdown介绍1.设置标题2.菜单3.段落4.有序列表与无序列表5.字体5.1加粗5.2斜体5.3斜体加粗5.4删除线6.引用6.1普通引用6.2列表中使用6.3引用里嵌套引用6.4引用里嵌套列表6.5引用里嵌套代码块7.表格8.分割线9.代码10.图片10.1手动添加10.2对图片网址使用变量10.3直接拖拽11.链接11.1常用链接方法11.2超链接12.常用快捷键Markdown介绍Markdown 是一种轻量级标记语言,它

2021-10-13 11:42:24 617

原创 SQL必知必会(第5版)学习笔记(9-17)章

因为疫情,有两周居家学习的时间。根据导师布置的任务,将第二周的作业提交到这里。SQL必知必会(第5版)学习笔记学习目标:学习内容:学习时间:学习产出:1. 思维导图制作:2. 9-17章挑战题第九章挑战题第十章挑战题第十一章挑战题第十二章挑战题第十三章挑战题第十四章挑战题第十五章挑战题第十六章挑战题第十七章挑战题学习目标:9-17章语法学习,熟悉SQL的基本操作,并提交课后题答案。学习内容:《SQL必知必会(第5版)》 9-17章语法学习学习时间:8月16日---8月20日学习

2021-08-19 22:32:41 1195

原创 SQL必知必会(第5版)学习笔记(2-8)章

因为疫情,有两周居家学习的时间。根据导师布置的任务,将第一周的作业提交到这里。学习目标:2-8章语法学习,熟悉SQL的基本操作,并提交课后题答案。学习内容:《SQL必知必会(第5版)》 2-8章语法学习学习时间:8月9日---8月13日学习产出:1. 思维导图制作:利用幕布总结了2-8章的思维导图。2. 2-8章挑战题答案如下2.9 挑战题1.编写SQL语句,从Customers表中检索所有的ID(cust_id)。2.OrderItems表包含了所有已订购的产品(

2021-08-13 12:06:19 755

原创 hands-on-data-analysis-数据建模及模型评估

第三章 模型搭建和评估–建模经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。我们拥有的泰坦尼克号的数

2020-08-28 10:49:34 295

原创 hands-on-data-analysis-数据可视化

hands-on-data-analysis-数据可视化2.7 如何让人一眼看懂你的数据?2.7.1 任务一:跟着书本第九章,了解matplotlib,自己创建一个数据项,对其进行基本可视化2.7.2 任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。2.7.3 任务三:可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图(用柱状图试试)。2.7.4 任务四:可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。(用折线图试试)(横轴是不同票价,纵轴是存活人数)2.

2020-08-25 20:52:20 360

原创 hands-on-data-analysis-数据重构

hands-on-data-analysis-数据重构2 第二章:数据重构2.4 数据的合并2.4.1 任务一:将data文件夹里面的所有数据都载入,观察数据的之间的关系2.4.2:任务二:使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up2.4.3 任务三:使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保存这张表为result_down。然后将上

2020-08-23 17:40:23 306

原创 hands-on-data-analysis-数据清洗及特征处理

hands-on-data-analysis-数据清洗及特征处理2 第二章:数据清洗及特征处理数据清洗简述2.1 缺失值观察与处理2.1.1 任务一:缺失值观察2.1.2 任务二:对缺失值进行处理2.2 重复值观察与处理2.2.1 任务一:请查看数据中的重复值2.2.2 任务二:对重复值进行处理2.2.3 任务三:将前面清洗的数据保存为csv格式2.3 特征观察与处理2.3.1 任务一:对年龄进行分箱(离散化)处理2.3.2 任务二:对文本变量进行转换2.3.3 任务三(附加):从纯文本Name特征里提取出

2020-08-21 20:21:24 220

原创 hands-on-data-analysis-数据加载及探索性数据分析

hands-on-data-analysis-数据加载及探索性数据分析

2020-08-19 21:20:38 869

原创 Python编程语言---Task09:文件与文件系统

1. 文件与文件系统打开文件open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用ut

2020-08-07 20:26:34 227

原创 Python编程语言---Task08:模块与datetime模块

模块在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。1. 什么是模块容器 -> 数据的封装函数 -> 语句的封装类

2020-08-07 20:17:48 234

原创 Python编程语言---Task07:类、对象与魔法方法

练习题1、上面提到了许多魔法方法,如__new__,init, str,rstr,getitem,__setitem__等等,请总结它们各自的使用方法。new(cls[, …]) 在一个对象实例化的时候所调用的第一个方法,在调用__init__初始化前,先调用_new_。new__至少要有一个参数cls,代表要实例化的类,此参数在实例化时由 Python 解释器自动提供,后面的参数直接传递给 init。new__至少要有一个参数cls,代表要实例化的类,此参数在实例化时由 Python 解释器自动提

2020-08-05 22:00:47 223

原创 Python编程语言---Task06:函数与Lambda表达式

Python编程语言---Task06:函数与Lambda表达式函数与Lambda表达式1. 函数函数的定义函数的调用函数文档函数参数1. 位置参数2. 默认参数3. 可变参数4. 关键字参数5. 命名关键字参数6. 参数组合函数的返回值变量作用域内嵌函数闭包递归2. Lambda 表达式匿名函数的定义匿名函数的应用练习题:函数与Lambda表达式1. 函数还记得 Python 里面“万物皆对象”么?Python 把函数也当成对象,可以从另一个函数中返回出来而去构建高阶函数,比如:参数是函数返回

2020-08-02 21:26:54 475

原创 Python编程语言---Task05:字典、集合和序列

@TOC1 用字符串或数值作为key创建字典如下例:dic1 = {1: 'one', 2: 'two', 3: 'three'}print(dic1) # {1: 'one', 2: 'two', 3: 'three'}print(dic1[1]) # oneprint(dic1[4]) # KeyError: 4dic2 = {'rice': 35, 'wheat': 101, 'corn': 67}print(dic2) # {'wheat': 101, 'corn': 67

2020-07-31 20:53:42 252

原创 Python编程语言---Task04:列表、元组和字符串

Python编程语言---Task04:列表、元组和字符串列表1. 列表的定义2. 列表的创建3. 向列表中添加元素4. 删除列表中的元素5. 获取列表中的元素6. 列表的常用操作符7. 列表的其它方法练习题:列表简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class

2020-07-28 18:55:54 545

原创 Python编程语言---Task03:异常处理

Python编程语言---Task03:异常处理异常处理1. Python 标准异常总结2. Python标准警告总结3. try - except 语句打开文件出错打开文件出错原因是:[Errno 2] No such file or directory: 'test.txt'数值出错原因是:invalid literal for int() with base 10: 'abc'查询错误键错误出错了!原因是:unsupported operand type(s) for +: 'int' and 'st

2020-07-24 17:14:47 399

原创 Python编程语言---Task02:条件循环结构

Python编程语言---Task02:条件循环结构条件语句1. if 语句2. if - else 语句3. if - elif - else 语句循环语句1. while 循环3. for 循环4. for - else 循环8. continue 语句10. 推导式练习题:条件语句1. if 语句if expression: expr_true_suiteif 语句的 expr_true_suite 代码块只有当条件表达式 expression 结果为真时才执行,否则将继续执行紧跟在

2020-07-23 13:59:24 411

原创 Python编程语言---Task01:变量、运算符、数据类型及位运算

Python编程语言---Task01:变量、运算符、数据类型及位运算变量、运算符与数据类型1. 注释单行注释多行注释2. 运算符算术运算符比较运算符逻辑运算符位运算符三元运算符其他运算符运算符的优先级3. 变量和赋值4. 数据类型与转换整型浮点型布尔型获取类型信息类型转换5. print() 函数练习题引用其实已经学习过很多线上非常流行的python编程基础的课程,再通过本次课程将自己的知识进行梳理。变量、运算符与数据类型1. 注释在 Python 中,# 表示注释,作用于整行。【例子】单

2020-07-19 17:21:54 614

原创 joyful pandas 综合练习下

joyful pandas 综合练习下一、端午节的淘宝粽子交易二、墨尔本每日最低温度三、2016年8月上海市摩拜单车骑行记录一、端午节的淘宝粽子交易二、墨尔本每日最低温度三、2016年8月上海市摩拜单车骑行记录...

2020-07-01 20:32:57 103

原创 joyful pandas第9章 时序数据

joyful pandas第9章 时序数据一、时序的创建1. 四类时间变量2. 时间点的创建(a)to_datetime方法(b)时间精度与范围限制(c)date_range方法3. DateOffset对象(a)DataOffset与Timedelta的区别(b)增减一段时间(c)各类常用offset对象(d)序列的offset操作二、时序的索引及属性1. 索引切片2. 子集索引3. 时间点的属性三、重采样1. resample对象的基本操作2. 采样聚合3. 采样组的迭代四、窗口函数1. Rolling

2020-06-28 23:13:19 885

原创 joyful pandas第8章 分类数据

joyful pandas第8章 分类数据一、category的创建及其性质1. 分类变量的创建(a)用Series创建(b)对DataFrame指定类型创建(c)利用内置Categorical类型创建(d)利用cut函数创建2. 分类变量的结构(a)describe方法(b)categories和ordered属性3. 类别的修改(a)利用set_categories修改(b)利用rename_categories修改(c)利用add_categories添加(d)利用remove_categories移

2020-06-26 23:53:08 622

原创 joyful pandas 第7章 文本数据

joyful pandas 第7章 文本数据一、string类型的性质1. string与object的区别2. string类型的转换二、拆分与拼接1. str.split方法(a)分割符与str的位置元素选取(b)其他参数2. str.cat方法(a)不同对象的拼接模式(b)cat中的索引对齐三、替换1. str.replace的常见用法2. 子组与函数替换3. 关于str.replace的注意事项(a)str.replace赋值参数不得为pd.NA(b)对于string类型Series,在使用repl

2020-06-26 11:45:09 1005

原创 joyful pandas第6章Nullable缺失数据

joyful pandas第6章Nullable缺失数据五、问题与练习问题【问题一】 如何删除缺失值占比超过25%的列?用isna和notna方法统计出各列的缺失值占比,取出index,在用drop函数删除df = pd.DataFrame({'col1': ['a', 'b', np.nan, np.nan, 'e']\, 'col2': range(5, 10), 'col3': [1.3, np.nan, 3.6, 4.6, 5.8]}, index=list('12345'))pr

2020-06-23 21:37:19 688

原创 数据分析学习笔记(五)数据可视化

数据分析学习笔记(五)数据可视化数据可视化之美常见的初级图表图标的基础概念散点图气泡图单轴散点图折线图面积图柱形图直方图饼图漏斗图雷达图常见的高级图表树形图桑基图热力图关系图箱线图标靶图词云图地理图图表绘制Excel绘制绘图配色可视化BI数据可视化之美优点:直观,缺点:阅读性差数据可视化数据可视化的目的是让数据更高效,让读者更高效阅读,而不单是自己使用。突出数据背后的规律 — 突出重要的因素 — 最后是美观常见的初级图表图标的基础概念维度和度量维度是常用类别度量是数值,具体的用

2020-06-17 22:45:03 936

原创 数据分析学习笔记(四)Excel

数据分析学习笔记(四)Excel为什么要学习ExcelExcel的学习路径1Excel的必知必会Excel的常见函数什么是函数常见函数文本清洗函数关联匹配函数逻辑运算函数计算统计函数时间序列函数Excel的常见技巧Excel的快捷键数据类型数据透视表条件格式和迷你图分列数组自定义名称自定义下拉菜单冻结删除重复项分列工具库切片用Excel进行数据分析餐食数据为什么要学习ExcelExcel的学习路径1Excel的必知必会Excel保证新版本培养好的数据表格习惯主动性搜索多练习Excel

2020-06-08 23:49:20 354

原创 数据分析学习笔记(三)业务

数据分析学习笔记(三)业务为什么业务重要经典的业务分析指标指标市场营销指标为什么业务重要经典的业务分析指标模型未动 , 指标先行如果你不能衡量(指标)它,你就无法增长(偏向业务模型)它指标指标建立的要点:核心指标(整个公司部门都认同的大指标)比如创业初期,新增用户量是核心指标;中期,需要用户带动,用户活跃是指标;到后期,需要商业化,营收是指标。从结构化角度来考虑,就是金字塔的塔尖。好的指标应该是比率好的指标应该能带来显著效果(落地)e.g.提高商品销量··提高市场占有

2020-06-04 12:40:52 443

原创 NLP-Lecture1 N-Gram Language Models

Lecture1 N-Gram Language ModelsLearning ObjectivesIntroduction to Language ModelN-Gram ModelsEvaluation of Language ModelsData Sparseness Problem and N-Gram Model SmoothingAdd-One (Laplace) SmoothingB...

2020-05-15 11:13:56 775

原创 NLP-Lecture 5 Context Free Grammar and Parsing

Lecture 5 Context Free Grammar and ParsingLearning ObjectiveSyntactic Analysis语法分析Syntax句法Context-Free Grammar (CFG)上下文无关语法Structural AmbiguitySyntactic Parsing句法分析Learning ObjectiveContext-Free Gr...

2020-05-14 21:42:01 1303

原创 NLP-Lecture 4 Part-Of-Speech Tagging

Lecture 4 Part-Of-Speech TaggingLearning ObjectivePart-of-Speech TaggingIntroduction to Part-Of-Speech (POS) TaggingPOS Tag SetsOn-Line Part-of-Speech (POS) Tagging DemosPOS Tagging ApproachRule-based...

2020-05-14 21:41:39 1569

原创 NLP-Lecture 3 Text Classification and Ranking

Lecture 3 Text Classification and RankingLearning ObjectiveText ClassificationText Classification TaskSentiment Classification(情感分类)Classification Models)Learning ObjectiveText Classification– L...

2020-05-14 21:41:09 663

原创 NLP-Lecture 2 Text Processing and Representation

Lecture 2 Text Processing and RepresentationLearning ObjectiveoText NormalizationText ProcessingLearning ObjectiveoText Normalization– Word Tokenization,Normalization and SegmentationMorphologica...

2020-05-14 21:40:42 736

原创 数据分析学习笔记(二)数据分析三思维七技巧

数据分析学习笔记(二)What 三种核心思维结构化公式化业务化Why 数据分析的思维技巧How 如何在业余时间锻炼分析能力What 三种核心思维结构化结构化思考来自麦肯锡 金字塔思维金字塔思考方式核心论点寻找金字塔的塔顶,它可以是假设,是问题是预测,是原因结构拆解自上而下,将核心论点层层拆解成分论点,上下之间呈因果或依赖关系MECE相互独立,完全穷尽。论点之间避免交叉和重复,分论点们要尽量完善验证不论核心论点还是分论点,都应该是可量化的用数据说话。它们必然是可验证的例子:现在有

2020-05-10 22:51:59 1868

原创 数据分析学习笔记(一)主要流程和内容

数据分析学习笔记(一)写在最前面的话数据分析需要的主要内容数据分析的结构层次底层数据的收集/产品端收集数据业务化/产品需要什么样的数据?数据可视化/产品的表现如何?数据决策和执行/怎么让产品更好数据模型/产品开始自动化和系统化的运营数据战略/指导未来总结数据分析的整个流程:写在最前面的话最近找实习屡屡碰壁,想找机器学习的,奈何代码能力还不够,找数据分析的,奈何没有数据分析思维以及业务方面的相关知识。前阵子开始集中学习数据分析的课程,增强自己的数据分析理论知识,并以博文来做输出提高记忆。数据分析需要的

2020-05-09 12:52:04 681

原创 joyful pandas 综合练习上

一、2002 年-2018 年上海机动车拍照拍卖问题(1) 哪一次拍卖的中标率首次小于 5%?(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求显示在同一张表上。(3) 将第一列时间列拆分成两个列,一列为年份(格式为 20××),另一列为月份(英语缩写),添加到列表作为第一第二列,并将原表第一列删除,其他列依次向后顺延。(4) 现在将表格行索引设为多级索引,外层...

2020-05-01 21:50:02 259

原创 joyful pandas第5章 合并

第5章 合并五、问题与练习1.问题[问题一]请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append与assign是行接起来,combine/update是填充,merge/join横向拼接[问题二]merge_ordered和merge_asof的作用是什么?和merge是什么关系?...

2020-04-30 21:16:41 485

原创 joyful pandas第4章 变形

第4章 变形一、透视表1. pivot2. pivot_table3. crosstab(交叉表)二、其他变形方法2. 压缩与展开三、哑变量与因子化1. Dummy Variable(哑变量)import numpy as npimport pandas as pddf = pd.read_csv('table.csv')df.head()一、透视表1. pivot一般状态下,数据...

2020-04-28 22:26:06 474

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除