薄荷杂学
码龄6年
关注
提问 私信
  • 博客:41,837
    社区:149
    41,986
    总访问量
  • 40
    原创
  • 1,258,666
    排名
  • 25
    粉丝
  • 0
    铁粉

个人简介:触底反弹

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2018-11-28
博客简介:

weixin_43825323的博客

查看详细资料
个人成就
  • 获得23次点赞
  • 内容获得8次评论
  • 获得162次收藏
创作历程
  • 2篇
    2023年
  • 8篇
    2022年
  • 35篇
    2021年
成就勋章
TA的专栏
  • 薄荷学Pandas
    付费
    1篇
  • 读书笔记
  • 基本无害的计量经济学
    1篇
  • 社会网络分析
  • 数据结构
  • Excel数据分析与处理
    8篇
  • 爬虫
    9篇
  • 八爪鱼爬虫
    4篇
  • Django
    6篇
  • 爬虫实战
    7篇
  • 爬虫基础知识
    13篇
  • Python常用库
  • 机器学习
    2篇
  • ML实践
  • sklearn
  • 机器学习基本原理[兰]
    1篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflowpytorchnlp数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pandas-3-利用loc、iloc进行数据选择

发布资源 2023.07.27 ·
ipynb

pandas-2-数据索引index

发布资源 2023.07.27 ·
ipynb

pandas-1-Series和DataFrame介绍

发布资源 2023.07.27 ·
ipynb

pandas-1-Series和DataFrame介绍

其中的键('name','age','city')将成为 DataFrame 的列名,对应的值(列表)将成为该列的数据。可以看到,DataFrame 有两个索引:一个是行索引(在这个例子中是 0 到 3),另一个是列索引(在这个例子中是 'name','age','city')。使用字典创建DataFrame实例时,利用DataFrame可以将字典的键直接设置为列索引,并且制定一个列表作为字典的值,字典的值便成为该索引下所有的元素。每个值都有一个与之相关联的标签,这些标签在这个例子中是0到5的整数。
原创
发布博客 2023.07.14 ·
427 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

理想的实验

这里更关注的是“因果关系”,谁是因,谁是果?→班级规模对学生分数的影响→教育水平对工资水平的因果效用,个体接受更多的教育所带来的工资增长量→殖民地制度对经济增长的影响理想条件下的实验通常是假设出来的这个问题让我们思考如果能进行理想的实验,我们会怎样做。这通常涉及到一种假设情况,我们可以完全控制并随机分配影响因果关系的所有潜在变量。这是一种理论上的设想,可以帮助我们设计实际的研究方法。研究人员如何运用观察数据(不是随机实验产生的数据)来逼近真实实验。
原创
发布博客 2023.06.11 ·
1467 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

第八章-大数据分析-Power Query应用

1 利用power query合并多个工作簿数据1.1 源数据文件夹内含有很多的excel表格,这些工作簿的字段是相同的。【注意】数据在合并的时候,要求每个表格的标题字段名保持一致。否则合并数据将会出错。1.2 操作步骤1:新建一个空工作表——数据——查询数据——从文件(F)——从文件夹(F)步骤2:选择目标文件夹——确定步骤3:点击“转换数据”——跳转至“Power Query编辑器”界面步骤4:步骤:步骤:步骤:2 利用power query合并
原创
发布博客 2022.05.28 ·
1627 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

第七章-数据分析-数据透视表的应用

学习资料https://www.lanrenexcel.com/5-steps-to-pivot-table/https://zhuanlan.zhihu.com/p/749950271 通过数据透视表分析数据数据透视表虽然好用,但是分析的源数据必须满足在第1章《1.3Excel中源数据表常见错误暨规范化处理方法》中所讲述的数据规范要求,否则不能直接秀析。1.1 单个行列字段布局(1)要求(2) 结果预览图(3) 操作1.2 多个行字段布局(1)要求(2)结果预览图
原创
发布博客 2022.05.27 ·
1851 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

第六章-数据统计-EXCEL常用函数使用技术

1 Excel四则运算1.1 表达式1.2 常见错误2 Excel单元格行列混合引用3 常见函数应用3.1 综合类最大值——MAX()最小值——MIN()第N大值 ——LARGE(区域或数组,N)第N小值——SMALL(区域或数组,N)平均值——AVERAGE()排名——RANK()3.2 计数COUNT函数——返回包含数字以及包含参数列表中的数字的单元格的个数。利用COUNT函数可以计算单元格区域或数字数组中数字字段的输入项个数。COUNTA函数——返回参数列表中非空值的
原创
发布博客 2022.05.10 ·
1772 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

第五章-单元格区域名称管理技术应用

操作1:点击水费价格对应的单元格,再左上角重命名为"水分价格"。“实用"操作类似操作2:在金额单元格数据”=水费价格*实用"回车刚才的操作可以在"公式"下的”名称管理器"看到。
原创
发布博客 2022.05.09 ·
127 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第四章-数据清洗-高效率管理内外部数据应用

1 数据录入指南1.1 我们的源数据表从哪里来?1.1人工从键盘录入数据。    比如学生考试成绩表,个人基本信息等,需要人工输入后才能分析汇总。1.2从外部数据导入。    类似公司数据库、CRM系统,OA系统,网站、云端数据等导入到Excel工作表。    举例:学校食堂要分析同学们的消费数据,可以从食堂消费系统导出数据。那么食堂的消费数据从哪里来?    就是同学们在办理饭卡的时候,就登记了自己的基本信息。在吃饭刷卡的时候,系统就记录了每个学生的刷卡金额。    类似食堂消费系统、学校
原创
发布博客 2022.05.09 ·
352 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第三章-数据管理-数据名称管理技术应用

1 通过数据验证避免数据录入错误1.1 输入信息提醒操作:选中区域——“数据”——“数据验证”——在弹出的"数据验证"界面,切换至"输入信息"页面,输入相关内容即可。1.2 输入信息提醒(会报错版)要求:输入身份证为18位,否则报错。操作:选中区域——“数据”——“数据验证”——在弹出的"数据验证"界面,切换至"设置"页面,输入相关内容即可。1.3 输入信息提醒(制作下拉菜单)操作:选中区域——“数据”——“数据验证”——在弹出的"数据验证"界面,切换至"设置"页面——“允许"下拉菜单选中
原创
发布博客 2022.05.09 ·
245 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

第二章-数据打印-文件管理及文件打印设置

1 工作簿及工作表数据保护1.1 设置工作簿打开密码为"123",否则不能打开工作簿操作:文件——信息——保护工作簿——用密码进行加密——两次输入密码1.2 清除打开密码并设置工作簿编辑密码为"456",否则只能只读,不能编辑清除密码只需要把1.1设置的密码删除即可。设置编辑密码:在另存为界面点击"工具",选择"常规选项",输入密码即可。1.3 设置源数据表,不能被点中单元格,只能浏览步骤1:将所有单元格选中——“开始"选项卡的"数字”,点击更多——在"设置单元格格式"界面切换至"保护"页
原创
发布博客 2022.05.06 ·
517 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第一章-数据规范-数据分析报表设计标准

0 前言本笔记是对“潭州课堂”的“Excel数据处理与分析(湖南大学通识课)”课程的整理,建议大家到平台上通过视频进行学习,效果更好(老师超级有趣,课程干货满满)。1 Excel数据应用层工作流程1.1 Excel工作流程数据存储-数据处理-数据分析-数据的呈现1.2 Excel相关名词解析工作簿:通常所说的Excel文件1.3 认识鼠标的三大状态选择柄:用于选择单元格区域移动柄:用于移动或配合ctrl键盘复制单元格区域填充柄:复制、填充单元格区域,包括数据、公式等,双击有惊喜!1
原创
发布博客 2022.05.05 ·
3218 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

ML模型评估

一、评估方法留出法hold-out留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即$D=S \cup T,S \cap T = \varnothing ,在,在,在S上训练处模型后,用上训练处模型后,用上训练处模型后,用T$来评估其测试误差,作为对泛化误差的估计。注意:训练/测试集的划分要尽可能保存数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。——例如,在分类任务中至少要保存样本的类别比例相似。交叉验证cross validatio
原创
发布博客 2021.09.14 ·
326 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ML基本概念

数据集data set样本sample、示例instance特征feature、属性attribute属性值attribute value属性空间attribute space、样本空间sample space——属性张成的空间特征向量feature vector——样本可以在空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此可以把一个示例称为一个特征向量学习learning、训练training——从数据中学到模型的过程;学得模型对应了关于数据的某种潜在规律——假设hypoth
原创
发布博客 2021.09.13 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

4-八爪鱼boss直聘信息采集

目录4-1-综合实践背景4-2-综合实践操作1-打开网页2-按关键词进行搜索3-报错“当前IP地址可能存在异常访问”4-数据采集4-3-思考参考文献4-1-综合实践背景小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?boss直聘武汉地区网站:https://www.zhipin.com/wuhan/4-2-综合实践操作1-打开网页打开
转载
发布博客 2021.08.22 ·
2933 阅读 ·
2 点赞 ·
1 评论 ·
14 收藏

3-八爪鱼自定义数据采集(关键词循环、数据格式化)

目录3-1-京东关键词循环与特殊字段登录账号,设置Cookie设置循环按关键词搜索3-2-豆瓣数据格式化1.替换2、正则表达式替换3、正则表达式匹配4、去除空格5、添加前缀6、添加后缀7、日期时间格式化8、HTML转码3-3-正则表达式1、正则表达式简介2、正则表达式的用途3、常用元字符及描述4、边界匹配3-4-练习与思考参考资料3-1-京东关键词循环与特殊字段京东链接:https://www.jd.com登录账号,设置Cookie进入八爪鱼打开京东的链接与“2-自动识别初体验”的微博登录设置一致
转载
发布博客 2021.08.19 ·
7569 阅读 ·
8 点赞 ·
0 评论 ·
42 收藏

2-八爪鱼的自动识别(Cookie设置、翻页与循环)

目录2-1-知识储备Cookie2-2-微博数据抓取(登陆Cookie设置)1-在八爪鱼页面打开微博的官网2-切换至“浏览模式”3-登录微博4-设置Cookie5-输入关键词6-自动识别网页,完成数据采集2-3-豆瓣图书数据抓取(翻页与循环)1-登陆八爪鱼,进入豆瓣的采集页面2-自动识别网页3-采集各个图书的链接4-循环打开各个网页采集相关信息5-点击采集开始对最终数据进行抓取2-4-采集流程逻辑1-八爪鱼的工作原理2-八爪鱼的流程逻辑案例1案例2案例32-5-思考参考资料2-1-知识储备Cookie
转载
发布博客 2021.08.18 ·
9555 阅读 ·
6 点赞 ·
3 评论 ·
54 收藏

1-初识八爪鱼

文章目录1.八爪鱼软件界面2.运行逻辑[以爬取36Kr快讯为例]3.思考1.八爪鱼软件界面下载地址:免费下载-Windows大数据采集软件下载 - 八爪鱼采集器 (bazhuayu.com)2.运行逻辑[以爬取36Kr快讯为例]打开八爪鱼采集器,在主页的搜索框中输入36kr快讯的地址,点击开始采集在屏幕右侧的操作提示中,点击自动识别网页,点击后会进入到识别网页的过程等网页识别完成后我们就看到了八爪鱼自动识别的结果点击生成采集设置按钮点击保存并开始采集数据采集的方式有2种,一个是
转载
发布博客 2021.08.15 ·
1021 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

爬虫-验证码-图形验证码的识别

文章目录准备工作基本识别方法进一步处理转灰度二值化处理convert('1')方法指定二值化的阈值完整代码准备工作step1:安装tesseractstep2:安装tesserocr基本识别方法#1.导包import tesserocrfrom PIL import Image#2.创建image对象,打开本地文件image = Image.open('code.jpg') #3.调用tesserocr的image_to_text()方法,传入Image对象完成识别result =
原创
发布博客 2021.05.10 ·
154 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多