自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 【python】爬虫实战流程

2023-06-16 19:17:53 242

原创 Python运行环境安装指南之【Jupyter Notebook】

两种方法点击之后都会弹出控制台,如果不能自动跳转,按一下回车键Enter就可以进入到Jupyter Notebook。方法一:点击电脑菜单可以看到Annaconda的文件夹,然后点击Jupyter Notebook。方法二:点开Anaconda进入到主页面,再点击jupyter下面的Launch。进入到Jupyter Notebook界面之后,点击相应文件夹,找到本地代码文件。方法二:点击小键盘按钮——点击【run all cells】2、打开代码文件(对应.ipynb文件)方法一:点击按钮【Run】

2023-06-16 19:15:00 1628

原创 爬虫学习笔记之【数据提取——jsonpath、lxml模块】

一、常见响应内容分类1、结构化响应内容(1)json字符串(2)xml字符串2、非结构化响应内容(1)html字符串二、jsonpath模块1、jsonpath方法2、jsonpath常用语法规则三、lxml模块1、xpath方法2、XPath常用语法规则(1)基础语法(2)节点修饰语法(3)其他语法四、实战演练lxml模块应用——百度贴吧一、常见响应内容分类1、结构化响应内容(1)json字符串常用解析方式:json、jsonpath(2)xml字符串xml:可

2023-06-16 19:14:14 836

原创 【编程语言】Python基础知识整理

1、标识符的命名规则(必须遵守)2、标识符的命名规范(建议遵守)1、 单个变量赋值2、 多个变量赋值3.、多变量赋相同值1、整型:2、创建整型:1、浮点型:2、创建浮点型:1、布尔型:2、创建布尔型: 或 1、字符串:2、创建字符串3、常用操作1、列表:,用来存储多个数据2、创建列表:3、常用操作1、元组:,用来存储多个数据,但数据不能直接修改2、创建元组:3、常用操作(查找)1、字典:,字典⾥⾯的数据以键值对(key:value)形式出现,但不⽀持下标2、创建字典:3、常用操作1、集合:,可以去掉重

2023-06-16 19:13:55 5165

原创 【大数据】JavaSE 8.0基础部分整理

Java之父是詹姆斯.高斯林(James Gosling),诞生于SUN(Stanford University Network),2009年被Oracle(甲骨文)收购。

2023-06-16 19:11:08 195

原创 【数据分析】以散点图呈现人群聚类—思路及代码实现(附python代码)

方案一:根据距离矩阵计算坐标轴(比较难实现),假设有ABCD四个点,点A、B可以根据AB的距离确定位置,点C可以根据AC和AB的距离确认位置,但是点D只能根据AD、AB、AC其中的两个距离来确定位置,无法同时满足三个距离,Pass。思路:计算两两人群之间的心智距离,呈现人群距离矩阵,再以层次聚类图的形式展现,最后根据实际业务情况,设置合理阈值,进行人群合并。(2)只作为人群聚合的参考作用,虽然人群距离并非是距离矩阵中的实际值,但可以反应大致的人群远近趋势。(1)人群的坐标轴并没有实际业务上的意义。

2023-06-16 19:07:36 2148

原创 在Github搭建个人博客-详细步骤整理

去年就有在 Github 搭建博客的想法,但是因为工作太忙搁置了,昨天想起来这事儿,于是网上各种查阅资料,感觉虽然搭建方式比较多,但都不是很全,走了很多弯路,折腾了我一天,才终于搭建好了自己的 GIthub 博客,在此记录梳理一下,希望可以帮到大家,欢迎交流!

2023-06-16 18:52:02 3253

原创 【操作系统】Linux常用基础和高级命令

vim是一款功能强大的文本编辑器,也是早年Vi编辑器的加强版,它的最大特色就是使用命令进行编辑,完全脱离了鼠标的操作。因为使用apt-get命令默认是从国外的服务器下载安装软件的,会导致下载安装速度很慢,所以需要更改成国内的镜像源服务器。权限值之和即权限对应的值相加,例可读可写权限值为4+2=6,可读可写可执行权限值为4+2+1=7。vim打开文件进入的是命令模式,编辑模式和末行模式之间不能直接进行切换,都需要通过命令模式来完成。命令使用,还可以结合其它命令使用,但只有。......

2022-07-29 00:20:35 490 1

原创 【开发工具】使用VMware安装Ubuntu系统

在安装好的VMware中,点击创建新的虚拟机选择自定义直接下一步配置处理器所需数量设置虚拟机内存,一般为1G(1024MB)、2G(2048MB)、4G(4096MB)

2022-07-07 22:18:35 1795

原创 【编程语言】python面向对象知识整理

类和对象的关系:⽤类去创建⼀个对象,类是对⼀系列具有相同特征和⾏为的事物的统称,是⼀个抽象的概念,不是真实存在的事物,对象是类创建出来的真实存在的事物1、理解self2. 创建对象语法:2、添加和获取对象属性类外⾯添加和获取对象属性,语法:类外面获取对象属性,语法:类⾥⾯获取对象属性,语法:3. 魔法方法1、带参数的,作⽤:对不同的对象设置不同的初始化属性2、3、4. 类属性和实例属性(1)类属性1、设置和访问类属性2、修改类属性(2)实例属性5. 类方法和静态

2022-07-07 01:06:54 383

原创 【日常记录】将.py文件打包成.exe

1、安装pyinstaller库,第三方库安装方法可参考:https://blog.csdn.net/wufengfeng130/article/details/125573772?spm=1001.2014.3001.55012、准备好.py文件,cmd打开控制台,使用cd命令进入到文件所在路径3、使用命令:,打包成功后如下4、在.py文件的同级目录下,会生成两个文件夹和一个.spec文件5、在dist文件夹内找到.exe文件,双击运行即可(若运行出现问题如:闪退等,可以用cmd命令打开文件,能看到具

2022-07-02 16:41:45 459

原创 【开发工具】PyChram安装Python第三方库

输入命令(这里使用清华镜像,安装速度会快一些):pip install 包名称 -i https://pypi.tuna.tsinghua.edu.cn/simple

2022-07-02 16:01:10 1544

原创 【开发工具】PyChram的下载和安装(windows系统)

PyCharm是⼀种Python IDE(集成开发环境),分为专业版(professional)和社区版(community),专业版收费的,本次下载的是社区版

2022-06-21 22:47:44 1723

原创 【开发工具】Python解释器的下载和安装(windows系统)

CPython下载地址:https://www.python.org/downloads/release/python-372/

2022-06-21 22:31:03 2500

原创 【开发工具】JDK的下载和安装(windows系统)

若是下载以前的版本,需要自己手动配置环境变量,有两种方式(二选一):环境变量配置方法可参考:https://blog.csdn.net/wufengfeng130/article/details/125352310?spm=1001.2014.3001.5501

2022-06-18 22:52:58 333

原创 【开发工具】配置环境变量

当系统运行一个程序时,除了在当前目录下面寻找此程序外,还会到环境变量中的指定路径寻找,所以将程序的路径设置到环境变量,可以让程序在计算机的任意位置都可以运行

2022-06-18 22:50:44 463

原创 【爬虫】验证码处理方案

仅限于输入一次就可持续使用的情况使用光学识别引擎处理图片中的数据,目前常用于图片数据提取,较少用于验证码处理图片识别引擎:OCR(Optical Character Recognition)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件。Tesseract:一款由HP实验室开发,由Google维护的开源OCR引擎,特点是开源,免费,支持多语言,多平台。github项目地址:https://github.com/tesseract-oc

2022-06-15 14:29:38 2215

原创 【爬虫】反爬技巧总结

html静态文件反爬原因:请求参数为某个html文件内的参数解决方案:利用search寻找相关html静态文件发送请求反爬原因:请求参数为已发送请求包的返回参数解决方案:利用search寻找相关包js生成反爬原理:js生成请求参数解决方法:分析js,观察加密的实现过程,通过js2py获取js的执行结果验证码反爬原理:通过弹出验证码强制验证解决方法:连接打码平台API或者使用机器学习的方法识别验证码同一ip/账号单位时间内总请求数量反爬原理:同一个ip/账号大量请求对方服务器,会被识别为爬虫

2022-06-15 00:56:20 689

原创 爬虫学习笔记之【爬虫框架——selenium模块】

方式一:方式二:方法:特点:达到等待时间后再执行操作(设置时间太短元素可能还未加载出来,设置时间太长会浪费时间)方法:特点:在一段时间(最长等待20秒) 内判断元素是否定位成功,如果完成了,则进行下一步方法:特点:每一段间隔时间检查一次规定的标签是否存在,如果达成就停止等待,继续执行后续代码;如果未达成就继续等待,直到超过设置的最长等待时间(最长等待20秒) ,报超时异常.........

2022-06-13 00:03:10 970

原创 爬虫学习笔记之【请求数据——requests模块】

requests模块常用get/post方法属性和session对象

2022-06-12 12:58:55 323 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除