小書-CSDN博客

原创快速入门GIT-实战实操

代码托管中心gitee（国内）、github（国外）、gitlab（局域网），分布式协同开发（远程代码管理仓库）

2023-05-06 00:36:43 58

Selenium自动化爬取1 - 基础自动化爬取数据from selenium import webdriverimport re# 初始化browser = webdriver.Chrome()# 爬取的网址browser.get("https://movie.douban.com/subject/34973399/comments?status=P")# 获取网页源代码html_source = browser.page_source# 清洗数据comments = re.fi

2021-06-11 20:31:14 657

原创 lxml-bs（爬虫高效数据清洗工具）

lxml-bs（爬虫高效数据清洗工具）1 - lxml解析库from lxml import etreeimport requests#目标网址url = "https://movie.douban.com/subject/34973399/comments?status=P"#请求头构造headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

2021-06-04 13:00:20 255

原创 Python数据清洗神器-Re

1 - re.match简介re.match(匹配的规则表达式,源字符串,标志位)re.match从字符串的始位置匹配,若始位置匹配成功的话则返回匹配对象,否则返回None知识点re.I忽略大小写 span()获取匹配值的位置,默认num=0,可输入指定组号获取相应的下标值 [元组]group()默认num=0,可输入指定组号获取相应的匹配值 [字符串]group() 组号num为0则获取从始位置到终位置的匹配值 [字符串]groups()从组号1开始,获取所有组号的值

2021-05-31 20:31:29 338

原创 Requests（Python爬虫快速入门-实战）

Requests（Python爬虫快速入门-实战）1 - Requests（百度新闻爬取-简单爬虫）标题百度新闻爬取（适用于无反爬机制的网站）知识点1 - requests.get(爬取的url网页网址) [ 返回一个response对象 ]2 - response.text [ 获取该网页的源代码 ]示例#导入requests爬虫库import requests#目标网址url = "http://news.baidu.com/guonei"#基础爬取(适用于无反爬机

2021-05-27 21:26:25 159

原创 Python - 装饰器的应用

函数装饰器 (无参)★要点说明：装饰器符号为@在定义函数的上方带有装饰器意味着，调用函数时候，先执行装饰器里面内容使用装饰器可以让其他函数在不需要做任何代码变动的前提下增加其他功能装饰器一般用于插入日志、性能测试、事务处理、缓存、权限校验# 函数装饰器 (无参)def test(func): def execute(): print(func.__name__,"函数性能测试成功") return execute@testdef run():

2021-03-09 13:36:42 148

原创 Python爬虫之强化（分布式爬取）

Scrapy分布式爬虫概念scrapy分布式爬虫可以理解为在多台服务器(电脑)共同爬取数据，对于爬取的数据量很大的时候，建议使用分布式爬虫。在使用分布式爬虫过程中，往往还需要结合数据库，数据库会存储已爬取的数据，则不会再重复爬取。Scrapy-redis分布式爬虫第一步 (修改参数)#在使用scrapy-redis分布式爬虫的时候，我们只需修改scrapy项目文件中的部分参数即可实现分布式爬虫## settings.py文件 ###定义调度器 (新增)SCHEDULER = "scrap

2021-01-29 21:11:20 177

原创 Python爬虫之四仓库（数据库）

Sqlite数据库第三方库名：sqlite3import sqlite3#创建数据库连接对象conn = sqlite3.connect("my_data.db")#创建数据库操控对象control = conn.cursor()#查询#返回可迭代对象info = control.execute("select * from novel")data = [i for i in info]##增加##返回操控对象,插入值需要注意，字符串要用单引号括起来control.execut

2021-01-20 20:18:32 2068 2

原创 Python 零基础 || 图形化界面

Python 图形化界面第一章 || 走进python图形化大门1-1 图形窗口初识实战1-猜数字第一章 || 走进python图形化大门有时候，我们通过写代码，来完成一个功能的实现。在使用这个功能的时候，除了通过电脑的命令行窗口来使用，还可以给予这个功能进行图形化，也就是我们的python的图形化界面。1-1 图形窗口初识我们的python有一个自带的模块，叫做tkinter模块，如果我们想实现图形化，使用tkinter模块是必不可少的实战1-猜数字代码1- 猜数字#猜数字from tki

2020-08-27 18:52:47 3145

weixin_46417042的博客