爬虫
weixin_44826979
这个作者很懒,什么都没留下…
展开
-
python定时任务
代码 python定时任务。原创 2022-07-19 15:24:10 · 259 阅读 · 0 评论 -
图片批量转pdf
import img2pdfimport os# path = os.getcwd()path = r"D:\WorkStation\toutiao\她经济"print(path)# list_dir = os.listdir(path)# print(len(list_dir))path_list = [path + "\\" + str(i)+".jpg" for i in range(34)]print(path_list)# multiple inputs (variant 2原创 2022-01-24 15:37:25 · 157 阅读 · 0 评论 -
python优雅地将字典数据插入数据库
import requestsimport urllib3import jsonfrom Database import Databaseimport sslfrom urllib import parsessl._create_default_https_context = ssl._create_unverified_contexturllib3.disable_warnings()headers = { "authority": "search.1688.com",原创 2021-12-18 18:16:08 · 2089 阅读 · 0 评论 -
selenium +geogle chomer批量爬取(百度知道、爱问、360、悟空问答、搜狗)的第一条结果
from lxml import etreeimport urllib3import timeimport sslimport refrom w3lib.html import remove_tagsfrom Database import Databasefrom selenium import webdriver# 替换特殊字符def replace_entity(str): CHAR_ENTITIES_dict = { " ": "",原创 2021-08-04 15:29:08 · 132 阅读 · 0 评论 -
豌豆荚爬虫
由于详情页数据无法破解、模拟请求详情页数据会出现一个滑块,手动划也可以不能通过结果只能拿到列表页上面包含的信息import requests.sessionsfrom lxml import etreefrom openpyxl import workbookimport timeimport jsondef get_category_url_list(url, session, headers, sheet): try: # 关闭多余连接 s原创 2021-07-29 13:53:05 · 430 阅读 · 0 评论 -
python + selenium爬取百家号文章
import refrom selenium import webdriverfrom w3lib.html import remove_tagsfrom lxml import etreefrom Database import Databaseimport time# 替换特殊字符def replace_entity(str): CHAR_ENTITIES_dict = { " ": "", " ": "",原创 2021-07-29 13:42:55 · 468 阅读 · 0 评论