笔记
文章平均质量分 66
土豆Todo
脑子一热,考了个PS证书
展开
-
以爬取百度图片看Json
前言突然发现,在学习Python爬虫的时候重复走了一些弯路,比如信息提取这一块,对于很明显的json采用的居然是re,正则虽然强大,但是在遇到json数据后依旧使用正则去提取是一件很不舒服的一件事,而在前几篇喜马拉雅有声小说爬取时采用的便是re,现在看来实在是变扭,所以赶紧重新写一遍也提醒广大起步学爬虫的大兄弟们: json数据不要再使用正则了!,当然也可能只是我个人菜到只会正则表达式通俗易懂,像是这样pprint一下就是:这样的键值对...原创 2021-03-19 17:30:16 · 386 阅读 · 0 评论 -
解决No module named pyexecjs
前言昨天初步入门JS解密有道翻译,但没想到在包名上踩了半个小时大坑:首先,不知道什么时候安装的pyexecjs,于是上代码的时候很自然就import pyexecjs,接着就有了上面的图和问题解决这又是一个容易忽视的可爱的它:下载的模块名和导入的包名不一致改成import execjs,即可使用...原创 2020-06-24 14:19:50 · 1164 阅读 · 13 评论 -
python爬取某省财政政策内容并保存为csv文件,最后用excel打开
目标网址要求保存形式分析代码及主要注释csv文件用excel打开问题原创 2020-08-21 15:39:15 · 2266 阅读 · 2 评论 -
pyppeteer实现问卷星自动填写
环境安装第三方库下载:pip install pyppeteer驱动下载:我使用的是淘宝镜像中的chromium,进入这个网址 chromium,下载后解压到一个文件夹了解pyppeteerPyppeteer 是一款非常高效的 web 自动化测试工具,由于 Pyppeteer 是基于 asyncio 构建的,它的所有属性和方法几乎都是 coroutine (协程) 对象,因此在构建异步程序的时候非常方便,天生就支持异步运行。程序构建的基本思路是新建 一个 browser 浏览器 和 一个 页面 p原创 2020-05-29 18:25:25 · 1217 阅读 · 0 评论 -
selenium实现问卷星自动填写
前言在上篇pyppeteer版本的问卷星后写了selenium版本目标和要求依旧是:目标网站:https://www.wjx.cn/jq/78696684.aspx要求:1. 将所有的单选题随机选择2. 所有的多选题随机选择两个3. 填空题随便填入一句话4. 点击提交按钮之前,进行选择是否提交浏览器驱动selenium之所以能够操纵浏览器,就是归功于浏览器驱动。selenium可以通过API接口实现和浏览器驱动的交互,进而实现和浏览器的交互。所以要配置浏览器驱动。火狐驱动下载地址: h原创 2020-05-29 19:19:42 · 744 阅读 · 0 评论 -
csdn首页博文爬取
刚学爬虫时,爬取了csdn博文,遇到了一个问题,就是正则表达式需要的是h2标签里面那个url于是就让pat = '<a href=(.*?)\s+target="_blank"',但是会匹配到多余的东西,便让h2作为唯一标识,^\s*$匹配空行(也尝试\s+?匹配空格),于是pat = '<h2>^\s*$<a href=(.*?)\s+target="_blank"...原创 2020-02-18 01:41:42 · 212 阅读 · 0 评论