爬虫之旅
文章平均质量分 78
窥探爬虫的强大
梧桐下的四叶草
这个世界并没有我看上去的那么简单,人各有命,上天注定。有人天生为王,有人落草为寇。脚下的路,如果不是你自己的选择。那这旅程的终点在哪儿,也没人知道。你会走到哪儿,会碰到谁。都不一定。
展开
-
Titans Selenium 自动化框架-百度搜索例子
首先我们要编写自动化操作命令:[ { "component": "request", "args": { "url": "https://www.baidu.com" }, "type": "browser" }, { "component": "input", "args": { "xpath": "//input[@id='kw']", "text": "Python" }, "type":原创 2020-05-13 10:06:39 · 469 阅读 · 0 评论 -
Selenium自动化框架
之前工作中接触过自动化的项目,所以自己也写了一个 titans 框架,现在算是完成50%了吧。因为考虑的事情较多,所以项目朝着复杂化中走,然后越来越多的细节要处理。首先这里分为三大块前端后端自动化服务端前端这里是用 Vue 的 Element-UI 进行编写,这里面对 Vue 没实战过,导致很多卡点,然后一开始也打算将功能尽量封装起来,导致很多时候无从下手,最后发现这个方式明显有问题...原创 2019-11-05 11:04:00 · 597 阅读 · 0 评论 -
Python3+selenium+BeautifulSoup自动化爬虫
环境安装可以查看这个blog https://blog.csdn.net/zhuyiquan/article/details/79537623首先我们要爬取的网站是:https://www.qimai.cn/rank/release而需要的数据是然而当你不断向下滑动的时候,你会发现它还会有异步请求数据(这个要在你登录之后才有,没登录只能看见200条数据)...原创 2018-09-25 22:19:59 · 2495 阅读 · 0 评论 -
python爬虫三个小案例(入门)
爬虫很久没有写了,这次用python来写一波入门教程。有道翻译api接口翻译英文单词这个可以在网上找教程,我是参考如下大神的。 传送门 这个说是爬虫,但是我个人更觉得像api接口调用。这里面具体就是我输入一个英文单词,然后将单词拼接到api的url上面,之后返回翻译信息。#!/usr/bin/env python# enco...原创 2018-06-17 22:24:29 · 1713 阅读 · 2 评论 -
(3)php爬虫---mysql大批数据导入数据库-4种方法比较
今天心情不错,继续来填我的爬虫项目的坑,在这里我已经拿到了优酷动漫上的数据了,大约有3000条左右。正是数据量有点多,不可能人工用手填入数据库的,不然还不累死,而且还会出错,这样子做不靠谱是最笨的方法。所以这里面我第一个想到的就是直接使用sql语句插入,一条条的插入数据库。我的数据具体是这个样子的://$v[0]===>动漫简介//$v[1]===>动漫图片url//$v[原创 2017-07-26 00:39:41 · 3587 阅读 · 15 评论 -
(2)php爬虫---提取优酷动漫的外链与介绍
因为最近比较忙,所以距离第一篇的php爬虫已经相隔了比较远的时间了。最近终于解放了,时间也比较充足,而且环境上也不错,有稳定的网络可以使用,所以现在就把之前的坑再填一点吧。 在第一篇的时候写得比较随意,所以看起来会很乱。所以之后我就重构了代码,将所有的代码都进行了封装使用,这样子就不会太过于乱,也增加了代码重用的可能性了。首先我们定义一些类变量,用来进行数据保存。 public $原创 2017-07-23 19:47:56 · 1347 阅读 · 0 评论 -
(1)php爬虫---提取优酷动漫的url
今天第一次写php爬虫,感觉还可以。以前我一直都想用php做爬虫了。但是因为不会使用正则表达式,所以也就一直下不起手来。今天终于下定决心去学正则,所以做爬虫的热情又回来了。首先,我是使用file_put_content()函数来将所要爬取的网页下载下来,然后再使用正则来匹配我们想要的数据。具体的步骤如下:(1)去优酷的动画网站找到url复制。//url链接数组$Link = [原创 2017-07-05 17:07:27 · 1856 阅读 · 0 评论 -
NodeJS-糗事百科段子爬虫
第一次爬糗事百科的段子也是不容易呀,第一次使用http的get模式去爬,发现爬不到数据。估计是被反爬了吧。最后采用request模块来做,之后就成功爬取到糗事百科上的html网页数据了。不过只是爬到原始的HTML数据而已,与浏览器上直接观看的html源码还是有点区别的。因为浏览器上的代码是经过ajax数据更改过的。所以一开始我爬到数据之后,在浏览器上找到相应的id后就获取了。结果发现什么数据都没有原创 2017-02-06 15:54:07 · 893 阅读 · 0 评论 -
NodeJS-妹子图爬虫
学了NodeJS已经一段时间,所以打算玩一下爬虫练一下手。首先,我们找到一个自己喜欢的存储位置,新建一个文件夹。这里我在D盘上的test文件夹下的meizi文件夹上进行爬虫。然后在meizi文件夹中新建一个index.js和一个images文件夹。index.js--------入口文件images---------图片保存文件夹结果如下图:在上图可以看见,多了一个no原创 2017-02-02 20:56:34 · 2074 阅读 · 0 评论