爬虫
HAVE A TIY
这个作者很懒,什么都没留下…
展开
-
爬取豆瓣电影并使用增量爬虫保存到MongoDB中
注:仅用于技术学习 知道数量来源了,就可以爬了 import requests import json import time import pymongo import hashlib #加密 def get_md5(value): md5 = hashlib.md5() md5.update(value.encode()) return md5.hexdigest(...原创 2019-12-03 19:17:14 · 492 阅读 · 1 评论 -
scrapy的组件、作用,基本流程
分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。 spiders:一个是告诉scrapy下载哪些url(requests),第二个是将设置好的item通过yield item,这个item就会由pipelines来进行处理 这两种主要由yield来做的,所以可以yie...原创 2019-11-14 19:05:25 · 384 阅读 · 0 评论 -
scrapy从下载到爬取网页基本流程---爬取猫眼为例
下载scrapy pip install scrapy 创建项目 在桌面创建一个文件夹用来放项目 将创建好的项目放到文件夹内 直接将项目拖进pycharm 创建一个spider 在setting.py文件中修改robots协议 在新建好的spider中,初始化start_urls列表,告诉scrapy要下载的网页有哪些 name:spider的名称,将来启动的时候,需要指定启动哪...原创 2019-11-08 21:17:29 · 300 阅读 · 0 评论 -
selenuim常用方法总结
1.获取当前页面的Url 方法:current_url 实例:driver.current_url 2.获取元素坐标 方法:location 解释:首先查找到你要获取元素的,然后调用location方法 实例:driver.find_element_by_xpath(“xpath”).location 3.表单的提交 方法:submit 解释:查找到表单(from)直接调用submit即可 实例:...转载 2019-11-01 21:23:12 · 202 阅读 · 0 评论 -
requests模块get请求和post基本认识
requests模块 response包含的内容有: 1.状态码 response.status_code 2.响应头 response.headers[‘Cookie’] 3.响应正文 1.获取字符串类型的响应正文 response.test 2.获取bytes类型的响应正文 response.content 3.响应正文字符串编码 response.encoding 4.响...原创 2019-10-28 19:45:13 · 279 阅读 · 1 评论 -
初识爬虫
爬虫: 自动抓取网络信息的程序或脚本的的一个程序或脚本 爬虫可以解决的问题: 解决冷启动问题 搜索引擎的根基:做搜索引擎少不了爬虫 建立知识图谱,帮助建立机器学习知识图谱 可以制作各种商品的比价软件,趋势分析 其他:比如分析淘宝上竞争对手的数据;分析微博的数据传递影响力;分析人与人之间的关系等 爬虫的分类 通用爬虫:就是将互联网上的页面整体爬取下来之后,保存到本地 聚焦爬虫:在实施网页抓...原创 2019-10-27 21:34:18 · 95 阅读 · 0 评论