爬虫
@派大星@
菜鸟
展开
-
python的配置文件使用方法
在平时的项目中,常常需要用到配置文件,用来配置项目的一些信息,比如数据库,请求网址,文件夹,线程、进程数等信息,这样就可以方便我们通过修改配置文件中的参数来很好地完成整个项目的功能修改或开发。配置文件一般区别于Python代码,会单独存放在一个文件夹中,方便管理,常见的配置文件格式有.conf, .ini, .yaml等。记录第一次使用配置文件:首先需要安装configparser模块;命令:pip3 install configparser我这里处理的是.ini文件,内容如下:[mysql]h原创 2020-08-02 17:24:51 · 531 阅读 · 0 评论 -
记一些xpath的详细使用
温故而知新,可以为师矣。之前已经转载过xpath的使用,但是毕竟那是别人写的,今天来自己写一些表达式复习一下。xpath表达式:/:表示的是从根节点开始定位,表示的是一个层级。//:表示的是多个层级,可以表示从任意位置开始定位。属性定位://tag[@attrName=“attrValue”]索引定位://tag[@attrName=“attrValue”]/tag[1.2.3]取属性:/@attrName取文本:/text()最后,其实借助xpath工具会更方便快捷,但是对于初学者这些原创 2020-05-28 09:21:39 · 169 阅读 · 0 评论 -
爬取简书热评文章
分析:打开浏览器输入网址后浏览网页时,发现没有分页的界面和url,可以一直向下浏览下去,说明使用了异步加载。打开浏览器的开发者工具,打开network选项卡,鼠标下滑页面会看到有加载的文件,点击headers可以发现url信息。然后就可以构造爬取的url链接了。此次信息爬取采用了多进程的方式来提高爬取效率。话不多说上源码:import requestsfrom lxml import etreeimport pymongofrom multiprocessing import Poolimp原创 2020-05-24 20:10:53 · 248 阅读 · 0 评论 -
爬取豆瓣音乐并保存到mongodb数据库
爬取豆瓣音乐信息import reimport requestsimport pymongofrom lxml import etreeimport time#连接数据库client = pymongo.MongoClient('localhost',27017)douban_music = client['douban_music']#创建数据集合music_top = douban_music['music_top']headers = { 'User-Agent':原创 2020-05-23 21:13:44 · 283 阅读 · 0 评论 -
爬取考研英语单词
爬取考研英语单词并写入CSV文件中import csvimport requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'}#创建csv文件f = open('E:/原创 2020-05-20 09:57:31 · 763 阅读 · 0 评论 -
xpath使用
一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。二、xpath语法表达式 描述nodename 选取此节点的所有子节点。转载 2020-05-18 22:03:39 · 417 阅读 · 0 评论 -
Beautifulsoup使用
Beautifulsoup使用:获取title标签:Soup.title获取标签名字的方法:soup.a.name获取标签属性的方法:tag=soup.a.attrs (返回字典类型)<>.find_all(name,attrs,recurisive,string,) 返回一个列表类型,存储查找的结果Name:对标签名称的检索字符串Attrs:对标签属性值的检索字符串,可标注属性检索< tag>() 相当于< tag>.find_all()Soup()原创 2020-05-18 21:57:44 · 236 阅读 · 0 评论 -
爬取北京地区的短租房信息
爬取北京地区的短租房信息首先分析url结构(以前三页为例):http://bj.xiaozhu.com/http://bj.xiaozhu.com/search-duanzufang-p1-0/http://bj.xiaozhu.com/search-duanzufang-p2-0/需求:对标题,房东性别,房间地址,价格进行爬取判断房东性别的函数:def get_sex(class_name): if class_name == 'member_girl_ico':原创 2020-05-18 21:42:57 · 331 阅读 · 0 评论 -
爬取小说斗破苍穹
from urllib.request import urlopenfrom urllib.request import Requestimport reheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ...原创 2020-02-20 16:47:21 · 214 阅读 · 0 评论 -
将爬取的数据写入csv文件中
爬取某小说网站的小说信息from lxml import etreeimport requestsimport csv#创建csv文件f = open('E:/python/myPython/test2.csv','wt',newline='')writer = csv.writer(f)#写入表头writer.writerow(('names', 'authors'))#构造u...原创 2020-02-26 16:25:50 · 7102 阅读 · 0 评论 -
xpath的使用
使用xpath语法爬取起点中文网练习from lxml import etreeimport requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 ...原创 2020-02-24 20:43:47 · 92 阅读 · 0 评论 -
关于xpath语法的使用和遇到的一些问题
首先说一下我遇到的问题,我在学习xpath时按照书上下载好lxml之后然后导入etree时报错了。我大概在百度上查了一个多小时,网上说的是python 3.5之后的lxml模块里面不再包含etree。我按照网上的说法重新下载了lxml,我的环境是python3.6.4安装的是lxml4.1.0,发现还是不行,还是报错。我没有管它继续编写测试代码,然后执行,发现可以运行代码不报错代码正常运行...原创 2020-02-24 19:55:59 · 655 阅读 · 0 评论 -
爬虫爬取表情包
from bs4 import BeautifulSoupimport requestsimport ospath = "E:/python/myPython/img1/"def Info(url): html = requests.get(url) soup = BeautifulSoup(html.text,'lxml') img_list = soup.fi...原创 2020-03-08 21:44:44 · 692 阅读 · 0 评论