爬虫
文章平均质量分 67
这般女子
刚入门的程序媛小姐姐一枚
展开
-
python爬取网页数据出现中文乱码解决办法
python爬取网页数据出现中文乱码解决办法原创 2022-07-20 11:20:30 · 1115 阅读 · 0 评论 -
Python:使用代理IP 进行网络爬虫
在进行爬虫时,有时爬取的次数多了,会遇到无法访问的情况,很可能是IP被该网站封了,为了避免这个,我们需要可以使用代理IP ,目前有很多网站提供免费的代理IP ,如西拉免费代理IP,快代理等,但是这些IP的缺陷就是很不稳定,可能下一次测试就不能使用了,因此在实际工程中可以购买稳定的代理IP。本文主要介绍如何使用代理IP进行网站爬取。每种方式添加参数不太一样,亲测可用。1 使用requestsimport requestsurl ='http://httpbin.org/get'i = '186.22原创 2020-12-22 17:17:04 · 3899 阅读 · 1 评论 -
python爬虫股票交易信息(2)
采用Scrapy框架爬取股票信息思路step1 : 建立工程和Spider模板step2 : 编写Spiderstep3 : 编写ITEM,Pipelines建立工程打开命令行,输入scrapy startproject Stocks然后会在当前位置建立一个名称为Stocks的文件夹,包含的目录如下:编写Spider编写stocks.py文件设置start_url为上海深圳股票代码一览表生成个股网址:def parse(self, response): for h原创 2020-12-20 18:03:40 · 509 阅读 · 3 评论 -
python爬虫股票交易信息(三种方法)(1)
本文主要记录关于慕课网上的课程练习,由于时间已久,百度股票网已经不能再用了,因此参考[1]使用的股票网址股城网。法1 采用requests库思路:从初始网页获取个股代码,然后获取个股的交易信息,为了方便起见,我将获取的个股信息直接存储在csv文件中。代码如下:import requestsfrom bs4 import BeautifulSoupimport reimport pandas as pdheaders = { 'User-Agent': 'Mozill原创 2020-12-11 17:59:13 · 2519 阅读 · 0 评论 -
爬取网页文本数据--Python
对网页中的文本数据进行爬取最近在研究爬虫相关的内容,作为记录方便使用是查阅。本文爬取的网址是长沙市统计局望城区2019年国民经济和社会发展统计公报step1: 导入需要用到的库包import requests #爬取网页的库from bs4 import BeautifulSoup #用于解析网页的库step2:设置headers,网址, 爬取网页headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64)原创 2020-12-09 12:07:01 · 5947 阅读 · 4 评论 -
win10 爬虫:解决爬取的html与源文件显示不一致问题
在进行爬虫时,有时我们爬取的html和源文件所显示的不一样,此时我们需要使用selenium库来进行爬取。本文将详细介绍如何解决这个问题。准备工作1. 安装ChromeDriverstep1:首先需要保证谷歌浏览器已经安装好并可以上网。在 帮助->关于谷歌中查看版本。step2:然后需要点击下载ChromeDriver,找到对应谷歌版本进行下载。step3:然后将下载好的文件中的 chromedriver.exe 文件直接放到Adaconda3/Scripts中(注意:该路径需要在环境变量原创 2020-12-22 15:20:14 · 3909 阅读 · 1 评论 -
Python:爬取免费代理IP创建自己的代理IP池
在进行爬虫时,有时候爬取的次数多了或者短时间太过频繁就会出现无法访问的情况,此时是网站封了我们的IP ,为了避免这种情况,我们可以设置代理IP池,通过爬取免费代理IP网站获取代理IP ,然后不断测试更新代理IP池。由于免费的代理IP的不稳定性,因此只能是给大家提供个参考,在真正应用到工程时还是需要有稳定的代理IP。下载运行ProxyPoolstep1: 下载ProxyPool代码,按照说明配置好Python环境:安装redis数据库,并启动服务,然后安装Python依赖包pip install原创 2020-12-25 10:58:35 · 542 阅读 · 0 评论