![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
爱吃文字的鲸鱼
这个作者很懒,什么都没留下…
展开
-
爬虫Task1-get和pose
学习get与post请求 GET和POST是HTTP协议中的两种发送请求的方法。HTTP是基于TCP/IP的关于数据如何在万维网中如何通信的协议。 对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据);而对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)...原创 2019-03-01 10:07:10 · 258 阅读 · 0 评论 -
task2-正则表达式
地址 'https://movie.douban.com/top250?start={0}&filter='.format(x*25) for x in range(10) 抓取分析 参考:https://zhuanlan.zhihu.com/p/53745513转载 2019-03-02 15:51:10 · 91 阅读 · 0 评论 -
task5安装selenium并学习
坑:记住将驱动.exe复制到python目录!!!! Selenium WebDriver使用IE浏览器可参考:https://blog.csdn.net/xc_zhou/article/details/80782742 打开百度 from selenium import webdriver browser = webdriver.Ie() browser.get("http://ww...转载 2019-03-05 21:33:29 · 91 阅读 · 0 评论 -
task3-爬虫
题目: 学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取下面丁香园论坛的特定帖子的所有回复内容,以及回复人的信息。 丁香园直通点:晕厥待查——请教各位同仁 - 心血管专业讨论版 -丁香园论坛 。 import urllib.request as re from bs4 import BeautifulSoup as bf...原创 2019-03-03 16:28:47 · 157 阅读 · 0 评论 -
Task6 学习IP相关知识
学习什么是IP IP(Internet Protocol)计算机之间的通信地址 为什么会出现IP被封 访问频次过高,造成恶意攻击 如何应对IP被封的问题 伪造User-Agent 爬取时注意时间间隔 抓取西刺代理,并构建自己的代理池 import requests import traceback import re def get_ip_list(resp): t...转载 2019-03-06 20:14:16 · 73 阅读 · 0 评论 -
Task4 学习xpath
题目:学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的回复内容。 from lxml import etree import requests def main(): url='http://www.dxy.cn/bbs/thread/626626' headers={'User-Agent':'Mozilla/5.0 (Windows N...原创 2019-03-04 19:32:31 · 76 阅读 · 0 评论 -
task7
from selenium import webdriver import time from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_condi...转载 2019-03-07 21:09:13 · 109 阅读 · 0 评论