爬虫
努力!才能被爱慕~
这个作者很懒,什么都没留下…
展开
-
Task 04:爬取腾讯新闻
了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫1.AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了2.ajax请求在前端中有两种表现形式,一种是在后台偷偷获取数据,另一种是在右侧进度条滑动到底部时进行数据的加载。3.将地址栏中的链接复制过来作为爬取的网页对象,只会得到第一页的数据,因为二三页的数据...原创 2020-04-27 22:03:35 · 148 阅读 · 0 评论 -
Task3:Selenium模块学习及丁香园模拟登录爬取留言板
模拟自动化登陆的模块:Seleniumselenium是一个自动化测试工具selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要1、selenium准备工作第一步:安装selenium(pip install selenium)第二步:安装chromedriver(一个驱动程序,用以启动chrome浏览器,具体的驱动...原创 2020-04-26 15:01:12 · 189 阅读 · 0 评论 -
Task 02:爬虫2
爬虫二Beautiful Soup库入门学习beautifulsoup基础知识。使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup...原创 2020-04-23 22:08:27 · 92 阅读 · 0 评论 -
Task1:爬虫基础知识
基础知识了解:1.互联网、HTTP互联网互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出...原创 2020-04-21 21:50:37 · 902 阅读 · 0 评论