网络爬虫
千里足行~始于足下
坚持做喜欢的事!
展开
-
selenium实现自动播放音乐
1-5节来自哔哩哔哩:selenium框架1. 什么是selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。2. PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript原创 2020-10-10 16:18:57 · 1075 阅读 · 0 评论 -
爬虫实战操作(4)—— 获取图片和表格
1.获取图片我们想实现从https://www.jianshu.com/p/1376959c3679中下载所有图片。1.1 获取url链接和headers表头import requestsfrom bs4 import BeautifulSoupimport pandas as pdurl='https://www.jianshu.com/p/1376959c3679'headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) App原创 2020-10-07 13:50:10 · 885 阅读 · 2 评论 -
爬虫实战操作(3)—— 获取列表下的新闻、诗词
本文想实现:给定链接,获取分页的新闻标题内容,部分程序参考爬虫一条新闻,爬虫的链接是国际新浪网。1. 单个新闻获取国际新闻最新消息下得单个信息内容根据上面得链接简单修改了下程序参数,主要是评论数得修改。#给一个新闻id,返回一个信息评论数,因为评论数的网址只差一个新闻id不一样import reimport requestsimport jsoncommentURL = "https://comment.sina.com.cn/page/info?version=1&format=原创 2020-10-06 16:08:09 · 607 阅读 · 0 评论 -
爬虫实战操作(2)—— 新浪新闻内容细节
import requestsfrom bs4 import BeautifulSoupres=requests.get("https://news.sina.com.cn/s/2020-10-05/doc-iivhvpwz0482504.shtml")res.encoding='utf-8'#print(res.text)soup=BeautifulSoup(res.text,'html.parser')print(soup.text)1.获取标题soup.select(".main-原创 2020-10-06 11:47:45 · 632 阅读 · 0 评论 -
python网络爬虫入门 —— 学习笔记(1)
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag 标签对象NavigableString 用来查找 HTML 文档的注释标签,BeautifulSoup 对象表示的是一个文档的全部内容Comment 用来表示标签里的文字。1. BeautifulSoup对象from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlop原创 2020-10-05 20:23:37 · 279 阅读 · 0 评论 -
爬虫实战操作(1)—— 入门操作
爬虫很难,却很有用,尝试读了很多书都效果不好,还是得自己做一些小实例,遇到不懂得就查询,希望新入手爬虫得不用放弃,一起加油。1.网络爬虫基础大多数公司的重要数据都是从网页中得到,怎么把非结构化数据(网页数据)转化为结构化数据(数据库)呢?1.1 网络爬虫的架构使用request获取网页的内容,使用BeautifulSoup4把内容剖析出来import requestsres=requests.get("https://news.sina.com.cn/china/")res.encodin原创 2020-10-10 16:52:20 · 271 阅读 · 0 评论