Python爬虫
weixin_44318102
这个作者很懒,什么都没留下…
展开
-
爬虫第3周——Re(正则表达式)库入门
正则表达式regular expression的概念 正则表达式:用来简洁表达一组字符串的表达式 正则表达式是一种通用的字符串表达框架 正则表达式是一种针对字符串表达“简洁”,“特征”思想的工具 可以用来判断字符串的特征归属 正则表达式的应用:在文本处理中十分常用 表达文本类型的特征(病毒,入侵) 同时查找或替换一组字符串 匹配字符串的全部或部分(主要应用) 正则表达式的使用 将符合正则表达式...原创 2020-04-05 20:49:47 · 162 阅读 · 0 评论 -
爬虫第2周——中国大学排名定向爬虫
功能描述 输入 大学排名URL链接 输出 大学排名信息的屏幕输出 技术路线 requests,bs4 定向爬虫 仅对输入URL进行爬起,不扩展爬取 程序的结构设计 步骤 所用函数 1.从网络上获取大学排名网页内容 getHTMLText() 2.提取网页内容信息中合适的数据结构 fillUnivList() 3.利用数据结构展示并输出结果...原创 2020-04-02 16:57:26 · 111 阅读 · 0 评论 -
爬虫第2周——信息提取及基于bs4库的HTML内容查找find_all方法
信息提取:从标记后的信息中提取所关注的内容 方法一:完整解析信息的标记形式,再提取关键信息 XML、JSON、TAML 需要标记解析器,例如:bs4库的标签树遍历 优点:信息解析准确 缺点:提取过程繁琐,速度慢 方法二:无标记形式,直接搜索关键信息 搜索 对信息的文本查找函数即可 优点:提取过程简洁,速度较快 缺点:提取结果准确性与信息内容相关 融合方法:结合形式解析与搜索方法,提取关键信息 需要...原创 2020-03-30 20:14:30 · 336 阅读 · 0 评论 -
爬虫第2周——信息标记的3种形式及比较
信息的标记优点 标记后的信息可形成信息组织结构,增加了信息维度 标记的结构与信息一样具有重要价值 标记后的信息用于通信、存储或展示 标记后的信息更利于程序理解和运用 HTML的信息标记(HTML超文本传输语言) 超文本:文字,声音,图像,视频 HTML通过预定义的<>…</>标签形式组织不同类型的信息 信息标记的3种形式:XML,JSON,YAML XML:扩展标记语言,标...原创 2020-03-29 21:08:55 · 103 阅读 · 0 评论 -
爬虫第2周——基于bs4库的HTML内容的遍历与格式化,编码
HTML内容的遍历原创 2020-03-29 16:57:17 · 124 阅读 · 0 评论 -
爬虫第2周——Beautiful Soup安装,基本元素
Beautiful Soup的安装:cmd- pip install beautifulsoup4 安装小测: 1.找到目标URL https://python123.io/ws/demo.html 按下F12或查看原代码即可得到页面的代码。或者采用requests库获得原代码: import requests r=request.get("https://python123.io/ws/demo...原创 2020-03-26 16:08:21 · 99 阅读 · 0 评论 -
Requests爬虫通用代码框架
import resquests #引入requests库 def getHTMLText(url): try: r=requests.get(url,timout = 30) r.raise_for_status() #判断拟爬取的url是否连接正常,200:正常,否则引发HTTPError异常 r.encoding = r.apparene_encoding return r.te...转载 2020-03-20 21:46:23 · 276 阅读 · 0 评论 -
爬虫第1周——实战
12原创 2020-03-20 21:31:36 · 51 阅读 · 0 评论 -
爬虫第1周——Robots协议
爬虫的规模 爬取网页:小规模,数据量小,爬取速度不敏感 Requests库 爬取网站:中规模,数据规模较大,爬取速度敏感 Scrapy库 爬取全网:大规模,搜索引擎,爬取速度关键 定制开发 网络爬虫引发的问题: 性能骚扰、 法律风险、 隐私泄露 ...原创 2020-03-20 21:23:49 · 76 阅读 · 0 评论 -
爬虫第1周——Requests库的规则(库的安装,Response,url,7种方法)
Requests库的安装:cmd命令-pip install requests Requests库的7种方法: Response:返回一个包含服务器资源的Response对象 属性:**HTTP协议:**超文本传输协议,一个基于请求与响应模式的,无状态的应用层协议 url格式:http://host[:port][path] host:合法的Internet主机域名或IP地址 port:端口号,缺...原创 2020-03-20 21:10:34 · 509 阅读 · 0 评论 -
爬虫第0周——了解爬虫(目标,学习框架,IDE)
学习目标:掌握定向网络数据爬取和网页解析的基本能力 IDE:集成开发环境(IDE,Integrated Development Environment )是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具。集成了代码编写功能、分析功能、编译功能、调试功能等一体化的开发软件服务套 ...原创 2020-03-20 20:42:59 · 94 阅读 · 0 评论