python网页爬虫学习笔记
禾如月
兴趣爱好:数据挖掘与机器学习
展开
-
2、Beautiful Soup库(bs4)入门
该库能够解析HTML和XML使用Beautiful Soup库: frombs4importBeautifulSoup soup =BeautifulSoup('<p>data</p>', 'html.parser') #html解析器:html.parser ,前一个参数则是要解析的内容小测:from b...原创 2017-04-13 14:47:50 · 38694 阅读 · 4 评论 -
1、网络爬虫之规则之requests库入门
导学:掌握定向网络数据爬取和网页解析的基本能力一、 Requests库入门公认的爬取网页最好的第三方库,简单和简洁import requestsr = requests.get('http://www.baidu.com')num = r.status_code #状态码print(num)r.encoding = 'utf-8'print(r.tex原创 2017-04-13 12:19:35 · 2207 阅读 · 0 评论 -
3、信息组织与提取方法
信息的标记:形成信息组织结构,增加信息维度有利于通讯,存储和展示标记的结构和信息一样有着重要的价值有利于程序理解与处理,应用HTML的信息标记: html是www(World Wide Web)的信息组织方式,将声音,图像,视频等超文本信息嵌入到文本中 html是通过预定义的标签形式将不同类型信息组织起来的1、信息标记的三种形式:XML、JSON、Y原创 2017-04-22 21:43:56 · 696 阅读 · 0 评论 -
4、认识正则表达式和re库
regular expression regex RE正则表达式:是用来简洁表达一组字符串的表达式(一行胜千言)。正则表达式:通用的字符串表达框架(就像数学规律题的公式)简洁表达一组字符串针对字符串表达“简洁”和“特征”思想的工具判断某字符串的特征归属作用:表达文本类型的特征(病毒,入侵等)查找或替换一组字符串匹配字符串(主要作用)使原创 2017-08-12 20:49:37 · 755 阅读 · 0 评论