爬虫
z11111z11
这个作者很懒,什么都没留下…
展开
-
第四周学习笔记——Scrapy的实例二
"股票数据Scrapy 爬虫"实例介绍Scrapy爬虫获取股票数据功能描述数据网站的确定程序框架实例编写步骤1:建立工程和Spider模板Scrapy爬虫获取股票数据功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:scrapy数据网站的确定获取股票列表:东方财富网:http://quote.eastmoney.com/stocklist.html获取个股信息:课程中的百度股票已经不适用,故换成https://www.laohu8.com/stock/原创 2020-08-25 11:09:31 · 241 阅读 · 0 评论 -
爬虫mooc第四周笔记
Scrapy爬虫框架Scrapy爬虫Scrapy爬虫框架结构5+2结构三个路径之一三个路径之二三个路径之三数据流的出入口Scrapy爬虫框架解析Engine(无需用户修改)Downloader(无需用户修改)Scheduler(无需用户修改)Downloader Middleware(用户可以编写配置代码)Spider (需要用户编写配置代码)Item Pipelines (需要用户编写配置代码)Spider Middleware(用户可以编写配置代码)Scrapy命令行Scrapy常用命令Scrapy爬虫原创 2020-08-25 10:15:47 · 142 阅读 · 0 评论 -
mooc爬虫课程第三周学习笔记之二(实例分析)
实例分析淘宝爬虫实例分析功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格解决的问题:使用requests与re库main函数getHTMLText函数parsePage函数printGoodsList函数淘宝爬虫实例分析功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格解决的问题:淘宝的搜索接口翻页的处理使用requests与re库在淘宝中搜索书包后起始页https://s.taobao.com/search?q=书包&js=1&stats_cl原创 2020-08-22 10:02:35 · 495 阅读 · 0 评论 -
mooc爬虫课程第三周学习笔记之一
正则表达式在爬虫中的使用Re库入门正则表达式定义使用语法经典正则表达式实例匹配IP地址的正则表达式Re库的基本使用主要函数re.search(pattern,string,flag)flag 常用标记re.match(pattern, string, flags=0)re.findall(pattern, string, flags=0)re.split(pattern, string, maxsplit=0, flags=0)re.finditer(pattern, string, flags=0)re.原创 2020-08-21 10:49:46 · 137 阅读 · 0 评论 -
第二周学习笔记之二
信息标记与提取方法信息标记的三种形式XMLJSONYAML三种方法的比较用途信息提取的一般方法方法一:完整解析信息的标记形式,再提取关键信息方法二:无视标记形式,直接搜索关键信息融合方法实例信息标记的三种形式XML(eXtensible Markup Language)格式:<img src=“china.jpg” size=“10”> … </img>空元素的缩写形式:<img src=“china.jpg” size=“10” />注释书写形式: <原创 2020-08-20 10:45:17 · 188 阅读 · 0 评论 -
第二周学习笔记之一
BeautifulSoup库的入门此次演示用HTML页面地址BeautifulSoup库的安装及测试BeautifulSoup库的基本元素Beautiful类的基本元素之后的代码默认已经导出了demo,故导出demo的代码只写一次Tag标签Tag的nameTag的attrs属性Tag的NavigableStringTag的Comment基于bs4库的HTML内容遍历方法注:BeautifulSoup类型是标签树的根节点三种遍历方式下行遍历上行遍历平行遍历基于bs4库的HTML格式输出让HTML更友好的显示b原创 2020-08-19 11:05:15 · 110 阅读 · 0 评论 -
中国大学mooc爬虫与信息处理第一周笔记
中国大学mooc《Python网络爬虫与信息提取_北京理工大学》第一周笔记Requests库入门七个主要方法1. requests.get(url, params=None, **kwargs)Requests库的常见异常爬取网页通用代码框架HTTP协议HTTP协议对资源的操作2.Requests库的head()方法3.Requests的 post()方法4.Requests 的put()方法5.requests.request(methoud,url,**kwargs)方法method : 请求方式**k原创 2020-08-18 11:06:38 · 890 阅读 · 0 评论