Python爬虫实例(豆瓣电影)
xiaoxiaoyu1025
这个作者很懒,什么都没留下…
展开
-
数据爬取过程相关学习1(以豆瓣电影为例)
基础步骤: (1)导入基本库:requests、Beautifulsoup(文本解析库)、json、lxml库 Beautifulsoup(文本解析库):根据一定的规则,提取想要的数据。 lxml库: (2)url(网页的网址)在审查元素的Network中找到,或者直接在浏览器上访的地址栏里找到即可。 (3)请求页面的时候应发送什么数据:Headers(伪造一个浏览器身份),为了防止一些网页有反爬虫机制。 (4)请求采用的是什么样的方法:Get/Post(在审查元素的Network中可以看到) (5)发送.原创 2020-12-16 21:34:37 · 509 阅读 · 0 评论 -
爬取豆瓣电影数据遇到的问题。
做完下面这一步之后运行出错: def parse_page(text): soup = BeautifulSoup(text ,'lxml') # lxml为解析器 liList = soup.find_all("li", attrs={"data-category":"nowplaying"}) # 根据li标签的data-category属性的值来获取相应li标签 for li in liList: print(li) 原因:get_page函数中,仍有.原创 2020-12-18 20:10:51 · 878 阅读 · 1 评论