爬虫
Alfred_SAMA
这个作者很懒,什么都没留下…
展开
-
python爬虫 爬取诗词
今天在网上看到了另外一种爬取数据的方法,今天就给大家展示出来。目前还没有接触爬虫框架,废话不多说,上代码。 import requests import os from bs4 import BeautifulSoup shici_url = 'http://www.shicimingju.com' url = 'http://www.shicimingju.com/book/' headers...原创 2019-08-08 19:00:14 · 468 阅读 · 0 评论 -
爬虫爬取小说的编码问题解决
今天来说下昨天有人反映部分网站的编码问题。 简单来说一下,本文是使用了chrome浏览器的xpath插件,比正则表达式简单。需要的联系本人。 本文爬取的小说编码格式为ISO8859-1,所以要进行转码。 utf-8编码可以用gbk和iso8859-1解码后编回去 gbk编码后只能用iso8859-1解码后编回去。 由于拿到的数据需要放在list里循环遍历,所以在遍历之后需要将对象强制转换为str,...原创 2019-08-09 15:43:30 · 1544 阅读 · 0 评论