![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
huianT
这个作者很懒,什么都没留下…
展开
-
python爬虫 请求 某网址 url---中文 编码 转换
首先找到 请求网址: 其后找到请求头:由于是POST请求,因此需要传入 要转换的值:返回的是整个新页面的html码,我们要从中取出需要的值。 下面附上完整代码:from urllib import request,parseimport rebase_url = "http://tool.chinaz.com/tools/urlencode.aspx"def i...原创 2018-12-01 18:16:35 · 2006 阅读 · 0 评论 -
python中的re模块的不匹配 \n 符
在re中,如果使用 reg = re.compile(r'''<i class="board-index.+?">(.+?)</i>''') a = reg.findall(html, re.S)之类时,"."时不会匹配 \n 之类的特殊符号的,要想匹配的特殊符号,要写成reg_img = re.findall(r'''<img data-src...原创 2018-12-07 19:38:13 · 3200 阅读 · 1 评论 -
使用csv写入文件时出现乱码,空行问题
出现乱码问题: 第一种: 在open文件时,编码格式转为 encoding='utf-8-sig'格式。 第二种: 爬取并保存完文件之后,用Notepad++打开,选择转为ANSI编码格式,保存。再打开该文件就是正常的了。出现空行问题: 在open文件时,加入 newline='' 即可...原创 2018-12-26 12:01:19 · 711 阅读 · 0 评论 -
上传csv文件为gbk格式,而爬虫中打开的文件为utf-8格式的解决方案
需要用到unicodecsv模块,而不是使用csv模块,同时这种方法是将爬去下来的数据转为unicode码写入文件,在转为gbk码,这就存在unicode中有一些不可见字符,转换的时候python3是报错的,将encoding='gbk'改成encoding='gb18030'就可以了。import unicodecsv as ucsvimport timenow_d...原创 2019-04-10 16:26:49 · 556 阅读 · 0 评论 -
requests scrapy 爬虫的url带中文解决
import stringfrom urllib.parse import quote# 将url中带的中文进行转码,而特殊符号不变src = quote(src, safe=string.printable)img = urlopen(src).read()例如:link = 'http://jingkids.com/wp-content/uploads/2018/10/平和青浦...原创 2019-05-24 10:47:32 · 1715 阅读 · 0 评论