虚拟环境
pip install virtualenv
virtualenv myenv # 创建虚拟环境(不包括本地site-package)
virtualenv --system-site-packages TestEnv # 创建虚拟环境(包括本地site-packsge)
source ~/myenv/bin/activate # 激活虚拟环境
deactivate # 关闭虚拟环境
包安装
”
pip install –index https://pypi.mirrors.ustc.edu.cn/simple/ pandas # 使用镜像安装pandas
”
保存图片
urllib.urlretrieve(imgUrl,filename)
汉字编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
解析response.body
item['body'] = response.body
ERROR:"UnicodeDecodeError: 'utf8' codec can't decode byte 0xe1 in position 5: unexpected end of data"
# 解决方案
unicode( response.body , errors='ignore')
i[0].decode('GBK')
url解码
import urllib
rawurl = "%E6%B2%B3%E6%BA%90"
url = urllib.unquote(rawurl)
print url
下载远程资源到本地
urllib.urlretrieve(url[, filename[, reporthook[, data]]])
urlparse
link = 'view-2#sss'
a,b = urlparse.urldefrag(link)
print a,b
print urlparse.urljoin('http://ssad.ssd.com#ds','voew#ss')
print urlparse.urljoin('http://ssad.ssd.com%ssds',a)
out:
view-2 sss
http://ssad.ssd.com/voew#ss
http://ssad.ssd.com%ssds/view-2
urldefrag 以#号为分隔,返回两个字符串.
urljoin自动将com#号后边内容的去掉,其他字符保留不变.