python
文章平均质量分 56
zhugeaming1314
这个作者很懒,什么都没留下…
展开
-
mac下的python3自动化安装pycharm
1.在mac安装homebrew https://brew.sh/index_zh-cn.html2.通过命令安装python3 brew install python3 等待就可以了2.mac开发python最好的方式通过pycharm非常方便 设置python版本 1> Pycharm - Preference - B...原创 2017-06-11 22:52:19 · 169 阅读 · 0 评论 -
查找python项目依赖并生成requirements.txt
1、如果使用virtualenv环境,直接使用 pip freeze > requirements.txt➜ ~ .virtualenvs/xxx/bin/pip freeze > requirements.txt2、如果没有使用virtualenv,使用工具pipreqs 这个工具的好处是可以通过对项目目录的扫描,自动发现使用了那些类库,自...原创 2018-02-03 11:42:53 · 211 阅读 · 0 评论 -
python后台运行一个命令美滋滋
python的输出有缓冲,导致python.log3并不能够马上看到输出。使用-u参数,使得python不启用缓冲。所以改正命令,就可以正常使用了nohup python -u test.py > out.log 2>&1 &查看输出tail -f out.log ...原创 2018-02-01 11:13:17 · 180 阅读 · 0 评论 -
阿里云python2.6.6 升级到python3.5
CentOS 下将 Python2 升级到Python31. 从Python官网到获取Python3的包, 切换到目录/usr/local/src#wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tar.xz2. 使用命令如下命令进行解压缩:xz -d Python-3.5.1.tar.xzt...原创 2018-01-30 21:00:58 · 233 阅读 · 0 评论 -
requests爬取猫眼电影top100
import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonfrom multiprocessing import Pooldef page_one_html(url): try: response = requests.get(url);...原创 2018-01-28 21:51:08 · 208 阅读 · 0 评论 -
requests爬虎牙频道和主播信息
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/1/23 15:42# @Author : Aries# @Site : # @File : yy.py# @Software: PyCharmimport requestsimport timefrom lxm...原创 2018-01-23 19:50:08 · 348 阅读 · 0 评论 -
tesseract ai百度 github的代码 发现还是收费的好用
下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。为了进行测试,我们在其他文件夹下,比如在桌...原创 2018-01-12 17:20:00 · 627 阅读 · 0 评论 -
python-selenium
from selenium import webdriverfrom scrapy.selector import Selectorfrom time import sleepchrome_opt = webdriver.ChromeOptions();prefs ={"profile.managed_default_content_settings.images":2...原创 2018-01-07 00:53:12 · 99 阅读 · 0 评论 -
scrapy架构及原理
scrapy data flow(流程图)Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法。下面的图表显示了S...原创 2018-01-02 23:59:20 · 233 阅读 · 0 评论 -
Scrapy之crawSpider和BaseSpider的区别
Scrapy中的BaseSpider爬虫类只能抓取start_urls中提供的链接,而利用Scrapy提供的crawlSpider类可以很方便的自动解析网页上符合要求的链接,从而达到爬虫自动抓取的功能。要利用crawSpider和BaseSpider的区别在于crawSpider提供了一组Rule对象列表,这些Rule对象规定了爬虫抓取链接的行为,Rule规定的链接才会被抓取,交给相应的ca...原创 2018-01-01 17:01:47 · 1197 阅读 · 0 评论 -
postman完成教程-自动生成代码获取代码信息
1.下载 Postman Interceptor2.安装后的postman里面下载Postman Chrome app3.postman chrome app 谷歌账号可以直接登录4.点击下面的图片2个黄色按钮5.在谷歌浏览器登录你要登录的网站 例如:www.baidu.com6.右边的history 就可以到你刚在谷歌浏览器浏览的url7.点击url ,就多一个t...原创 2017-12-27 00:42:25 · 1682 阅读 · 0 评论 -
python之scrapy(二)
extract_first("") = extract()[0] def parse(self, response): re_selector = response.xpath('//*[@class="entry-header"]/h1/text()').extract_first("") zan = response.xpath('//*[...原创 2017-12-10 16:32:50 · 105 阅读 · 0 评论 -
python之scrapy(一)
通过workon进入后创建的虚拟环境article_spider虚拟环境只是用来关联项目的环境的例如,pip加载的一些插件也会直接放入你的虚拟环境中在e盘创建一个scrapy 项目:pip install scrapy window10的环境下可能会报错,因为一个需要安装一个window10的本地环境,需要去http://www.lfd.uci.edu/~gohlke...原创 2017-12-10 13:35:31 · 99 阅读 · 0 评论 -
python虚拟环境搭建
在开发Python应用程序的时候,系统安装的Python3只有一个版本:3.4。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序,那这些应用程序都会共用一个Python,就是安装在系统的Python 3。如果应用A需要jinja 2.7,而应用B需要jinja 2.6怎么办?这种情况下,每个应用可能需要各自拥有一套“独立”的...原创 2017-12-05 17:13:44 · 75 阅读 · 0 评论 -
python基本数据类型
1、数字int(整型) 在32位机器上,整数的位数为32位,取值范围为-2**31~2**31-1,即-2147483648~2147483647 在64位系统上,整数的位数为64位,取值范围为-2**63~2**63-1,即-9223372036854775808~9223372036854775807class int(object): """ ...原创 2017-06-25 22:39:57 · 78 阅读 · 0 评论 -
python运算符
1、算数运算:2、比较运算:3、赋值运算:4、逻辑运算:5、成员运算:原创 2017-06-25 22:29:15 · 82 阅读 · 0 评论 -
用Python处理HTML转义字符的5种方式
写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有 JSON 格式,有 XML 文档,不过大部分还是 HTML 文档,HTML 经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。什么是转义字符在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他...原创 2018-02-04 15:55:44 · 235 阅读 · 0 评论