python
jingsongs
这个作者很懒,什么都没留下…
展开
-
Python2.7.10以上pip更新及其他包安装
Python2.7还是一个比较稳定的版本,目前80%以上的公司都在使用python2.7的版本。他不会在安装的时候报编码错误之类的问题。 但是从官网下载的Python上面自带的pip都是比较滞后的版本,使用的时候需要更新,但是我昨天更新的时候遇到了之类的问题: ps(问题类似,但不是我的图) 我输入命名使其更新,但就是不成功原创 2017-01-06 09:52:50 · 10609 阅读 · 3 评论 -
Python使用Selenium爬取淘宝异步加载的数据
淘宝的页面很复杂,如果使用分析ajax或者js的方式,很麻烦用Python+Selenium方式抓取原创 2017-03-26 09:14:27 · 4398 阅读 · 0 评论 -
KFold,StratifiedKFold k折交叉切分
StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。例子:import numpy as np from sklearn.model_selection import KFold,StratifiedKFoldX=np.array([ [1,2,3,4], [11,12,13,14], [21,22,2原创 2017-09-08 16:41:05 · 71826 阅读 · 4 评论 -
nump中的为随机数产生器的seed():np.random.RandomState
笔记: nump.random.RandomState(0)为随机数产生器的种子,里面的数字相同,则产生的随机数相同。rng = numpy.random.RandomState(23355)arrayA = rng.uniform(0,1,(2,3))该段代码的目的是产生一个2行3列的assarray,其中的每个元素都是[0,1]区间的均匀分布的随机数这里看以看到,有一个23355这个数字,其转载 2017-09-08 09:44:07 · 6424 阅读 · 0 评论 -
python3抽样方式(两种)
笔记:python3有放回的抽样(两种方式) 1.使用 random.sampleimport randomidxTest = random.sample(range(nPoints),nSample) 2.使用 random.choice (一次选一个)nBagSamples=50for i in range(nBagSamples): idxBag.append(np.原创 2017-11-22 21:19:43 · 13276 阅读 · 0 评论 -
Python3 使用SVM--Lasso等,训练模型,画出auc曲线
注意:roc_curve() 这个函数来源于:sklearn.metrics.roc_curveroc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)注意它的参数:Parameters:y_true : array, shape = [n_samples] True原创 2017-12-08 16:55:10 · 4222 阅读 · 0 评论 -
Python sklearn包中的一些小函数笔记
sklearn原创 2017-12-14 22:14:02 · 1023 阅读 · 0 评论 -
Python3 一些小函数的笔记
一、 row.pop()函数去掉列表最后一列 labels.append(row.pop()) #pop已经发挥作用二、范数http://blog.csdn.net/shijing_0214/article/details/51757564(参考范数) np.linalg.norm((yTestwineQModel.predict(xTest)),2)/sqrt(le原创 2017-12-08 16:33:03 · 303 阅读 · 0 评论 -
python之sys模块详解
python之sys模块详解sys模块功能多,我们这里介绍一些比较实用的功能,相信你会喜欢的,和我一起走进python的模块吧!sys模块的常见函数列表sys.argv: 实现从程序外部向程序传递参数。sys.exit([arg]): 程序中间的退出,arg=0为正常退出。sys.getdefaultencoding(): 获取系统当前编码,一般默认为ascii。sys.setdefaultenc...转载 2018-03-22 15:08:05 · 623 阅读 · 0 评论 -
Sklearn-GridSearchCV
GridSearchCV,用来自动调参,只要把参数输进去,就能给出最优化的结果和参数,适合于小数据集。GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。GridSearchCV官方网址:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.htmsv...转载 2018-03-13 22:15:53 · 625 阅读 · 0 评论 -
机器学习中的数据预处理(sklearn preprocessing)
Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化,均值去除和按方差比例缩放(Standardization, or mean remo...转载 2018-03-16 15:31:05 · 849 阅读 · 0 评论 -
Python抓取ajax加载图片集
Python爬取ajax动态加载图集原创 2017-03-25 10:30:11 · 1688 阅读 · 0 评论 -
笔记:用Python生成MD5文件的校验值
from hashlib import md5m=md5()#获取一个假币算法对象m.update('string') #制定要加密的字符串md5(content).hexdigest() #获取加密后的16位进制字符串转载 2017-03-25 11:17:05 · 673 阅读 · 0 评论 -
在Python 中获得当前路径
Python中获取当前路径转载 2017-03-25 09:28:23 · 498 阅读 · 0 评论 -
Scrapy+Mongodb爬取数据
Scrapy爬虫数据存到mongodb中 其实主要是前两步1、在settings.py中进行配置ITEM_PIPELINES = { 'dmoz.pipelines.DmozPipeline': 300,}MONGODB_HOST = '127.0.0.1'MONGODB_PORT = 27017MONGODB_DBNAME = 'spider转载 2017-02-07 11:33:35 · 1621 阅读 · 0 评论 -
使用pycharm,scarpy爬取数据
http://www.bubuko.com/infodetail-1533174.html原创 2017-02-07 11:39:49 · 4059 阅读 · 0 评论 -
Python安装lxml出错:error: Microsoft Visual C++ 9.0 is required.
在Python爬取网页数据的时候需要BeautifulSoup这个Python库,安装BeautifulSoup这个库的时候,用pip 或者 easy_install 来安装都可以: pip install beautifulsoup4 easy_installbeautifulsoup4 安装成功后,若安装lxml这个解释器,我碰到了这个错误:原创 2017-01-18 14:54:47 · 1326 阅读 · 0 评论 -
Python scrapy插入mysql的一个错误TypeError
插入数据库本来是一个很简单的问题: sql="insert into p1(url) values (%s)" list=(item['url']) try: cur.execute(sql,list) except Exception,e: print('Ins原创 2017-02-11 10:08:35 · 860 阅读 · 0 评论 -
Scrapy爬取图片: raise ValueError('Missing scheme in request url: %s' % self._url)
Scrapy爬取图片 raise ValueError('Missing scheme in request url: %s' % self._url)原创 2017-02-13 13:42:27 · 6260 阅读 · 1 评论 -
Scrapy中的Rules理解
Scrapy CrawlSpider Rules转载 2017-02-25 15:06:20 · 27008 阅读 · 7 评论 -
笔记:scrapy爬取的数据存入MySQL,MongoDB
scrapy爬取的数据存入mysql,mongoDB原创 2017-02-11 11:06:20 · 4794 阅读 · 1 评论 -
Python模块Collection——OrderedDict
OrderedDict 有序字典OrderedDict转载 2017-02-27 16:26:58 · 1390 阅读 · 0 评论 -
Python中copy,deepcopy,=之深拷贝浅拷贝使用详解
python中对于对象的拷贝分为浅拷贝(copy)和深拷贝(deepcopy)两种方式。其中浅拷贝由“=”完成。而深拷贝由copy模块中deepcopy()函数担任。**浅拷贝和深拷贝的区别是:浅拷贝只是将原对象在内存中引用地址拷贝过来了。让新的对象指向这个地址。而深拷贝是将这个对象的所有内容遍历拷贝过来了,相当于跟原来没关系了,所以如果你这时候修改原来对象的值跟他没关系了,不会随之更改。1...转载 2019-05-18 15:21:38 · 656 阅读 · 0 评论