20190118 阿耐---《艰难的制造》

  接着《大江东去》看的,几天以来看了10%,情节没那么抓人。纯当是消遣,希望后面会有改观了。                                                2019-01-08 于南京市栖霞区紫东国际创意园   30%,杨巡好像变得更商人、更无耻,柳钧,一个怀着...

2019-01-28 19:54:45

阅读数 89

评论数 0

pyecharts---简介

1 Intro   引自官网—“pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图”。   pyechar...

2019-01-01 12:06:22

阅读数 303

评论数 0

20181223 阿耐---《大江东去》

  看了电视剧《大江大河》,然后开始追书。有人把《大江东去》和《平凡的世界》相提并论,当年大二端午假期,三天看完了《平凡》,现在回想,年轻真好,有时间也有精力,肆意地只需要干自己喜欢的事情。看了《大江》的前15%,触动不是很大,也许讲的事情距离我还是太远。   就前面的情节而言,感觉电视剧拍的比...

2018-12-23 16:00:27

阅读数 376

评论数 0

Pypark---环境配置

下面这一通设置只是在我的电脑上走通了,参考性存疑。可以多看看文中的参考文章。   每一次安装环境都是伤筋动骨的,心塞塞。由于线上zeppline实在是不太友好,而且和集群相关联,怕有所影响。所以本地安装pyspark,以便学习所用。 1. 环境 Mac:macOS High Sierra 10....

2018-12-12 11:25:24

阅读数 71

评论数 0

Pandas---实现SQL中分组排序

hive中经常会用到row_number这个函数,比如取用户第n次购买,前n次购买记录等等。那么python中如何实现呢?直接看个例子即可 下面是a、b两个用户购买的记录,user为用户名,amount为消费金额,要去按照user分组,组内按照amount降序排序,并且新增一列标识序号 impor...

2018-12-05 09:26:36

阅读数 460

评论数 0

Mac安装xgboost

有了lightgbm的安装经验,xgboost是方便了不少。直接上步骤吧。 1. 环境 MAC: macOS High Sierra 10.13.4 Python: python3.6 2. 安装xgboost 下载xgboost git clone --recursi...

2018-11-23 19:51:26

阅读数 53

评论数 0

Mac安装lightgbm

安装lightgbm需要编译,mac的某些命令行指令又不是很熟,所以坑有点多。记录之~ 1. 环境 MAC: macOS High Sierra 10.13.4 Python: python3.6 2. 安装lightgbm 2.1 homebrew安装 具体不赘述,参看博客h...

2018-11-23 18:22:07

阅读数 37

评论数 0

HDFS命令

  pyspark把模型文件保存着爱hdfs上,管理这些模型文件需要执行一些命令。 %shell # 查看hdfs根本目录 hadoop fs -ls /models # 在models下新建目录 test #hadoop fs -mkdir /models/test # 删除文件...

2018-10-31 15:20:42

阅读数 46

评论数 0

python爬虫---mac环境下的配置appium

  装了一天的环境,只为了爬个app的数据,mac可以找的资料也是有点有限。 话不多说,只把相关环境变量的设置贴上来。其他的,网上有相关资料,可以查到。 1. java环境变量配置 查看java安装位置 /usr/libexec/java_home –V # add java path exp...

2018-10-16 20:21:47

阅读数 97

评论数 0

Pandas---汇总和频数统计

  单变量频数统计&多变量分组统计中的相关方法~ 1. count&unique&nunique import pandas as pd test_data = pd.DataFrame({ 'x1': [&...

2018-10-13 16:24:10

阅读数 3172

评论数 0

Pandas---取子集

  简单的可以分为两类,一类是单纯的行,列取子集(以索引筛选);另一类是筛选出符合要求的子集。先介绍简单的行列subset,后介绍条件筛选。 import pandas as pd x = pd.DataFrame({'x1':[1,2,3],'x2':[4,5,6],'x3':[7,8,9]})...

2018-10-13 15:03:50

阅读数 249

评论数 0

Python-保存对象&模型文件

1. 保存变量 1.1 pickle(泡菜)   pickle库可以指定多个变量保存在.pickle文件中,如果需要保存的变量不是很多,这种方法可以采用。 import pickle # obj0, obj1, obj2 are created here... obj0, obj1, obj2 ...

2018-09-29 21:01:13

阅读数 325

评论数 0

latex编写公式在markdown中的应用

1. 公式编号 I=−log(p)(1.1)(1.1)I=−log(p)I=-log(p) \tag{1.1} 2. 单个公式换行 单个公式很长的时候需要换行,但仅允许生成一个编号时,可以用split标签包围公式代码,在需要转行的地方使用\,每行需要使用1个&...

2018-09-07 10:50:06

阅读数 56

评论数 0

碎碎念201808

  换了三家公司,到了一家半,人生咋个这么艰辛。 入职的第二周,很充实。第一周,爬虫看的我七荤八素,不过至少反爬虫不是很犀利的网站数据都可以尝试爬一下吧。这么刚刚还把证监会上面银行的数据爬了下来。   这样的充实很难说是一种自我满足,毕竟做的事情和我之前的有差距,和我的兴趣有偏离。但是,对...

2018-08-24 20:26:40

阅读数 64

评论数 0

模型调参-网格搜索Sklearn应用

网格搜索的思想很直观,`sklearn`中有封装好的函数供调用。 1. 版本信息 Python和sklearn的版本信息如下: 1. Python版本 3.6.3 Anaconda 2. Sklearn版本 0.19.1 2. 参数 2.1 输入参数  ...

2018-07-16 18:47:10

阅读数 228

评论数 0

模型调参-网格搜索

  调参中的参数是指模型本身的超参数,而不是求解目标函数可以得到的参数解析解。常用的方法是网格搜索,所谓的网格搜索可以理解成穷举法。而现实中,我们往往不能穷举所有的参数的组合。因此需要对部分参数,在一定范围内调参。具体的调参逻辑依赖于参数在不同算法中的数学含义。本文简单介绍网格搜索的逻辑,实际的应...

2018-07-16 16:41:40

阅读数 189

评论数 0

二分类模型评价指标-Sklearn

  Sklearn的metrics模块下有多个计算模型评价指标的函数,本文只介绍二分类的指标函数。 1.准确率 1.1参数说明 sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight...

2018-07-16 12:43:52

阅读数 1087

评论数 0

smbinning分箱&输出到Excel

  用IV做单变量分析,需要关注每个bin的覆盖率和逾期率。把smbinning的结果和图输出到指定的Excel中。 统计分析 # ------------------------------***统计分析函数***------------------------------ ##...

2018-07-13 10:30:30

阅读数 469

评论数 0

R中编译字符串&执行代码

knitr::opts_chunk$set(echo = TRUE) 目的   目的:执行以字符串形式保存的代码。有的时候不知道变量的个数或者名称,所以不能在程序里面写死,需要根据实际情况,生成相应的字符串。用以解析,并且执行。 案例   案例很简单,有一个向量x,希望把他对应...

2018-07-12 17:08:31

阅读数 132

评论数 0

R中的变量名操作

knitr::opts_chunk$set(echo = TRUE)   目的明确:循环赋值时,希望取出的字符串直接作为变量名。 exists   查看当前工作空间是否存在该对象。 # 1.注意输入的是字符串 # 2,返回 FALSE exists("te...

2018-07-12 10:52:52

阅读数 747

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭