zanlinux-CSDN博客

原创内网辅助

https://blog.csdn.net/weixin_39216383/article/details/79197701

2021-01-26 10:18:51 127

原创查询存在A表但不存在B表

SELECT t1.nameFROM table1 t1LEFT JOIN table2 t2 ON t2.name = t1.nameWHERE t2.name IS NULL

2020-11-26 17:31:33 220

原创 Hive两表count除法

select 100 * different / total from (select count(*) as different from a, b where ........) t1, (select count(*) as total from a where .......) t2

2020-11-26 10:45:57 2813 1

原创 pandas读取excel,txt,csv,pkl文件等命令

pandas读取txt文件读取txt文件需要确定txt文件是否符合基本的格式，也就是是否存在\t,,,等特殊的分隔符一般txt文件长成这个样子txt文件举例下面的文件为空格间隔1 2019-03-22 00:06:24.4463094 中文测试 2 2019-03-22 00:06:32.4565680 需要编辑encoding 3 2019-03-22 00:06:32.6835965 ashshsh 4 2017-03-22 00:06:32.8041945 eggg读取

2020-11-20 17:01:22 492

原创多项式回归_搜索参数

# -*- coding: utf-8 -*-import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection.

2020-10-22 16:09:58 309

原创折线图

import matplotlib.pyplot as pltimport pandas as pdmovie_pd = pd.read_csv('IMDB_Movie.csv', header = 0)movie_count = movie_pd.groupby('Year').size().reset_index(name = 'Count')movie_count.plot(x = 'Year', y = 'Count', color = 'b', marker = 'o', legend.

2020-10-13 10:49:32 178

原创 lgb

#importing librariesimport numpy as npfrom collections import Counterimport pandas as pdimport lightgbm as lgbimport joblibfrom sklearn.datasets import load_breast_cancer,load_boston,load_winefrom sklearn.model_selection import train_test_splitfro.

2020-10-10 14:28:49 224

原创混淆矩阵画图

from sklearn.metrics import confusion_matriximport matplotlib.pyplot as pltimport numpy as npy_true = ['Cat', 'Dog', 'Rabbit', 'Cat', 'Cat', 'Rabbit']y_pred = ['Dog', 'Dog', 'Rabbit', 'Dog', 'Dog', 'Rabbit']classes=['Cat', 'Dog', 'Rabbit']confusio.

2020-09-23 18:06:16 423

原创 rfe特征选择

from sklearn.datasets import make_friedman1from sklearn.feature_selection import RFECVfrom sklearn.svm import SVRimport pandasfrom sklearn.preprocessing import scaledata = pandas.read_csv("iris.csv")print(data)print(data.shape)X = data.iloc[:,0:-.

2020-09-18 14:07:28 1467 1

原创 pandas设置不用科学计数法

import numpy as npnp.set_printoptions(suppress=True)pd.set_option(‘display.float_format’, lambda x: ‘%.2f’ % x) #为了直观的显示数字，不采用科学计数法train_df.describe()

2020-09-04 14:54:32 3906

原创 GridSearch调参xgb

import xgboost as xgbimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_scoretrain_data = pd.read_csv(‘train.csv’) # 读取数据y = train_data.pop(‘30’).values # 用pop方式将训练数据中的标签值y取出来，作为训练目标，这里的‘30’是标签.

2020-08-24 10:16:52 500

pfm_train_without_pca.csv

GridSearch调参xgb，数据集 XGBoost的参数一共分为三类：通用参数：宏观函数控制。 Booster参数：控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参，很这是大程度上都是在调整booster参数。学习目标参数：控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归，做二分类还是多分类，这都是目标参数所提供的。

2020-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人