锲启-CSDN博客

原创 pandas日常处理笔记

统计某一行或者某一列的数据频数zero_col_count = dict(df[0].value_counts())#统计第0列元素的值的个数three_row_count = dict(df.loc[3].value_counts())#统计第3行元素的值的个数排序（逆序）data_ret.sort_values(by=‘id_count’, ascending=False)重建索引......

2019-10-30 19:18:21 610 1

原创 SQL 函数NULLIF、IFNULL、NVL、COALESCE的区别与使用

1·nullif( a, b ) 主要是完成判断 a 与 b 是否相同，相同返回 null ，否则返回 a,hive中a不为空，mysql中可为空Select NULLIF(1,1)Select NULLIF(null,2)Select NULLIF(null,null)Select NULLIF(2,null)Select NULLIF(2,3)2·只适用于mysql 如果expr1为NULL，返回值为 expr2，否则返回expr1。Select IFNULL(null,2)Sel

2020-08-22 13:53:55 1399

原创关于hive的一些常用操作

1·保存结果到HIVE表方法1、已经建好结果表，使用INSERT OVERWRITE TABLE以覆盖方式写入结果表,要确保表字段一致insert overwrite table query_result select * from behavior_20200712 limit 10;HIVE也提供了追加方式INSERT TABLE，可以在原有数据后面加上新的查询结果。hive> insert into table query_result > select * from q

2020-07-13 14:55:33 255

原创关于 Word2vec 的理解与感悟

什么是 Word Embedding ？在说明 Word2vec 之前，需要先解释一下 Word Embedding。它就是将“不可计算”“非结构化”的词转化为“可计算”“结构化”的向量。Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的词嵌入方法。Word2vec 的 2 种训练模式CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Mod

2020-07-11 10:22:52 735 1

原创服务器部署常用相关linix指令

1·利用gunicorn 启用你的web服务器进程（team为项目含启动文件的文件名)gunicorn -c gunicorn_config.py team:app2·查看gunicorn进程树pstree -ap|grep gunicorn3·查看本地所有进程ps -aux4·删除非空文件夹rm -rf xxx5·创建文件夹mkdir xxxx6·访问网址cu...

2020-04-16 17:09:43 285

原创如何在云服务器上部署项目

使用gunicorn部署flask项目1，创建虚拟环境2，gunicorn安装和创建flask项目3，配置gunicorn_config.py文件4，开启服务器#其中hw为项目文件名gunicorn -c gunicorn_config.py hw:app...

2020-04-11 16:35:33 512

原创二次解读逻辑回归

文章目录一句话概括逻辑回归二. 逻辑回归的假设三. 逻辑回归的损失函数四. 逻辑回归的求解方法五. 逻辑回归的目的六. 逻辑回归的如何分类七. 逻辑回归为什么用极大似然函数作为损失函数八. 逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响九. 为什么我们还是会在训练的过程当中将高度相关的特征去掉十. 逻辑回归的优缺点总结一句话概括逻辑回归逻辑回...

2020-04-07 17:39:42 355

原创 python 利用 pandas 进行组内排序、单组排序、标号

如果只是单纯想对某一列进行排序，而不进行打序号的话直接使用.sort_values就可以了。下文是关于如何把序号也打上的1·首先是不分组进行排序（按user_id排序）数据格式如下：data1['sort_num']=data1['user_id'].rank(ascending=1,method='first')data1['sort_num']=data1['user_id']...

2020-03-21 10:39:18 3110

原创逻辑回归中解决多重共线性问题

解释变量理论上的高度相关与观测值高度相关没有必然关系，有可能两个解释变量理论上高度相关，但观测值未必高度相关，反之亦然。所以多重共线性本质上是数据问题。造成多重共线性的原因有一下几种：1、解释变量都享有共同的时间趋势；2、一个解释变量是另一个的滞后，二者往往遵循一个趋势；3、由于数据收集的基础不够宽，某些解释变量可能会一起变动；4、某些解释变量间存在某种近似的线性关系；判别：1、发现...

2020-03-03 09:57:56 11387 2

原创画词云图

str_data = ' '.join(data['word'].values[:100])# bgimg=imread(r'17.jpg')#设置背景图片WordCloud(font_path="simsun.ttc", # 设置词云字体 background_color="black", # 背景颜色 ...

2020-02-26 14:07:48 159

原创 pyecharts的官方中文文档及常见图表整理

文章目录版本说明常见图表整理（主要基于v1 版本）1·条形图2·散点图3·层叠多图4·折线图5·箱线图6·热力图7·3D散点图Echarts 是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。而 Python 是一门富有表达力的语言，很适合用于数据处理。当数据分析遇上数据可视化时，pyecharts 诞生了。版本说明pyecharts 分为 v0.5....

2020-02-24 17:45:24 27578 5

原创 hive中的时间函数总结

Hive中日期函数总结:1.时间戳函数–日期转时间戳：从1970-01-01 00:00:00 UTC到指定时间的秒数select unix_timestamp(); --获得当前时区的UNIX时间戳select unix_timestamp(‘2017-09-15 14:23:00’);select unix_timestamp(‘2017-09-15 14:23:00’,‘yyyy-...

2020-01-07 09:35:09 307

原创自然语言处理之中文分词工具汇总

1，jieba库最基础得分词库（pip install jieba)import jiebajieba.load_userdict('xxx.txt') #加载自定义词def func_jieba(): posseg_ret = jieba.posseg.cut('这衣服都起球了，给我退了吧') list_jieba = [i for i in posseg_ret]...

2019-12-30 19:22:52 578

原创深度学习资料整理

1·GitHub：目标检测最全论文集锦（部分附代码）2·

2019-12-05 16:13:56 137

原创 windows中利用虚拟环境安装tensorflow1.x版本

1·创建虚拟环境virtualenv –p C:\Python27\python.exe demo2·安装tensorflow （利用清华镜像安装1.14版本，速度快）pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow==1.14.03.查看安装情况4·输入代码测试import tensorflow...

2019-12-05 14:44:46 1653 2

原创面试官如何判断面试者的机器学习水平？或者，你遇到过的水平最高的机器学习面试是什么？

面试官如何判断面试者的机器学习水平？或者，你遇到过的水平最高的机器学习面试是什么？

2019-12-04 17:10:36 114

原创异常值检测算法整理

1.梳理 | 异常检测2.携程实时智能异常检测平台的算法及工程实现3.异常检测的N种方法，阿里工程师都盘出来了4.八大无监督异常检测技术5.数据挖掘中常见的「异常检测」算法有哪些？6.anomaly-detection-resources7.吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）...

2019-11-27 11:14:35 964

原创 doccano NLP标注器在ubuntu上的安装部署（从源安装部署不使用docker）

获取doccano的源代码： git clone https://github.com/chakki-works/doccano.git移至doccano目录： cd doccano为doccano创建环境： virtualenv -p python3 venv激活环境： source venv/bin/activate安装pyodbc依赖：sudo apt-get install uni...

2019-11-26 18:21:31 1344

原创 Ubuntu各个版本的镜像下载地址

Ubuntu各个版本的镜像下载地址：http://mirrors.melbourne.co.uk/ubuntu-releases/选择对应的版本，然后选择对应的配置直接点击下载就可以了

2019-11-25 11:05:30 388

原创利用 tensorflow2.0 进行手写数字识别并进行预测识别保存模型

import tensorflow as tffrom PIL import Imageimport numpy as npimport matplotlib.pyplot as plt import pandas as pdmnist = tf.keras.datasets.mnist#载入 MNIST 数据集，并将整型转换为浮点型，除以 255 是为了归一化。(x_train,...

2019-11-12 17:53:23 1841 7

原创 tensorflow 2.0入门利用tf.keras实现线性回归模型

import tensorflow as tfimport randomimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] #设置字体以便识别中文plt.rcParams['font.size'] = 24 #设置字体#回归方程 z = ...

2019-11-10 11:16:21 1162

原创发邮件

# -*- coding: UTF-8 -*-#发邮件的库import smtplibimport base64#邮件文本from email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.header import Header#SMTP服务器SMTPServ...

2019-11-08 21:26:24 213

原创 Win10下安装TensorFlow2.0时提示ERROR: Cannot uninstall 'wrapt'

cmd安装 pip install tensorflow1.遇到了ERROR: Cannot uninstall ‘wrapt‘. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a par...

2019-11-05 15:34:08 195

原创资料查询地址总结

1·文本情感分析相关资料地址2·neo4j图数据库的相关资料地址一图数据库相关资料地址二3·pyecharts相关资料地址4·知识图谱医疗相关案例

2019-10-27 23:40:41 86

原创 Dask的安装及简单使用（可处理大型numpy 和pandas大型数据集）

1·Dask 介绍“大数据”集合，像并行数组，数据框和列表一样，它们将通用接口（如NumPy，Pandas或Python迭代器）扩展到大于内存或分布式环境。这些并行集合运行在动态任务调度器之上。2·Dask 安装在配置好 pip 的环境下安装，只需要命令pip install dask即可安装完成Dask的核心部分。而且非常小，才 1MB但是如果需要用到比较多的功能的话，还是建议装...

2019-10-17 11:00:44 3163

原创使用pandas获取PostgreSQL数据库中的数据

import psycopg2import pandas as pdfrom sqlalchemy import create_engine初始化数据库连接，使用pymysql模块postgresql的用户：root,password:你的密码,端口：5432,数据库：trustengine = create_engine(“postgresql+psycopg2://root:p...

2019-10-09 01:15:08 3837

原创 spark中rdd转成python中的DataFrame格式

首先创建一个spark环境下的dataframespark_df = spark.createDataFrame(filerdd.collect(),col)期中第一个参数一般为一个2维列表或者数组，但是必须是rdd的动作结果。第二个参数为列名，是一个列表或是rdd的动作的结果然后直接转成python形式的dataframe就可以了，后面就可以进行熟悉的python环境的dataframe...

2019-08-30 21:34:55 880

原创 Hadoop分布式数据处理

hadoop指令强制复制本地文件到hdfshadoop fs -copyFromLocal -f 本地路径服务器路径从hdfs上把文件复制到本地hadoop fs -copyTolocal 服务器路径删除文件hadoop fs -rm /usernew1删除文件夹hadoop fs -rm -R /usernew1将需要统计得文件传输到指定文件夹中cp hadoop的li...

2019-08-28 20:28:09 267

原创在Windows下的配置Spark环境

主要是需要安装四部分，1·JDK的安装2·Scala的安装3·Spark的安装4·Hadoop的安装具体步骤可参考博客Spark在Windows下的环境搭建

2019-08-14 15:47:48 150

原创关于使用matplotlib画图的基础操作

1·基础的折线图import matplotlib.pyplot as plt%matplotlib inlinefig = plt.figure(figsize=(4,3))plt.plot(data)plt.show()2·添加子图fig = plt.figure(figsize=(12,8))ax1 = fig.add_subplot(221)ax2 = fig.ad...

2019-08-12 18:50:50 991

原创使用pandas获取MySQL数据库中的数据

import pymysqlimport pandas as pdfrom sqlalchemy import create_engine初始化数据库连接，使用pymysql模块MySQL的用户：root, 密码:你的密码, 端口：3306,数据库：trustengine = create_engine(“mysql+pymysql://root:password@localhost:3...

2019-07-26 09:58:05 327

原创 MongoDB在window上的安装与使用教程

文章目录安装过程使用教程1·运行 MongoDB 服务器2·连接MongoDB3·创建一个超级权限用户4·创建读写权限指定的用户5·查看当前用户的所有信息6·登录用户7·操作mongodb数据库安装过程1·点击安装，然后下一步，2·选择custom ，把安装路径选择好使用教程1·运行 MongoDB 服务器打开一个cmd黑框，输入下述对应地址输入 D:\MongoDB\...

2019-07-18 10:32:22 192

原创 Django-restframework中一些知识点总结

1，序列化与返序列化序列化就是将数据库中的数据取出来返回给前端一般在view中完成反序列化就是将前端传过来的数据存入数据库一般在Serializers中完成在串行器中主要就是进行一些取值（前端过来的值），校验，添加或修改到数据库等操作而视图主要就是一些定义的类来连接url地址对应的处理方法，这些类主要进行定义串行器，处理请求，最后返回响应2，关于mode...

2019-07-10 22:40:24 229

原创将大csv文件导入mysql数据库

我这边是利用pandas来将csv文件导入到MySQL数据库的首先说一下实现逻辑，就是将csv读取到dataframe中，然后把按行读取数据，将每行的数据添加到列表中，在利用pymysql这个包将数据添加到数据库。代码如下：import pandas as pdimport pymysql#读取数据test = pd.read_csv(r'Antai_AE_round1_item_a...

2019-07-05 15:26:15 6703 7

原创跨域请求问题与跨站请求伪造

文章目录1·跨域请求问题解决方法2·跨站请求伪造解决方法一方法二1·跨域请求问题在使用django-rest-framework开发项目的时候我们总是避免不了跨域的问题，因为现在大多数的项目都是前后端分离，前后端项目部署在不同的web服务器上，因为我们是后端程序员，因此我要通过后端的程序实现跨域。解决方法DRF后端实现跨域我们使用一个第三方扩展——— django-cors-headers...

2019-07-04 22:22:24 2376

原创训练好的机器学习模型保存到本地

当我们训练好一个model后，下次如果还想用这个model，我们就需要把这个model保存下来，下次直接导入就好了，不然每次都跑一遍，训练时间短还好，要是一次跑好几天的那怕是要天荒地老了。。sklearn官网提供了两种保存model的方法：[官网地址](https://scikit-learn.org/stable/modules/model_persistence.html)1.使用p...

2019-07-03 18:14:18 2772

原创机器学习常见算法个人总结

文章目录1·knn算法1·knn算法为了判断未知实例的类别，以所有已知类别的实例作为作为参照数据集计算未知实例与所有已知实例的距离（这里计算的是欧式距离）选择最近K个已知实例根据少数服从多数的投票法则(majority-voting)，让未知实例归类为K个最邻近样本中最多数的类别k值这里所谓的交叉验证就是将样本划分一部分出来为预测样本，比如95%训练，5%预测，然后k分别取1，2，3...

2019-06-27 18:48:34 2248

原创 Docker 是什么，Docker 的三要素

文章目录一·Docker理念二·虚拟机技术与容器技术的区别1·虚拟机（virtual machine）就是带环境安装的一种解决方案。2· Linux 容器不是模拟一个完整的操作系统，而是对进程进行隔离。三·Docker的基本组成1·镜像2·容器3·仓库总结Docker是一个Client-Server结构的系统，Docker守护进程运行在主机上，然后通过Socket连接从客户端访问，守护进程从客户...

2019-06-25 15:32:42 702

原创 GNU nano使用保存退出的说明

文件编辑中常用快捷键：ctrl+X 离开nano软件，若有修改过的文件会提示是否保存；选择：yes又提示：file name to write ：***.launch ，选择：Ctrl+T在下一个界面用 “上下左右” 按键选择要保存的文件名，然后直接点击 “Enter” 按键即可保存.ctrl+O 保存文件； ctrl+W 查询字符串；ctrl +C 说明目前光标所在处的行数...

2019-06-21 18:37:38 54306

原创 PostgreSQL安装以及使用教程

一.PostgreSQL在windows上的安装1.先上postgresql官网下载数据库软件双击安装，选择安装路径设置数据库存储位置（貌似必须默认路径）设置数据库密码设置端口号去掉勾，直接点击完成就可以了...

2019-06-18 18:25:38 3640

空空如也

空空如也