自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 论坛 (1)

转载 机器学习中的特征工程

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。影响预测结果好坏的因素:

2017-02-19 22:54:54 5211

原创 py2neo操作neo4j

docker run -it -d -p 7474:7474 -p 7687:7687 neo4j:3.4http://localhost:7474/browser/neo4j/neo4j# -*- coding: utf-8 -*-# @Author: xiaodong# @Date : 2020/7/20import jsonfrom py2neo import NodeMatcherfrom py2neo import Graph, Node, Relationship

2020-07-20 18:35:52 83

原创 redis批量插入

文章目录Redis 批量插入数据逐条插入批量插入Redis 批量插入数据业务需要,每天要向redis插入千万级别的数据,格式为zset,但是插入数据时发现速度极慢,约为200~300条数据/每秒, 这可就不能接受了,这么算下去插入6千万数据得两年。。。官方给出的是写入速度可以达到10w每秒,这相差的可不是一点两点,虽然插入的是zset,怎么滴速度也不能跟官方差这么大吧,我用本机环境测试,发现速...

2020-04-27 15:40:04 141

原创 python 操作数据库-pandas篇

python 操作数据库-pandas篇# -*- coding: utf-8 -*-# @Author: xiaodong# @Date : 2020/4/5from collections import Counterfrom functools import reduceimport pymysqlimport pandas as pdfrom sqlalchemy i...

2020-04-05 17:58:20 128

原创 python` 操作数据库-`mysql`篇

文章目录1. `pymysql`操作数据库2.可视化工具推荐python操作数据库-mysql`篇1. pymysql操作数据库# -*- coding: utf-8 -*-# @Author: xiaodong# @Date : 2020/4/3import osimport pymysqlfrom python_executor_db.utils import (csv...

2020-04-05 17:42:40 154

原创 使用pyspark操作数据库

文章目录使用`pyspark`操作数据库1.`sqlite`篇使用pyspark操作数据库1.sqlite篇# -*- coding: utf-8 -*-# @Author: xiaodong# @Date : 2020/4/4from pyspark.sql import SparkSessionif __name__ == '__main__': spark = ...

2020-04-04 23:22:14 259

原创 python 操作数据库-sqlite篇

作为一名数据挖掘工程师,除了挖掘算法外,最常打交道的就是各类数据库了,为了对自己的工作做个记录,准备对接触到的数据库及相关工具做个通述,因为只是做个引导,所以不会深入去讲,供查阅使用~targetgo on…todosqlite√mysql√redis√mongodb√postgresql&greenplum√ora...

2020-04-04 11:28:25 60

原创 pyspark 概述

一、pyspark安装略import pysparkpyspark.__version__#>>> '2.4.3'from pyspark.sql import sparkSessionspark = sparkSession.builder.appName("your app name").getOrCreate()rdd = spark.spark...

2020-03-28 15:22:47 123

原创 Postgresql (GreenPlum) psycopg2的批量数据插入

psycopg2 数据批量插入问题记录由于最近用到greenplum,需要进行一些数据库批量插入操作,由于其操作方式与postgresql相同,因此采用的是psycopg2(2.8.4) 做底层驱动。由于数据量较大,所以采用了批量插入操作,也就是其自带的executemany,从名字来看会给我们其真的是批量插入的错觉(搜了下,大部分搜索结果也是说批量插入使用该操作,坑~(⊙﹏⊙)),但是,实际...

2020-01-20 10:24:11 266

原创 pyspark 给dataframe增加新的一列

给pyspark中的dataframe新增列熟悉pandas的pythoner 应该知道给dataframe增加一列很容易,直接以字典形式指定就好了,pyspark中就不同了,摸索了一下,可以使用如下方式增加from pyspark import SparkContextfrom pyspark import SparkConffrom pypsark.sql import SparkSe...

2019-12-12 23:08:30 2999

原创 pyspark 使用小记

使用pyspark时有时候会报错如下:ValueError: Cannot run multiple SparkContexts at once; existing SparkContex…这是因为spark不允许一次运行多个context,如果想重新实例化一个,需要关闭当前,随便搜一下这种报错解决方式:首先执行:sc.stop() ...但是如果你是在shell中完成的,而且不凑巧也不...

2019-12-11 19:52:30 33

原创 supervisor 配置教程

文章目录1、 pip3 install supervisor2、默认下载路径是到python3路径下的bin文件夹里3、建立软连接:4、建立配置文件5、在第4步创建的目录(your-config-dir)中创建配置文件6、添加配置文件到主配置文件7、启动|重启 | 关闭8、查看 supervisor 运行状态supervisor是一个Linux/Unix系统上的进程监控工具,supervisor...

2019-12-04 22:44:37 157

原创 为flask加入WebSockets通信

构建web服务时,有时候需要即时更新网页内容,如:通知、新加信息等,通过AJAX可以实现不刷新网页的情况下数据更新,但对于数据何时需要更新,一种方式是客户端不断轮询,另一种方式是服务端数据更新后通知客户端进行数据更新,显然后者更优雅,消耗更少资源,这么好的方式显然已经被实现了,DuangDuangDuang,WebSockets登场~WebSocket一种在单个 TCP 连接上进行全双工通讯的...

2019-06-29 16:42:18 1727

原创 领域驱动设计-软件核心复杂性应对之道

每个软件程序是为了执行用户的某项活动,或是满足用户的某种需求。这些用户应对软件的问题区域就是软件的领域。领域模式并非魔种特殊的图,而是这种图索要传达的思想。它绝不单单是领域专家头脑中的知识,而是对这类知识严格的组织且有选择的抽象。图可以表示和传达一种模型,同样,精心书写的代码或文字也能达到同样的目的。领域建模并不是要尽可能建立一个符合”现实”的模型。即使是对具体、真实世界的事物进行建模,所...

2019-06-25 15:56:31 292

原创 什么是高内聚、低耦合?

高内聚、低耦合内聚:每个模块尽可能独立完成自己的功能,不依赖于模块外部的代码。耦合:模块与模块之间接口的复杂程度。模块之间联系越复杂耦合度越高,牵一发而动全身。目的:使得模块的“可重用性”、“移植性“大大增强。通常程序结构中各模块的内聚程度越高,模块间的耦合程度就越低。模块粒度:【函数】高内聚:尽可能类的每个成员方法只完成一件事(最大限度的聚合)低耦合:减少类内部一个成员调用另...

2019-06-24 10:23:51 604

原创 设计模式-可复用面向对象软件的基础

1、什么是设计模式?每一个模式描述了一个在我们周围不断重复发生的事情,以及该问题的解决方案的核心。一般而言,一个模式有四个基本要素:模式名称 — 一个助记名,它用一两次来描述模式的问题、解决方案和效果。问题 — 描述了应该在何时使用模式。解释了设计问题和问题存在的前因后果。解决方案 — 描述了设计的组成成分,它们之间的相互关系及各自的职责和协作方式。效果...

2019-06-22 11:12:12 885

原创 Redis知识点

1、什么是Redis?Redis是一个基于内存的高性能Key-Value数据库。2、Redis的特点Redis本质上是一个Key-Value类型的数据库, 很像Memcached,整个数据库通通加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过10万次读写操作,是已知性能最快的Key-Value数据...

2019-06-20 10:13:27 39

原创 数据库常用操作汇总

2019-06-17 18:45:48 56

原创 面向对象原则

面向对象的SOLID原则缩写全称释义SThe Single Responsibility Principle单一职责原则OThe Open Closed Principle开放封闭原则LLiskov Substitution Principle里氏替换原则IThe Interface Segregation Principle接口分离原则...

2019-06-16 11:04:45 97

原创 推荐系统

2019-06-15 15:13:05 51

转载 Redis持久化的两种方式及对比

1、前言Redis是一种高级 key-value数据库。Redis跟Memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有str、list、set、hash、zset(sorted set)。支持在服务器端计算集合的并、交和补集,还支持各种排序功能。所以Redis也可以被看成是一个数据结构服务器。Redis的所有数据都是保存在内存中,然后不定期的通过异步方式保存到磁盘上(这...

2019-06-14 11:37:54 674

原创 scrapy 爬取数据时踩到的几个坑

1、将配置放在settings.py 中时,注意该脚本中配置会被使用pickle 进行持久化操作,因此,如使用redis,不要在此处进行如rdb = redis.Redis(db=0 此类操作,可以放到执行脚本中2、使用CrawlerProcess 进行替代scrapy crawl CrawlerName 时,对 CrawlerProcess 进行实例化时,不要放到函数中去,可以作为全局变量,...

2019-04-17 16:32:01 1137

原创 爬取代理IP记录

爬取代理IP因工作需要,爬取了几十万数据加数百万图片,因为需要用到代理IP,作为程序员,当然是先爬为敬了…可选的有快代理89IP西祠代理站大爷蚂蚁代理西祠、快代理、89ip都没啥难度,西祠不要太频繁爬取,会封IP,不过一天左右就会解封,快代理,89ip完全一个模式,基本爬取代码都不用改,这个比较入门,就不细讲解了,主要讲下蚂蚁代理的爬取。蚂蚁代理显示页面如下:可以看到,端口号...

2019-04-09 21:12:39 577 2

原创 Redis 可视化界面工具

TreeNMS 下载的时候注意,上面的是MySQL,MongoDB等等用的,下面那个才是For Redis 该可视化界面工具是国人用Java写的,虽然官网有点随意,不过软件还是挺好用的。...

2018-09-06 14:54:02 595

原创 什么是 noqa

在查看开源代码时,经常会看到 #noqa ,不解其意,百度之,没查到,谷歌第一条貌似还挺靠谱,大致意思就是 No Q/A,即无质量保证 。原来如此,记录之~...

2018-07-09 15:03:37 2984

转载 分类-回归-聚类-异常检测

分类:支持向量机(SVM)可用于找到尽可能宽的分类的边界。当两个分类不能被清楚地分开时,该算法会找到其所能找到的最佳边界。其真正的亮点在于处理特征密集的数据,比如文本或者基因组(特征数量> 100)。在这些情况下,除了仅需要适量的记忆外,支持向量机(SVM)能够比其它大多数算法更快且更少过拟合地进行分类。人工神经网络是涵盖二分类、多分类和回归问题的脑启发式学习算法。它们有无限的种类,...

2018-06-06 18:49:15 1753

原创 python 使用format的一个小问题

之前遇到一个场景,具体是需要使用python 操作mysql 数据库, 大概需要这种操作:In [96]: '{%s!r}' % 'test'Out[96]: '{test!r}'如果不使用% 进行格式化操作,而是使用format,在这里貌似会有点问题, 如果通过format 完成与上述代码相同的结果呢???#报错In [98]: '{{}!r}'.format('test...

2018-05-09 17:41:14 4676

原创 python美化输出信息

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址# -*- coding: utf-8 -*-# @Author: xiaodong# @Date: just hide# @Last Modified by: xiaodong# @Last Modified time: just hide# try:# from...

2018-04-12 18:38:25 1565

原创 比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南读后感

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南,看到了代码运行后的图片显示效果,因为好奇是如何做到patch块显示无重叠,就想研究下python代码,但是里面的代码是没缩进的,运行是指定没法运行的,本来是懒得改缩进,想搜下看有没格式正确的,很遗憾,没搜到,就自己锊下逻辑还原了...

2018-04-12 10:17:54 498

原创 使用matplotlib绘制3D立方体图

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址使用matplotlib绘制3D立方体图(含两种样式)# -*- coding: utf-8 -*-# @Author: xiaodong# @Date: just hide# @Last Modified by: xiaodong# @Last Modified time...

2018-04-04 14:54:08 8837 5

原创 使用Python监视指定目录下文件变更

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址监视指定目录下文件变更。# -*- coding: utf-8 -*-# @Author: xiaodong# @Date: just hide# @Last Modified by: xiaodong# @Last Modified time: just hideimp...

2018-04-03 17:50:19 2326

原创 Python调用graphviz绘制结构化图形网络

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址首先要下载:Graphviz - Graph Visualization Software安装完成后将安装目录的bin 路径加到系统路径中,有时候需要重启电脑。 然后: pip install graphvizimport graphviz as gz有向图dot = ...

2018-03-21 18:02:06 7564 2

原创 从dict中一次性取出指定一组key对应的value

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址有时候我们需要从dict (或者json)中取出指定key值对应的value ,当然可以逐个去取,那么,可不可以一次性取呢,回答当然是Yes, 如下:# 随意构造一个dictIn [102]: from string import ascii_lowercase, ascii_upperca...

2018-03-20 14:41:12 7143

原创 过拟合

有意思的图示: 1953年春天,戴森和自己的学生利用赝标介子理论计算了介子与质子的散射截面,得到了与费米的实验观测值十分相符的结果。然而该理论需要4个自由参数,费米很不屑,讲了一句日后很著名的话:“我记得我的朋友约翰·冯·诺依曼(John von Neumann)曾经说过,用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动。” 有趣的是,2010年6月,尤根·迈尔(J...

2018-03-18 22:57:57 353

原创 使用python去除HTML中标签的几种方式

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址待删除HTML示例标签如下:In [96]: testOut[96]: '<p>just for test</p><br/><font>just for test</font><b>test</b>'方法

2018-03-08 17:53:48 19724 1

原创 使用numpy截取连续的测试集及剩余作为训练集

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址本来想从numpy中找一个可以将array格式的数据提取出连续的测试集,其余作为训练集的函数,但是没找到,就自己写了几个,记录之~import numpy as np"""utils: 用于截取连续的测试集及剩余作为训练集"""def trunc(arr, start, e...

2018-02-27 17:51:43 1068

原创 string 中的maketrans和translate

maketrans 和 translate 是 Python 内置的 string 包中的两个类似于密码本的方法,一般来说,使用 translate 前需要先制作一个 maketrans 的 “密码本”(table)。# ---------------------此处有误-----------------------------------#仅支持python2,python3废弃了该方...

2018-02-08 11:47:45 11485

原创 机器学习练习数据来源

我在github 上建了个repo DataSetForMachineLearning,用来存放各种数据集,如果有需要,欢迎star。进行机器学习时,有时候需要一些数据做练手,数据从何而来呢,可以充分利用一些库,像sklearn,seaborn 都是自带一些数据的(如常见的iris花卉,titanic泰坦尼克号数据。。。),可以通过如下方式获取:sklearnIn [80]: f...

2018-02-01 18:27:41 1232

原创 使用numba对Python运算加速

有时候需要比较大的计算量,这个时候Python的效率就很让人捉急了,此时可以考虑使用numba 进行加速,效果提升明显~ (numba 安装貌似很是繁琐,建议安装Anaconda,里面自带安装好各种常用科学计算库)from numba import jit@jitdef t(count=1000): total = 0 for i in range(int(count)

2018-01-27 14:16:45 3021 1

原创 ValueError:embedden null byte 报错

今天遇到个比较奇怪的错误: ValueError: embedded null byte后来在How to fix Python error: ValueError: embedded null byte 看到了解决方案, 然后按下图改正后就可以了, 其实我想改成 zh-CN 或者 zh-cn 都试了下,也是报错,最后就只能是en 了。

2018-01-26 15:32:52 4143 4

空空如也

晓东邪的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除