泉水豆花儿-CSDN博客

原创 DATAFUNCON 2020大数据 AI的最新技术实践

主要是金融方面的应用https://appukvkryx45804.h5.xiaoeknow.com/content_page/eyJ0eXBlIjoxMiwicmVzb3VyY2VfdHlwZSI6NCwicmVzb3VyY2VfaWQiOiJsXzVmMTAwOGYwZTRiMGVlMGI4ODcyZGUwYyIsInByb2R1Y3RfaWQiOiIiLCJhcHBfaWQiOiJhcHB1a1ZrUll4NDU4MDQiLCJleHRyYV9kYXRhIjowfQ...

2020-08-08 11:44:05 630

原创 Spark集群运行xgboost4j-spark总结

最近搞了2个周的xgboost4j-spark，整个人都不好了！太难了！下面说说自己遇到的主要问题吧，希望对刚开始使用xgboost4j-spark的朋友有一定的帮助。主要问题：1.先去服务器上看看要使用的spark集群是啥版本的，可能spark2.1 和 spark2.3 都支持，那样最好2.了解清楚，线上部署或者离线预测的时候用的啥版本，像我这儿只能用spark2.1，不同集群还不一样3.spark版本和xgboost4j-spark版本对应关系（很重要，不然各种奇怪的错误）sp

2020-06-26 21:46:25 5178 3

原创 Spark 本地调试 IDEA 配置

先将hdfs上的数据选择一个part或是啥的，拷贝到本地，作为本地调试的输入主要修改的是下面两个红框里面的，一个是local模式，一个是对象需要的一些参数

2020-06-12 20:45:19 465

原创 SDNE（Structural Deep Network Embedding）理论及pytorch实现

SDNE 使用自动编码器（AutoEncoder）结合拉普拉斯特征映射(Laplacian Eigenmaps），针对网络结构非线性，构建多层非线性函数深度模型，同时针对全局和局部结构以及稀疏性问题，同时利用一阶相似性和二阶相似性学习网络的局部结构信息和全局结构信息。SDNE使用自动编码器（AutoEncoder）结构，同时优化1阶相似度和2阶相似度，学习到的向量表示能够保留局部和全局结构，并...

2020-03-07 21:09:50 2165 4

原创【深度学习】回归问题和分类问题损失函数求导

1.回归问题J=12N∑i=1N∥yi−y^∥2 J = \frac{1}{2N}\sum_{i=1}^{N} \|y^i - \hat{y} \|^2 J=2N1i=1∑N∥yi−y^∥2∂J∂yi=1N∑i=1N(yi−y^) \frac{ \partial J}{\partial y^i} = \frac{1}{N}\sum_{i=1}^{N}{(y^i - \hat{y})} ...

2020-01-06 00:04:12 589

原创【机器学习】LDA线性判别分析python实现

理论部分可以看看这个大佬的文章：https://www.cnblogs.com/pinard/p/6244265.html# -*- coding: utf-8 -*-# @Date : 2019/12/18# @File : LDA.pyimport numpy as npimport pandas as pdimport matplotlib.pyplot a...

2019-12-31 20:24:54 925 1

原创【python3数据结构】回溯算法

一般涉及找全集的都是用回溯算法涉及题目：39.组合总和，40. 组合总和 II，46. 全排列，47. 全排列 II，78. 子集，90. 子集 II'''1. 初始化res，用于存所有结果2. 定义back_track函数（递归）, i是当前数组的下标，tmp保存中间结果 1) 将tmp中间结果存入res 2) 遍历剩下的元素，并进行回溯。 3) 对...

2019-12-20 14:04:49 507

原创【python3数据结构】Boyer- Moore算法

https://baike.baidu.com/item/Boyer-%20Moore%E7%AE%97%E6%B3%95/16548374?fr=aladdin先记下，Boyer- Moore Voting算法

2019-12-05 19:50:07 429

原创【python3数据结构】Dijkstra’s算法（搜索最短路径问题）

Dijkstra’s 算法• 贪婪• 使用优先级队列（heap）• 列表中添加元素{元素，优先级}，并从另一端删除最高优先级项• 入队：添加一个{元素，优先级}• 队列：删除最高优先级的元素• 优先级队列通常使用“堆”来实现，并可以优先考虑低值（Min-Heap）或大值（Max-Heap）缺点：边为负数，负循环等无法准确搜索。# -*- coding: ut...

2019-12-03 18:37:30 320

原创【MySQL】手撕SQL50题

写SQL应该明确知道程序的执行顺序：SQL执行顺序：from-->[join on]-->where-->group by-->having-->select-->order by。其中，MySQL8.0已经支持窗口函数，这类函数在解决排序，TOP n等问题上很方便.http://www.mysqltutorial.org/mysql-windo...

2019-12-03 17:35:36 857

原创【机器学习】逻辑回归python实现

逻辑回归实现：# -*- coding: utf-8 -*-# @Date : 2019/09/18# @File : LR.py# @Author : Cyrilimport pandas as pdimport numpy as npdef sigmoid(x): return 1.0 / (1 + np.exp(-x))class LR(ob...

2019-12-02 19:41:21 284

原创【python3数据结构】图Graph及DFS（深度优先搜索）BFS（广度优先搜索）

Graph 和 Vertex 构建基于邻接列表：# -*- coding: utf-8 -*-# @Date : 2019/12/1# @File : AdjListGraph.pyimport sysclass Vertex(object): def __init__(self, node): self.id = node ...

2019-12-01 14:11:05 805

原创【机器学习】朴素贝叶斯python实现（连续特征和离散特征）

# -*- coding: utf-8 -*-# @Date : 2019/11/25# @File : NaiveBayes.py# @Author : zhaochenimport numpy as np'''离散型变量的朴素贝叶斯连续型变量的朴素贝叶斯如果既有离散又有连续变量朴素贝叶斯能实现吗？好像不能'''class NaiveBayesBase(o...

2019-11-29 23:04:53 1917 1

原创【python3数据结构】堆heap

# -*- coding: utf-8 -*-# @Date : 2019/11/29# @File : myHeap.pyclass PriorityQueueBase(object): class Item: __slots__ = ['_key', '_value'] def __init__(self, k, v): ...

2019-11-29 23:01:53 196

原创【python3数据结构】二分搜索树BST

# -*- coding: utf-8 -*-# @Date : 2019/11/24# @File : BinarySearchTree.py'''动态语言：可以在运行的过程中，修改代码静态语言：编译时已经确定好代码，运行过程中不能修改__slots__:限制实例的属性使用__slots__要注意，__slots__定义的属性仅对当前类实例起作用，对继承的子类是不起作...

2019-11-24 18:50:11 148

原创【python3数据结构】队列queue

linkedList.py 见链表实现# -*- coding: utf-8 -*-# @Date : 2019/11/12# @File : myQueue.pyfrom linkedList import LinkedList, Node# 固定容量DEFAULT_CAPACITY = 10class ArrayQueue(object): def _...

2019-11-18 23:29:59 191

原创【数据挖掘比赛】之 Null Importances（特征选择）

Null Importances在olivier大佬的kernel上看到的https://www.kaggle.com/ogrellier/feature-selection-with-null-importances，思想也很纯粹，最近也用了好多次，效果还不错。主要思想：通过利用跑树模型得到特征的importance来判断特征的稳定性和好坏。1）将构建好的特征和正确的标签扔进树模...

2019-11-13 18:09:02 5255

原创【python3数据结构】堆栈stack

# -*- coding: utf-8 -*-# @Date : 2019/11/12# @File : arrayStack.pyfrom linkedList import LinkedListclass arrayStack(object): def __init__(self): self._data = [] def...

2019-11-12 21:02:29 198

原创【python3数据结构】LinkList链表实现

# -*- coding: utf-8 -*-class Node(object): def __init__(self, val=None, next=None): self.val = val self.next = nextclass LinkedList(object): def __init__(self): s...

2019-11-12 21:00:27 252

原创【数据挖掘比赛】之 Adversarial validation

Adversarial validation数据挖掘比赛，一般都分为train（线下）和test（线上），test一般分为A榜和B榜。所以，做模型的时候首先要考虑的是train和test的分布是不是一致，保证分布的一致，是做模型的前提咯。不然，线下好的很，线上也是各种蹦，线上线下不一致。其次，要trust local cv，线上显示的A榜只是具有一点点的参考性，千万不要一味地被A榜的分数牵着...

2019-11-12 09:52:27 1061 1

原创【python3数据结构】两数之和，两数相加，无重复字符的最长子串

1）两数之和# 两数之和def two_sum(nums, target): d = {} # 边检查边写 n = len(nums) for i in range(n): a = target - nums[i] if nums[i] in d: return [d[nums[i]], i] ...

2019-08-08 17:20:19 140

原创【python3数据结构】质数与哥德巴赫猜想

def gold_batch(n): '''任一大于2的偶数，都可表示成两个质数之和。''' # 找质数 is_prime = [True] * (n + 1) i = 2 while (i * i <= n): if is_prime[i]: j = i while (j * i &l...

2019-08-06 11:33:51 391

原创【python3数据结构】动态数组实现

import ctypesclass DynamicArray: def __init__(self): 'Create an empty array.' self._n = 0 # size self._capacity = 10 self._A = self._make_array(self._capacity)...

2019-08-06 10:15:36 364

原创 Anaconda各个版本镜像下载

https://repo.continuum.io/archive/

2019-05-27 09:41:52 855 1

原创 Multionoulli分布（范畴分布）与softmax

一、Multionoulli分布Multionoulli分布（或范畴分布）指在具有k个不同状态的单个离散型随机变量上的分布，其中k是一个有限值。Multionoulli分布，由向量参数化，其中每一个分量表示第i个状态的概率。最后第k个状态的概率可以通过给出，。这里，其实应该为即除第k个状态的其他状态概率之和。Multionoulli分布经常用来表示对象分类的分布，很少假设状态1具有数值...

2019-04-16 10:37:40 2476

原创 SQL中的一些常见问题

一、on后面接where and 的运算顺序（10分）说明以下两个sql语句的区别：（1）select a.* from a left join b on a.id = b.id where b.id = 3;（2）select a.* from a left join b on a.id = b.id and b.id = 3;上面是个面试题，好像现在好多面试SQL的都会问这个...

2019-03-21 20:47:33 1375

原创 CentOS 7 下搭建Hadoop分布式集群（二）

ssh免密码登陆设置运行下面命令，一直Enter。记住ssh-keygen 这里没有空格！！！否则会报错。ssh-keygen -t rsa完成之后会在/home下生成一个隐藏文件夹.ssh，可以使用ls -la查看cd .ssh/接着，ls一下查看生成下面两个文件再，使用命令生成authrized_keys 和 know_hosts文件具体如下：ssh-c...

2019-02-25 22:11:25 131

原创 Spark、Hadoop和MapReduce三者存在的问题

（1）Spark能否替换Hadoop？首先，Spark只是一个计算平台，本身没有提供分布式文件系统，即没有提供分布式存储和管理。现在大多Spark计算都依赖于Hadoop的分布式文件系统HDFS，以及集群资源管理器YARN。Hadoop工作原理：将作业分解成更小的任务，将数据进行分区，每一个任务实例处理一个不同的分区，任务实例并行执行。它的核心是分布式文件系统HDFS和MapReduce框...

2019-02-25 21:52:53 1244

原创 CentOS 7 下搭建Hadoop分布式集群（一）

前提，具备一定的Linux命令的基础。首先，进行hostname设置，以及hostnam和ip地址的设置。注意CenOS 7的设置方式有所改变，所以说明一下。1）修改 /etc/hostnamesudo vi /etc/hostname把你想修改的主机名写入文件中，这里改成hadoop000；这里默认的为localhost.localdomain#localhost.loc...

2019-02-25 12:03:32 158

原创 python判断字符是否可转换为float类型

前一段时间做了个项目，期间遇到个之前一直忽略的问题。怎么有效的判断一个字符是否可以转化为float类型。很简单粗暴的想法如下：def isFloat(x): try: float(x) return True except: return False 我擦，下面这些字符都是返回True；作为一个新手，真难...

2019-02-20 11:17:18 9068

原创 Python查找字符串中最大连续出现数字字符串

写之前查了些博客发现都有bug，于是自己写了个；用于查找字符串中最大连续出现数字个数（1-9）；下面是代码，不懂的请沟通。import re#寻找最大连续数字串def findMaxConsNum(strings): list1 = [] list2 = [] pattern = '[1-9]' r = re.compile(pattern...

2019-02-18 14:58:12 3195

zc_stats的博客