数据处理与数据结构
文章平均质量分 70
数据处理包和数据结构
Sober-C
机器学习量化金融、推荐算法、嵌入式算法
展开
-
算法设计-Python编程 (2) 数组,哈希表,动态规划(字符串翻译,风景评分)
主要做一些想法的总结1. 两数之和哈希表传送门:哈希表① 暴力解法用两层循环,循环获取数据,但会重复读取数据,所以我们需要从第一个和第二个数据开始,并且不要直接读取列表用下标作为循环的变量,依据下标循环读取列表在第二个循环使用 第一个循环的下标值+1 作为标准,就能很好的契合我们一组一组比对过去的需求记得在得到数据后,输出 return i,j 并且 break .若没找到,使用 else: continue 进行再循环class Solution: def ..原创 2020-09-15 17:48:54 · 320 阅读 · 0 评论 -
算法设计-Python编程 (1)总体整理
算法程序设计主要分为以下几种(并举例几个比较重要的难点)[力扣]1. 数据结构 1.1 数组 (单双向链表,跳舞链) 1.2 堆,队列,栈 (大小堆,可并堆) 1.3 树和图 (构建哈夫曼树,最近公共祖先,并查集) 1.4 集 1.5 哈希,映射 1.6 字符串 (字典树,后缀树)2. 算法 2.1 时间复杂度 2.2 搜索 (回溯,递归,剪枝技巧) 2.3 排序 (快速排序,归并排序,计数排序) 2.4 图 (最短路,最小生成树,...原创 2020-06-04 22:27:33 · 237 阅读 · 0 评论 -
数据处理(3.0)-python 动态新建变量与动态调用动态变量
为了实现全自动数据处理,但数据的维度又在不断的改变,为了不用每次操心修改代码,会使用到动态新建变量和动态调用动态变量,但网上的资料很含糊,或者不好用,被逼无奈写了本篇文章一、 动态创建动态变量1. locals()调用该函数names = locals()新建变量names['ReImf' + str(0)] = 2在这之后,就可以直接使用 ReImf0 或者变量,这里我们可以将 0 这个数变成一个变量值,来动态新建变量for i in range(len(imfs.原创 2020-08-03 15:33:21 · 754 阅读 · 0 评论 -
数据处理(1.2)-python 正则表达式-量词与贪婪
学习极客时间的学习笔记一、正则模式种类正则有不同的匹配模式,有三种模式,第一:贪婪匹配,第二:非贪婪匹配,第三:独占模式主要区别在于匹配是一次还是多次,长度尽量长还是尽量短看到这个次数次数的,我们回顾一下量词的定义:...原创 2020-06-29 20:53:53 · 411 阅读 · 0 评论 -
数据处理(1.1)-python 正则表达式通俗易懂讲解
写一些数据结构时,发现有些地方光靠代码逻辑写有点费劲,还是回来复习一下正则表达式,写文章加深一下理解学习参考:报名参加了 极客时间(正则入门),以此做一下学习笔记应用场景示例:正则表达式实现模式匹配一、正则功能校验数据有效性 手机号,邮箱等限定格式查找符合要求的文本内容对文本切割替换等操作二、元字符元字符指正则表达式中特殊用途的字符分类1. 特殊单字符在匹配数字的时候,可以写成 \d{11} 匹配 11 位数字。其他也相同...原创 2020-06-23 17:23:35 · 334 阅读 · 0 评论 -
数据处理(2)用户点击数据world2vec词向量处理处理-
本篇文章主要讲解对于用户点击广告的行为,如何根据用户的点击,将点击的广告解析为词向量,再根据广告的词向量转化为用户的词向量一、 导入包from gensim.models.word2vec import Word2Vecimport pandas as pdimport numpy as npimport gc包版本for module in gensim,pd,np: print(module.__name__,module.__version__)gensim.原创 2020-11-25 20:26:47 · 522 阅读 · 1 评论 -
数据处理(2.1)点击数据处理-lgb 训练实战
这篇文章主要将上一篇文章中的 lgb 训练函数列出来,上一篇主要详细讲解预处理和后处理。import lightgbm as lgbimport numpy as np1. 输入参数介绍输入参数主要有:训练集的特征列训练集的标签列验证集的特征列验证集的标签列cate_cols 指明类别特征任务的类型 job=“classification”def base_train(x_train, y_train, x_test, y_test, cate_cols=..原创 2020-06-08 17:57:29 · 4000 阅读 · 2 评论 -
数据处理(2)点击数据处理-设置输出格式、日志模块、读取、矩阵空值处理,数据集分割,数据合并,列处理等
特征工程操作丰富而繁琐,记一下编写时的代码,以便日后重复调用1. 设置输出格式、logging 日志模块实例:np.set_printoptions(formatter={'float': lambda x: "{0:0.3f}".format(x)})logging.getLogger().setLevel(logging.INFO)1.1 设置输出格式①x: "{0:0.3f}".format(x)format 部分# -*- coding: cp936 -*-..原创 2020-06-05 11:42:41 · 835 阅读 · 0 评论 -
数据处理(1)-python 正则表达式汇总
正则表达式 Regular expression 缩写 regex 或 regexp。正则函数 正则表达式在 python 中主要放在 re 库中。 re.match(pattern,string,flags=0): 尝试从字符串起始位匹配一个模式,如匹配不成功,返回 none。 pattern:正则表达式 string:匹配的字符串 flags:标志位,用于控制正则表达式的匹配方式,如是否区分大小写,多...原创 2020-05-22 13:56:52 · 3123 阅读 · 0 评论