自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 pandas数据过滤

Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。创建一个包含 Name, Age, Score 的 DataFrame,并筛选出 Age 大于 30 的行。使用布尔索引筛选出 Name 为 ‘David’ 或 ‘Eva’ 的行。方法筛选出 Score 大于 85 且 Age 小于 30 的行。方法筛选 Name 中包含字母 ‘e’ 的行。方法允许使用 SQL 风格的语法进行筛选。可以使用布尔索引来根据条件过滤行。方法用于筛选列中包含特定值的行。来筛选包含缺失值或非缺失值的行。

2024-09-08 23:46:25 405

原创 【无标题】

使用df.plot()方法可以轻松绘制多种类型的图表。常用的图表类型包括折线图、柱状图、饼图、散点图等。可以通过设置kind参数选择图表类型。结合seaborn可以绘制更复杂的图表,如热图和散点图矩阵。这些操作可以帮助您有效地可视化数据,以便进行分析和决策。以下是20个使用Pandas绘制图表的案例,包括虚拟数据和相应的代码示例。

2024-09-02 01:26:02 925

原创 pandas数据处理

单点突破,pandas数据处理操作。

2024-09-01 12:37:39 307

原创 电商电器评论文本数据分析与挖掘

一、大纲。

2024-07-03 18:55:24 187

原创 脱发数据分析

二、框架优化与问题解决。

2024-07-03 18:52:57 351

原创 流浪地球电影数据分析

【代码】流浪地球电影数据分析。

2024-07-03 18:49:03 218

原创 大型超市用户行为分析探索

电商用户数据分析

2024-07-01 15:00:47 452

原创 基于transformer的回归预测

【代码】基于transformer的回归预测。

2024-06-02 18:19:06 351

原创 tensorflow的Input()

tensorlfow的input()函数用法实例

2024-05-11 19:14:07 288

原创 多步多变量时间序列问题

这样的问题很常见,例如预测未来几天的温度、湿度、降雨概率等变量。要解决这类问题,需要建立能同时捕捉多个变量之间相互依赖关系的模型。

2023-09-06 16:03:41 327

原创 Q-learning算法理论及应用

Q-learning必知必会的公式及应用

2023-08-29 20:37:05 722

原创 (1)强化学习基本概念

智能体选择动作的策略或行为准则。既可以是确定性策略,也可以是概率分布策略。智能体生存和行动的外部世界,可以是真实物理世界,也可以是虚拟环境。在环境中进行观察,作出决策并执行动作的主体,其目标最大化累计奖励。例如:国际象棋中棋盘状态,包括每个棋子所在为位置。–环境具体例子:棋盘、迷宫、游戏场景等都是环境。例如:吃掉一个棋子获得1分,被吃得-1分。与环境交互后,对智能体给予的评价反馈。例如:下棋程序、机器人等都是智能体。智能体可以在环境执行的可操作行为。描述只智能体和环境的配置信息。

2023-08-28 18:26:07 177

原创 (2)强化学习分类

强化学习与推荐系统

2023-08-28 18:24:37 476

原创 batchsize对loss下降影响

降低批量大小(batch size)可能会导致训练的某些方面在第一个epoch中产生更快的下降,尤其是当模型在较大的批量中遇到了一些难以收敛的样本或模式时。

2023-08-11 10:00:51 460

原创 强化学习概念

强化学习的基本概念。

2023-05-29 11:58:58 60

原创 特征选择方法

皮尔逊相关系数是一种最简单的,能帮助理解特征和相应变量之间关系的方法,衡量变量之间的线性相关性,结果取值区间为[-1,1]。缺点,它只对线性关系敏感,两个变量之间具有相对应关系。如果协方差结果为正,说明变量之间同向变化,越大说明同向程度越高;原理:先使用算法模型进行训练,得到各个特征的权值系数(通过模型训练出来的),对权值系数从小到达排序,选择特征。注:Pearson是协方差的标准化计算方式,其消除了两个变量之间变化幅度的影响。原理:根据目标函数,每次选择若干特征,或排除若干特征。Pearson相关系数。

2023-05-12 14:46:37 156

原创 特征工程之特征衍生

单变量特征衍生解释:只需要带入单独一个变量进行组合常用方法数据重编码连续变量数据重编码.标准化:0-1标准化/z-score标准化.离散化:等距分箱 、等频分箱 、聚类分箱离散变量数据重编码.自然数编码、字典编码.独热编码高阶多项式该列数据,二次方到高次方等双变量特征衍生1.要点:两两特征进行组合衍生2.常用方法(1)四则运算特征衍生根据对业务字段理解,取部分两字段,这些字段对多数为连续型字段进行四则运算。(2)交叉组合交叉组合类似于逻辑判断条件的与或非的逻

2023-05-11 10:28:30 542

原创 数据处理之缺失值处理

(1.2)分层均值,众数、分位数填补(分层需要聚类,需要对聚类方法进行评估)(1.1)利用均值、众数、分位数填补(需要查看填补后,数据分布是否一致)拟合插补(KNN,随机森林),多重插补(miceforest)2.niceforest多重插补。分层均值,众数,最近邻插值法。均值,中位数,随机插值法。(2.2)最近邻插补。(2.3)序贯插补法。

2023-05-10 17:38:26 470

原创 深拷贝、浅拷贝、赋值在类中传递

类中数据赋值、拷贝

2023-02-06 19:16:50 109

原创 jupyter-lab远程访问服务器,并修改登录路径和登录密码

Ubuntu中jupyter配置

2023-01-30 20:25:46 1051

原创 window下conda创建虚拟环境,安装torch,jupyter加载虚拟环境

window下conda创建虚拟环境,安装torch、tensorflow,jupyter加载虚拟环境

2023-01-15 00:13:51 1594

原创 pdf格式转换

扫描版pdf转word

2022-11-15 15:12:03 113

原创 pdf拆分

在线免费拆分pdf神器

2022-11-15 10:44:50 162

原创 多线程爬虫

多线程爬虫

2022-11-14 22:11:46 239

原创 单线程爬虫

单线程爬取网页

2022-11-14 21:58:27 196

原创 基于知识图谱的医疗对话系统(1)

基于知识图谱的对话系统

2022-11-13 21:14:00 478

原创 【知识图谱】

服务器安装多个neo4j教程

2022-11-12 22:19:22 460

原创 【知识图谱】

2.根据头尾实体添加关系,因为书籍内容存在比较明显关系,主要关系:参考值;2.ORC工具生成文档数据,直接导入到Typora,然后导入数据设定不同类型标题,设定标题根据抽取数据结构而定,具体下图2所示。1.根据正则表达式处理后,可以获得数据格式 “头实体|尾实体”,下面主需要做一下简单拆分,就可以分别获得头尾实体。3.将Typora中数据导出html格式,此时数据将是网页数据,便于后续数据利用正则表达式进行处理。1.利用正则表达式对DataFrame格式每一列数据进行处理,抽取我们希望抽取的实体。

2022-11-09 21:26:25 951

原创 2021-01-04

python的all() 函数all(iterable)床底all()是一个迭代对象,迭代对象全是True,返回结果才为True。否侧为false。if all(abs(val_arr2-val_arr1) > d for val_arr2 in arr2 ):class Solution: def findTheDistanceValue(self, arr1: List[int], arr2: List[int], d: int) -> int: res

2021-01-04 13:49:38 72

转载 2020-12-22

pandas 索引1.表的索引 列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:In [3]: df = pd.read_csv('data/learn_pandas.csv', ...: usecols = ['School', 'Grade', 'Name', 'Gender', ...:

2020-12-22 20:40:30 387

转载 2020-12-20

复杂数据库的查询1.如何创建视图1.创建视图的基本语法如下:其中SELECT 语句需要书写在 AS 关键字之后。 SELECT 语句中列的排列顺序和视图中列的排列顺序相同, SELECT 语句中的第 1 列就是视图中的第 1 列, SELECT 语句中的第 2 列就是视图中的第 2 列,以此类推。而且视图的列名是在视图名称之后的列表中定义的。需要注意的是视图名在数据库中需要是唯一的,不能与其他视图和表重名。视图不仅可以基于真实表,我们也可以在视图的基础上继续创建视图。虽然在视图上继续创建视图

2020-12-20 20:51:45 114

转载 2020-12-19

Pandas基础一、文件读取pandas可以读取文件格式有很多种,但需要熟练使用三种df_csv = pd.read_csv( ‘data.csv’)df_table = pd.read_table(‘table.txt’)df_excel = pd.read_excel(‘excel.xlsx’)注意:读取时,由于文件数据索引或列名问题,常常需要设置 header = None 第一行不做列名。inde_col 设置想要列为索引。nrows 设置读取行数。In [10]: pd.read_t

2020-12-19 17:35:54 191 1

转载 2020-12-17

Task 02:基础查询与排序 **一、从数据库的表中选取数据** 1.select语句 select <列名> from <表名>; 从指定表中选出指定列的数据。 2.选取符合条件数据 select <列名> ,.... from <表名> where <条件表达式>;

2020-12-17 21:17:58 106

原创 2020-12-15

python基础知识 一 Pyhton 基础 1.使用单个for 循环生成列表 list = [ i for i in range(5) ] #使用循环表达式生成列表 2.使用多个for循环生成列表 list = [m +'_'+n for m in [ 'a ', 'b'] for n in [ 'c','d']] 3.匿名函数方法 [ la

2020-12-16 20:47:36 133 1

原创 xyh

初识数据库1.1初识数据库数据库,简单理解就是用来存数据。复杂点理解,就是对存储数据进行增、删、改、查的仓库,方便计算机进行调用的集合。这个数据集合称为数据库(Database,DB)。而用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)1.1.1 DBMS的类别依据DBMS保存格式可以分为5类1.Oracle Database :甲骨文的关系型数据库2.SQL Server :微软的关系型数据库3.DB2 : IBM的关系型数据库

2020-12-15 17:11:01 173

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除