自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021年“泰迪杯”数据分析技能B题-肥料登记数据分析赛题

一、背景肥料是农业生产中一种重要的生产资料,其生产销售必须遵循《肥料登记管理办法》,依法在农业行政管理部门进行登记。各省、自治区、直辖市人民政府农业行政主管部门主要负责本行政区域内销售的肥料登记工作,相关数据可从政府网站上自由下载。二、目标对肥料登记数据进行预处理。根据养分的百分比对肥料产品进行细分。从省份、日期、生产商、肥料构成等维度对肥料登记数据进行对比分析。对非结构化数据进行结构化处理。任务 1 数据的预处理任务 1.1附件 1 的产品通用名称存在不规范的情况。请按照复混肥料(掺

2021-12-02 11:49:58 3059 5

原创 2018 年“泰迪杯“数据分析职业技能大赛 B 题

不知道大家有没有这种体会,某件事很久不去做,但真的去做的时候心里会有抗拒感。是不是很久没有做练习题的你才有的体会?让我们一起来看一下2018 年"泰迪杯"数据分析职业技能大赛 B 题 吧~任务 1 数据处理与分析任务 1.1 根据附件 1 中的数据,提取每台售货机对应的销售数据,保存在 CSV文件中,文件名分别为“task1-1A.csv”、“task1-1B.csv”、…、task1-21E.csv”。#任务1site = ['A','B','C','D','E']for i in sit

2021-07-01 15:06:09 4877 1

原创 皮尔逊(Pearson)相关系数与spearman相关系数(Python实现)

概念介绍相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。相关系数大小解释相关性绝对值无相关0 - 0.09弱相关0.1 - 0.3中相关0.3 - 0.5强相关0.5 - 1表中所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的。Pearson(皮尔逊)相关系数简介:皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。公式也可以化简

2020-08-03 14:58:54 11877 1

原创 灰色关联分析——Excel实现

灰色关联分析概述一般的抽象系统,如社会系统、经济系统、农业系统等都包含多种因素,多种因素共同决定了该系统的发展态势。而人们通常希望知道在众多的因素中,哪些因素是主要因素,哪些因素是次要因素,哪些因素对发展影响大,哪些因素对发展影响小等,这都是系统分析中人们普遍关心的问题。数理统计中的回归分析、方差分析、主成分分析等都是用来进行系统分析的方法,但是存在局限性:要求有大量数据要求样本服从某个典型的概率分布,要求各因素数据与系统特征数据之间呈线性关系且各因素之间彼此无关灰色关联分析就可以弥补这些

2020-08-01 18:43:46 11709 3

原创 数据分析报告怎么写

数据分析报告是整个业务分析过程的成果总结,是评定一条业务线的重要参考依据。在进行数据报告撰写时,要注意报告各部分的完整性,一个完整的数据报告应该包括以下部分:报告背景、报告目的、数据来源及情况、分页图表内容、结果总结、趋势预测及应对策略。制作报告之前,需要了解业务背景,注意其目的是什么?每一张表每一个图都是有用且真实的,每个数据指标的定义都要明晰明了,做到抓住重点、精准分析,通过报告可以了解哪些信息?可以发现哪些问题?如何解决问题?应该采取哪些措施?同时需要了解受众群体的特性,这样才能体现报告的价值。**

2023-09-26 16:18:26 207

原创 利用Python合并txt文件

利用Python合并txt文件

2023-01-30 20:03:30 1023 1

原创 假设磁盘的每个磁道分成9个块

当磁头转过A块花了3ms,再花2ms时间,将已转到缓冲区的数据转移到内存中,此时磁头已经来到B块的2/3处,接下来可以花1ms时间读取B,再花27ms,才能完整地读完B,最后花2ms处理,从B块到最后一块都是如此处理,所以最后需要花的时间是。由题目所给条件可知,磁盘转速为27ms/转,每个磁道存放9条记录,因此读出1条记录的时间是27/9 = 3ms。1)若顺序存放这些记录顺序读取,处理该文件要多少时间?2)若要顺序读取该文件,记录如何存放处理时间最短?基础知识:磁盘一旦开始转,就不会停。

2022-09-30 21:02:52 1568 1

原创 大数据可视化技术——平行坐标图、成对关系图、高级折线图

一、平行坐标图平行坐标图是对于具有多个属性问题的一种可视化方法,下图为平行坐标图的基本样式,数据集的一行数据在平行坐标图中用一条折线表示,纵向是属性值,横向是属性类别(用索引表示)。pandas.plotting.parallel_coordinates(frame, class_column, cols=None, ax=None, color=None, use_columns=False, xticks=None, colormap=None, axvlines=True, axvlines_kw

2022-05-25 11:04:25 2254

原创 Topsis模型

第一步:指标同向化import pandas as pdfrom pandas import DataFrameimport numpy as npimport mathdates=pd.read_csv(r"C:\Users\相关数据.csv",encoding='gbk')dates.head()PH为中间型数据,要将区间型指标转换为极大型指标PH_list=[]for i in range(0,len(dates)): PH_list.append(abs(dates.

2022-05-25 10:54:06 365

原创 卡方检验——离散型特征相关性分析

import pandas as pd #导入读入数据的包from sklearn.feature_selection import SelectKBest #卡方检验->判断离散型特征是否相关from sklearn.feature_selection import chi2#读取数据data = pd.read_csv('./2013年八城市融合数据.csv',encoding='gbk')x= data[['归属感有无(0:有 1:无)','户口性质(0:农业 1:非农业)',

2022-05-25 10:44:31 3316 1

原创 第十届泰迪杯数据挖掘B题电力系统负荷预测分析

一、问题背景电力系统负荷(电力需求量,即有功功率)预测是指充分考虑历史的系统负荷、经济状况、气象条件和社会事件等因素的影响,对未来一段时间的系统负荷做出预测。负荷预测是电力系统规划与调度的一项重要内容。短期(两周以内)预测是电网内部机组启停、调度和运营计划制定的基础;中期(未来数月)预测可为保障企业生产和社会生活用电,合理安排电网的运营与检修决策提供支持;长期(未来数年)预测可为电网改造、扩建等计划的制定提供参考,以提高电力系统的经济效益和社会效益。复杂多变的气象条件和社会事件等不确定因素都会对电力系统

2022-05-25 08:45:56 898

原创 【Python】实现Jupyter Notebook多行输出

from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all"不用的时候只输出最后一行的结果添加之后会显示所有输出

2022-02-09 23:26:27 1639

原创 【Python】进度条tqdm

Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。from tqdm import tqdmimport timefor i in tqdm(range(10)): time.sleep(0.2)针对迭代对象是range()的情况,tqdm还提供了简化版的trange()来代替tqdm(range()from tqdm import trangefor i in trange(10)

2022-01-30 20:34:54 883

原创 pandas按行按列遍历Dataframe的几种方式

iterrows(): 按行遍历,将DataFrame的每一行迭代为(index,Series)对,可以通过row[name]对元素进行访问。itertuples():按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率高。iteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。...

2022-01-28 23:53:06 2153

原创 【Keras】注意力机制(Attention)

Keras注意力机制注意力机制导入安装包加载并划分数据集数据处理构建模型main函数注意力机制从大量输入信息里面选择小部分的有用信息来重点处理,并忽略其他信息,这种能力就叫做注意力(Attention)。分为 聚焦式注意力和基于显著性的注意力:聚焦式注意力(Focus Attention):自上而下的、有意识的注意力。指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力。基于显著性的注意力(Saliency-Based Attention):自下而上的、无意识的。不需要主动干预,和任务无关

2022-01-15 21:43:15 9469 3

原创 【Keras】LSTM和Bi-LSTM神经网络

KerasLSTM和Bi-LSTM神经网络导入安装包加载并划分数据集数据处理创建LSTM模型并训练评估模型创建Bi-LSTM模型并训练打印Bi-LSTM模型评估Bi-LSTM模型导入安装包import tensorflow.kerasfrom tensorflow.keras.datasets import mnistfrom tensorflow.keras.layers import Dense,LSTM,Bidirectionalfrom tensorflow.keras.utils imp

2022-01-11 15:50:44 1696

转载 【Keras】简单神经网络搭建

Keras简单神经网络搭建

2022-01-10 19:24:43 541

原创 【Keras】简单逻辑回归模型

Keras简单逻辑回归模型导入安装包加载数据创建模型并训练评估模型导入安装包import pandas as pdfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Flattenimport keras.datasets.mnist as mnist加载数据使用手写数字数据(train_image,train_label),(test_image,test_l

2022-01-10 15:25:38 962

原创 【Keras】简单线性回归模型

Keras简单线性回归模型导入安装包加载数据创建模型并训练预测与结果可视化导入安装包import pandas as pdfrom keras.models import Sequentialfrom keras.layers import Denseimport sklearn.datasets as datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squ

2022-01-09 21:45:58 623

原创 蒙特卡罗法(Python实现)

Hello,大家好,我是茶哩,我们来学习一个有意思的算法,蒙特卡罗方法。蒙特卡罗法简介工作原理基本步骤求圆周率π的python实例简介蒙特卡罗法(统计模拟方法)是通过从概率模型的随机抽样进行近似数值计算的方法。蒙特卡罗是一个赌场的名字,是一类基于概率的模型的统称。工作原理不断随机抽样逐渐逼近结果一般来说,采样越多,越近似最优解,而永远不是最优解。基本步骤蒙特卡罗算法的基本步骤蒙特卡罗算法一般分为三个步骤,包括构造随机的概率的过程,从构造随机概率分布中抽样,求解估计量。1 构造随机

2022-01-01 17:35:57 4599 2

原创 【机器学习】深度解析Apriori算法

项集、支持度、置信度、最小支持度、最小置信度、频繁项集

2021-12-26 23:49:51 2581

原创 【机器学习】pipeline管道机制

pipeline管道机制,顾名思义就像水管一样,数据就像水一样,在管道之间流动,pipline的每一步就将一节节水管,数据经由这节水管流到下一节水管,流向下一节水管的就是经由上一节水管处理后的数据。例子:from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.datasets impor

2021-12-26 21:26:16 1266

原创 Spark期末复习--容易遗漏的知识点

Spark主要有以下3个特点:spark提供了高级API,开发者只需专注于应用计算本身即可,不用关注集群。spark计算速度快,支持交互式计算和复杂算法。spark是一个通用引擎,可用它来完成各种运算,包括SQL查询、文本处理、机器学习、实时流处理等。spark与hadoop的区别和联系(1)解决问题的方式不同。hadoop是一个分布式数据基础架构,它将巨大的数据集分派到一个集群中,由其中多个节点进行存储,用户不需要专门购买昂贵的服务器硬件,且hadoop还会对这些数据进行排序和跟踪。sp

2021-12-21 15:58:49 995

原创 Spark期末复习--机器学习算法库

spark机器学习常用库

2021-12-21 09:00:30 1998

原创 Python进阶练习题,新手快码起来

这里有8题进阶练习题,师弟师妹们快码起来吧~

2021-12-20 17:15:20 2852

原创 期末复习--机器学习总结(全)

数据挖掘的定义?数据挖掘是指从大量的、随机的、不完全的、有噪声的、模糊的应用数据中,提取出潜在有价值的信息,该过程自动完成,信息的表现形式可以为规则、概念、模型、模式等。知识发现的过程?确定知识发现的目标数据采集数据探索数据预处理数据挖掘模式评估数据挖掘任务主要集中在哪些方面(也叫数据挖掘的模式类型)?哪些是预测性任务,哪些是描述性任务?主要集中在回归、分类、预测、关联、聚类、异常检测6个方面,前3个是预测性,后3个是描述性pandas两种核心数据结构一维数据结构Series,二

2021-12-20 09:32:11 4542

原创 turtle作字画

全网都在画圣诞树,我来画个苹果字画。

2021-12-19 11:50:08 1183 1

原创 Spark期末复习--SparkSQL

Spark SQL是由DataFrame派生出来的,通过三步创建使用创建DataFrame将DataFrame注册成临时表使用临时表进行查询统计使用RDD创建DataFramefrom pyspark.sql import SparkSessionsqlContext = SparkSession.builder.getOrCreate()定义DataFrame的每一个字段名和数据类型from pyspark.sql import RowsaleRows = salesRDD.map

2021-12-17 22:25:54 1678

原创 Spark 期末复习--RDD总结(包含经典练习题)

什么是RDD?spark处理数据时,会将一整块数据分割成多个分块数据块,这些分块数据块组成的集合,称为RDD(Resilient Distributed Datasets)。RDD是一种可扩展的弹性分布式数据集,是Spark最基本的数据抽象,表示一个只读、且分区不变的数据集合,是一种分布式的内存抽象,不具备schema的数据结构,可以基于任何数据结构创建。弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许

2021-12-14 10:12:29 4221

原创 ValueError: Can only compute partial correlations for lags up to 50% of the sample size. The request

注意看报错,说lags要小于5,因此设置lags=4

2021-12-13 17:58:32 6452 2

原创 【Kaggle】brazilian-ecommerce-public-archive--Sales Prediction

根据brazilian-ecommerce-public-archive上的数据做Sales Prediction导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom scipy.stats import kstestfrom sklearn.model_selection import cross_val_scorefr

2021-12-06 22:44:10 1503

原创 LeeCode213 打家劫舍2

思路如果打劫了第一家,则删去最后一家否则在最后加上第一家这样就形成了一个闭环def rob(nums): size = len(nums) if size == 1: return nums[0] dp = [0]*size dp[0] = nums[0] if nums[0]>nums[1]: #如果打劫了第一家,则删去最后一家 dp[1] = nums[0] nums.remove(nums[-1]

2021-08-29 13:40:06 136

原创 LeeCode263 264 丑数

思路丑数为只包含质因数 2、3 或 5 的正整数判断是否为丑数def isUgly(n): if n ==1 : return True p2,p3,p5 = 2,3,5 if n%2 == 0 : return True elif n%3 == 0 : return True elif n%5 == 0 : return True else:return FalseisUgly(5)

2021-08-27 22:41:15 103

原创 面试:按摩师

思路该题与leecode198.打家劫舍类似,不能接受相邻的预约,要使得总预约时间最长。先考虑两个、三个预约时间比较选了与不选该预约时间的总预约时长哪个最大def booking(time): size = len(time) dp = [0]*size #记录总预约时长 dp[0] = time[0] dp[1] = max(time[0],time[1]) for i in range(2,size): dp[i] = max(d

2021-08-27 20:54:40 132

原创 面试:三步问题

def climbStairs(n): if n<3: return n elif n == 3 : return 4 return climbStairs(n - 1) + climbStairs(n - 2) + climbStairs(n - 3)climbStairs(6)#24

2021-08-27 17:20:15 100

原创 LeeCode746 使用最小花费爬楼梯

思路目标: 最低体力消耗dp: 记录当前消耗体力确定起步: 前两步阶梯,选择消耗体力小的判断一步/两步: index为j-1与j哪个小消耗的体力如果走index为j-1则j+1,否则j+2最后 j不能大于sizedef MinCostClimbingStairs(cost): size = len(cost) dp = [0]*size j = 1 if size<3: return 0 for i in range(1,siz

2021-08-26 23:37:46 167

原创 LeeCode121 买卖股票的最佳时机

'''目标:收益最大dp:记录着收益确定买入:买入时机应是相邻左右的股票价格都比它大,是价格曲线的极小值卖出时机:dp最大值'''def besttime(prices): size = len(prices) dp = [0]*size tem = [] #存储价格极小值 for i in range(2,size): if prices[i-1]<prices[i-2] and prices[i-1]<prices[i]:

2021-08-26 21:10:20 93

原创 LeeCode128 最长连续序列

给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。def longest_continuous_sequence(nums): nums.sort() size = len(nums) dp = [0]*size dp[0] = 1 for i in range(1,size): if nums[i]-nums[i-1]==1: dp[i] = dp[i-1]+1 .

2021-08-22 21:49:28 110

原创 LeeCode322 零钱兑换

思路:目标是凑成总金额所需的 最少的硬币个数如果每次都取面额最大的来凑需要考虑的问题:amount能否被最大面额coin整除,或者减去多少能被整除amount余数接着被除直到余数为0def exchange_change(coins,amount): s = amount count = 0 coins.sort(reverse=True) for i in coins: n = s//i rem = s % i

2021-08-21 12:41:07 99

翻译 LeeCode53 最大子序和

‘’’1、考虑1个元素 最大和就是本身2、考虑2个元素 最大和=max(nums[0],nums[1])3、考虑3个元素考虑正负,如果元素小于0,则转换状态‘’’

2021-08-20 22:52:27 94

基于子空间对齐的单细胞转录...测序数据的细胞类型预测研究-张柳

本 文 将 一 种 用 于 图 片 识 别 的 迁 移 学 习 算 法 — 子 空 间 对 齐 领 域 自 适 应 ( S ubsp ac e A l i gn m e n t Dom a i n A d apt i on , SA- DA ) 算法用 于 s cRNA 数据 , 通过对齐 源域和 目 标域 的子空 间 实现数据 降 维 、 批次 效应校正和 细胞类型预测 。 首先 , 对源 域和 目 标域进行数据预 处理并通过主 成分分析构 建子空 间 坐标系 ; 其次 , 通过子 空 间 对齐得 到 目 标对齐源坐标系 , 并将数据投影到对齐后 的子空 间 中 , 得到数据 的低 维表示 ; 最后 , 在源域数据上建立 S VM 分类器 , 将源域 中 的 类别信 息迁移 到 目 标 域 中 以 预测 目 标域数据 的 细 胞类型 , 同 时 进行批次效应校正

2023-04-15

最优传输问题的高效算法及应用-郎大宇

最优传输问题的高效算法及应用-郎大宇

2023-04-15

2017-2018年微信小程序市场发展研究报告

2017-2018年微信小程序市场发展研究报告内容包括小程序的发展现状 、小程序用户行为研究、智慧零售类小程序市场表现、餐饮类小程序市场表现、电商类小程序市场表现、 2018年小程序行业发展趋势分析等,希望对大家有帮助。

2020-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除