勇敢驴驴-CSDN博客

原创人工智能与机器学习

人工智能与机器学习2023-02-27

2023-02-27 10:30:22 468 1

1、根据题目搜索论文2、多查查看外文，（翻译+自己描述）重复率低，有道翻译即可1、知网下载论文（中文）、外文（谷歌学术）2、Github、CSDN查代码3、知乎4、百度文库——论文模板5、学兔兔、云盘网站——图书电子版6、b站视频教程7、淘宝往年论获奖论文1、国家数据统计局2、各省数据中心3、学校图书馆电子数据库4、国际资料：国际版必应查、大木虫Google镜像、Sci-hub5、微信搜索用搜集资料的能力覆盖自己知识的不足不要因为难就放弃！1、MATLAB（新手使用！！！）加减乘除、逻辑运算、循环结构、函数

2022-07-04 16:33:42 437

原创 python期末

说真的对于这次期末我并没有报有很好的期望因为我知道自己的水平很烂但是当我看到那么多高分的时候心里还是会很难受自己可能的确不适合学习编程既然这次考的那么差那就问问老师哪里扣分多以后编写代码的时候注意但是我万万没想到主要扣分点竟然有两个1是第一题没有统计金额，虽然不知道扣几分，这个的确是我的问题，而且是非常值得扣分的地方，狠狠的惩罚我不细心2报错！！！！老师强调了那么多遍，不能报错，不能报错，难道我耳朵被堵住了？全程只有一个警告，就是因为他？我很不服！你说你运

2022-06-26 17:48:00 634 1

原创 S的返回值

1、会议2、资料（课程资料、答疑小册子、读入文件3、答疑时间周一 8:00pm-9:30pm：李春涛（数据清洗、数据合并、循环）周二 8:00pm-9:30pm：薛原 (网络爬虫、正则表达式、python)周三 8:00pm-9:30pm：司海涛 (正则表达式、网络爬虫、python)周四 8:00pm-9:30pm：闫续文 (结果输出系列、事件研究、数据清洗)周五 8:00pm-9:30pm：张计宝 (文本分析、网络爬虫、正则表达式、python）出问题，带着报错提示图提问。4、结课后有网络爬虫应用大赛

2022-06-25 14:59:29 447

原创第八章全部代码

第八章复习思考题2

2022-06-13 13:34:46 496 2

原创 Python金融数据挖掘复习思考题第2章

第1题1、题目生成一个5*5的矩阵，其元素是区间[1,10]中的随机整数。2、代码import numpy as npa = np.random.randint(1,10,25).reshape(5,5)print(a)3、结果[[5 3 7 6 4] [3 7 4 3 7] [1 7 4 4 3] [1 8 5 6 8] [8 4 4 2 9]]第2题1、题目生成一个4*4的矩阵，其元素符合正态分布。2、代码import numpy as

2022-05-31 19:26:42 1986

原创转义字符详述

1、常见转义字符\t 的意思是横向跳到下一制表符位置 \r 的意思是回车 \n 的意思是回车换行2、所有转义字符转义字符意义 ASCII码值（十进制） \a 响铃(BEL) 007 \b 退格(BS) ，将当前位置移到前一列 008 \f 换页(FF)，将当前位置移到下

2022-05-30 22:21:43 655

原创 Python金融数据挖掘第11章复习思考题3 某年各省级行政区环境污染状况的统计数据(已经过标准化处理)，现采用K均值聚类方法，编写Python程序将省级行政区分成4类。

3.某年各省级行政区环境污染状况的统计数据(已经过标准化处理)，包括生活污水排放量(x)，生活二氧化硫排放量(x2)，生活烟尘排放量(x3)，工业固体废物排放量(x4)，工业废气排放总量(x5)，工业废水排放量(x6)，GDP水平(gdp)以及地理位置(geo)等。现采用K均值聚类方法，编写Python程序将省级行政区分成4类。详细数据见封底教学辅助文件“环境污染数据.txt”。...

2022-05-29 11:44:34 1351 2

原创 Python金融数据挖掘第11章复习思考题2 （聚类）选取中华人民共和国第六次人口普查的各地区人口数以及男女比例进行K-Means聚类分析。

选取中华人民共和国第六次人口普查的各地区人口数以及男女比例进行K-Means聚类分析.

2022-05-27 08:35:41 1521 4

原创 Python金融数据挖掘第11章复习思考题1 (聚类）给出一个数据集data_multivar.txt，里面有200个点坐标，在平面坐标系下可以画出它的散点图，用K均值聚类算法来训练模型，分4类。

1给出一个数据集data_multivar.txt，里面有200个点坐标，在平面坐标系下可以画出它的散点图，如图11-12所示。data_multivar.txt图11-12 数据集 data_multivar.txt 散点图用K均值聚类算法来训练模型，将该数据集的200个点分成4类。注意：运行之前，首先将给出的数据集data_multivar.txt 拷贝到相应的文件夹中。读者可以在程序中设置k值为2、3、5等，运行代码进行比较。...

2022-05-27 08:31:57 1525 2

原创性能评估 5 fbeta_score Fβ值

1、定义Fβ值F2分数中，召回率的权重高于精确率，而F0.5分数中，精确率的权重高于召回率。2、代码y_true=[1,1,1,1,1,0,0,0,0,0]y_pred=[0,0,1,1,0,0,0,0,0,0]print('Accuracy Score:',accuracy_score(y_true,y_pred,normalize=True))print('Precision Score:',precision_score(y_true,y_pred))prin..

2022-05-26 09:44:37 947 1

原创性能评估 4 f1_score F1值

1、定义2/f1 = 1/查准率+1/查全率2、代码from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score,fbeta_scorey_true=[1,1,1,1,1,0,0,0,0,0]y_pred=[0,0,1,1,0,0,0,0,0,0]print('Accuracy Score:',accuracy_score(y_true,y_pred,normalize=True))pr

2022-05-26 09:34:07 165

原创性能度量 3 Recall Score 查全率、召回率

1、定义查全率=TP/（TP+FN)2、代码from sklearn.metrics import accuracy_score,precision_score,recall_scorey_true=[1,1,1,1,1,0,0,0,0,0]y_pred=[0,0,1,1,0,0,0,0,0,0]print('准确率Accuracy Score:',accuracy_score(y_true,y_pred,normalize=True))print('查准率Precision Sc

2022-05-26 09:28:15 752

原创性能度量 2 precision_score 查准率

1、定义计算分类结果的查准率sklearn.metrics.precision_score（真实标记集合，预测）2、代码from sklearn.metrics import accuracy_score,precision_scorey_true=[1,1,1,1,1,0,0,0,0,0]y_pred=[0,0,1,1,0,0,0,0,0,0]print('准确率Accuracy Score:',accuracy_score(y_true,y_pred,normalize.

2022-05-26 09:20:41 640

原创性能度量 1 accuracy_score 准确率

1、定义计算分类结果的查准率sklearn.metrics.accuracy_score（真实标记集合，分类器对样本集预测的预测值，normalize = [True：比例，False：数量]，sample_weight = 样本权重，默认为1）2、代码from sklearn.metrics import accuracy_scorey_true=[1,1,1,1,1,0,0,0,0,0]y_pred=[0,0,1,1,0,0,1,1,0,0]#准确率print('准确率',

2022-05-26 09:11:47 956

转载常见分类算法应用范围/数据要求

单一的分类算法：决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类，HMM组合分类算法：Bagging和Boostingk-近邻(kNN，k-Nearest Neighbors)算法1找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。模型输入要求：连续值，类别型变量需进行one－hot编码，由于是计算距离，有必要对数据进行归一化模型重要参数：K值及距离的定义优点：易于理解和实现缺点：计算量大，复杂度高，不适合实时场景

2022-05-25 23:22:17 1548

原创分类模型对比计较

一、决策树——decision tree1、定义分类、预测方法，有监督的学习算法，以树状图为基础，输出结果为简单实用的规则。是一系列if-then语句。2、解决问题分类、回归。3、原理是贪心算法，即在特性空间上执行递归的二元分割，决策树由节点和有向边组成给。内部节点：一个特征或者属性。叶子节点：一个分类。4、优点可读性强，便于理解和解释。（树的结构具有可视化）；训练所需数据少，使用开销呈指数分布，分类速度快；易于通过静态测试来对模型进行评测；可处理多路输出问

2022-05-25 23:21:37 637 1

原创人工智能 .cross_val_score 上边几篇全部少了“import numpy as np”

1、基础便利函数在指定数据集上运行指定学习器时，用k折交叉获取的最佳性能sklearn.model_selection.cross_val_score(<指定学习器>,X:数据集中样本集,y：数据集中标记集,cv=k折交叉生成器/None)（太多了，以后再补上）2、代码from sklearn.model_selection import cross_val_scoreimport numpy as npfrom sklearn.datasets .

2022-05-25 18:12:12 169

原创人工智能 LeaveOneOut（留一法）(LOO)

1、代码n：数据集大小from sklearn.model_selection import LeaveOneOutX=np.array([[1,2,3,4], [11,12,13,14], [21,22,23,24], [31,32,33,34]])y=np.array([1,1,0,0])lo=LeaveOneOut()# lo.len(y)for train_index,test_index in lo.split(X):

2022-05-25 17:52:09 1443

原创人工智能 StratifiedKFold

1、基础StratifiedKFold——执行分层采样sklearn.model_selection.StratifiedKFold(n_splits=,random_state=,shuffle=)y:样本集标记序列n：整数，数据集大小n_flods：整数k，大于等于2shuffle：布尔值，是否混洗数据random_state整数——随机数种子，否则为随机数生成器split(X[,y,groups])X：训练数据集(n_samples,n_features)y：标记信息(n_s

2022-05-25 17:38:47 520

原创人工智能 K-fold（k-折交叉切分）

1、基础K-fold(k折交叉切分)是一个生成器sklearn.model_selection.folder.split(<n_splits=整数k，大于等于2>,<random_state=随机数种子or随机数生成器>,<shuffle=布尔值，True-在切分数据集前先混洗数据集>)2、代码不混洗（前边有空格，需要自己删除哟） # 数训练据集 X=np.array([[1,2,3,4], [11,12,13,1

2022-05-25 17:07:27 654

原创人工智能数据集划分

1、函数sklearn.model_selection.train_test_split(数据集[test_size测试集大小，train_size训练集大小,random_state整数——随机数种子，否则为随机数生成器]，stratify数组[分层采样的标记数组]或none)返回值：一个列表，依次给出一/多个数据集划分的结果：训练集、测试集。2、代码（1）未分层X=[[1,2,3,4], [11,12,13,14], [21,22,23,24], [31,

2022-05-25 16:42:21 436

原创实例——损失函数

一、0－1损失函数1，常用分类：scikit-learn:train_test_spilt（不能有交集）2，dataframe——list设计空表，用append添加，使用for循环。3，x训练，x测试，y训练，y测试＝train_test_spilt（自变量，测试集占比，随机数种子）4，...

2022-05-25 15:07:32 288

原创 Python金融数据挖掘第11章第1节 K近邻分类代码

1、库import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as plt2、欧式距离函数计算欧氏距离，即两点间的直线距离参数：vector1-List列表，n维属性坐标值构成的向量 vector2-List列表，n维属性坐标值构成的向量返回值：浮点数，欧氏距离欧氏距离计算函数对应向量相减-平方-求和-开平方def euclDistance(vec...

2022-05-24 10:55:02 263

原创 Python金融数据挖掘第11章第2节 K均值聚类代码

1、库import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as plt2、随机生成聚类中心点def initCentroids(dataSet,k): numSamples,dim=dataSet.shape centroids=np.zeros((k,dim)) for i in range(k): index=int(np.

2022-05-24 10:54:41 1004

原创 Python金融数据挖掘

使用底层code构建（包、模块——模板）。实验是干啥的呀？我也不知道,yinweimeiyoutingke。def 层层封装: 1、欧式距离计算（手工计算、） 2、数学语言到机器语言的转变...

2022-05-23 20:43:42 1460

原创 python中shape[0]、shape[1]

shape[0]：为矩阵的行数shape[1]：为矩阵的列数import numpy as npk = np.matrix([[1,2,3], [4,5,6], [7,8,9] [10,11,12])print(np.shape(k)) # 输出（4,3）表示矩阵为3行4列print(k.shape[0]) # shape[0]输出4，为矩阵的行数print(k.shape[1])

2022-05-23 20:30:13 1802

原创计量经济学第三次作业

1、描述行统计2、回归解释：3、4、

2022-05-23 10:42:44 2322

原创计量经济学及Stata应用第五章习题 5.7 使用回归模型进行餐馆选址。数据集Woody3.dta包含33家Woody‘s连锁餐馆的以下变量……

使用回归模型进行餐馆选址。数据集Woody3.dta包含33家Woody's连锁餐馆的以下变量：y(毛销售收入)，competitors(两英里内直接竞争者的数目)，pop(三英里内的居民人数)，income(三英里内的家庭平均收入)。(1)把y对其他变量进行多元回归。yi=-907yi=-9074.674competitorsi+0.3546684popi+1.287923incomei+ei (2)评论拟合优度，以及各变量系数的符号与显著性。拟合优度R2=0.6182，说明.

2022-05-23 10:38:33 16290

原创计量经济学及Stata应用第五章习题 5.5

5.1从残差:出发，证明残差向量e=y-x。5.2考虑一元回归模型y；=B，+B，x，+6；。证明：E(e：|x)=0意味着E(y.|x)=B，+β2x;。5.3考虑只对常数项进行回归，即y=B，+e。写出其数据矩阵X，并根据公式=(X'X)'X'y推导β，的OLS估计量。12\125.4假设数据矩阵为X=1122。12(1)此数据矩阵是否满列秩？(2)写出数据矩阵X的转置。(3)计算矩阵X'X，其逆矩阵(X'X)是否存在？19:44:115.60数据集a...

2022-05-23 10:35:38 28738 10

原创计量经济学及Stata应用第五章习题 5.6

5.6穷国能否赶上富国？由于穷国的资本较少，故资本的边际产出较高。因此，一种理论认为，穷国的经济增长速度应比富国快，并收敛于富国，称为“绝对收敛”(absoluteconvergence)。另一种观点则认为，只有在控制其他因素(比如人力资本)的情况下，穷国的增长速度才快于富国，称为“条件收敛”(conditionalconvergence)。使用Gallup,SachsandMellinger(1999)的部分跨国数据集geodata_short.dta，检验是否存在绝对收敛或条件收敛。...

2022-05-23 10:34:53 12408 5

原创 Python金融数据挖掘第6章复习思考题3

3、对于泰坦尼克号的数据集，试分析幸存与否与独立登船是否相关(alone数据列)，进一步地，可以分析与年龄段(age数据列)是否相关。# 引入库import matplotlib.pyplot as pltimport numpy as npimport seaborn as snsimport pandas as pd# 图表内嵌中文字体问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_mi.

2022-05-23 10:28:24 1481

原创 Python金融数据挖掘第6章复习思考题2

2、使用Pandas_datareader 获取世界银行数据库中美国(USA)、瑞典(SWE)、瑞士(CHE)三个国家近20年的NY.GDP.PCAP.KD数据，作图分析。# 导入wb用于查询世界银行数据# http://ju.outofmemory.cn/entry/308589# https://pandas-datareader.readthedocs.io/en/latest/readers/world-bank.html?# highlight=pandas_datareader.w

2022-05-23 10:27:34 1477

原创粮食规划问题

import pulpimport numpy as npfrom pprint import pprintdef transportation_problem(costs, x_max, y_max): row = len(costs) col = len(costs[0]) prob = pulp.LpProblem('Transportation Problem',sense = pulp.LpMaximize) var = [[pulp.LpVariable(.

2022-05-23 10:25:10 152

原创 Python金融数据挖掘第八章复习思考题2

一、问题设有一份购物篮数据basketdata.txt，包括两部分内容。第一部分是1000名顾客的个人信息，含7个变量：会员卡号(cardid)、消费金额(value)、支付方式(pmethod)、性别(sex，M表示男性，F表示女性)、是否户主(homeown)、年龄(age)及收入(income)。第二部分是1000名顾客一次购买的商品信息，变量均为二分类变量，取值1表示购买，取值0表示未购买。这些变量包括水果蔬菜(fruitveg)、鲜肉(freshmeat)、奶制品(dairy)、蔬菜罐

2022-05-23 10:22:39 2196 12

原创 Python金融数据挖掘第八章复习思考题1

一、问题医院礼品店已完成5项交易，购买记录清单如表8-3所示，请使用Apriori算法进关联规则分析。(1)使用数字代替商品完成第3列；(2)计算购买“鲜花”的支持度；(3)计算购买“慰问卡”的支持度；(4)计算同时购买“鲜花”和购买“慰问卡”的支持度和置信度；(5)使用Python对表8-3中的购买记录清单进行Apriori关联规则分析。{1：鲜花、2：慰问卡、3：苏打水、4：毛绒玩具熊、5：气球、6：糖果}二、代码(1)使用数字代替商品完成第3列；# （1）使用

2022-05-19 22:34:50 3061

原创 Python金融数据挖掘第八章第2节代码实例（3）

目录1、构建数据集，数据对象2、产生1-项集函数，输入为交易记录D，输出为1-项集C13、输出为频繁1-项集ret1、所有1-项集的支持度suD4、拼接函数，输入为Ck-1、K参数，表示生成k-项集5、循环中关键数据L解析6、输入为交易记录D，及最小支持度参数minSupport7、计算规则的置信度8、对频繁项集中元素超过2的项集进行合并9、频繁项集和最小可信度生成规则根据以上分析，针对表 8-1的理财产品购买例子，为了方便程序实现，我们将商品用数字来代替：{1：开.

2022-05-19 21:42:33 1734

原创 Python金融数据挖掘第八章第1节 Apriori算法原理（2）

一、目标1、了解关联规则算法的研究对象、意义和应用场景2、掌握支持度与置信度的概念及计算方法3、掌握关联规则算法的项目空间集裁剪方法4、掌握Apriori算法的原理和实现方法二、关联规则1、关联规则（Association Rules，AR）分析算法用于挖掘大规模数据集中有价值、有意义的联系，是数据挖掘领域的十大算法之一。2、用途购物篮数据分析、商品推荐营销、电子商务推广、生物信息学研究、医疗诊断咨询和航空电信等行业3、Apriori算法Agrawal从数学及计算

2022-05-19 21:14:41 1040

原创 Python金融数据挖掘第八章关联规则算法（1）

一、课前讲解应用于——金融业务问题分类，聚类，预测(回归)，关联分析算法：重点内容，但不是基础内容（Python基础知识，前七章）（处理对象，数据类型，模块，函数，规范，逻辑，算法）需求：数据挖掘+大数据理论知识金融数据挖掘：算法、工具，平台（Python）Python！基础——否则无本之木使用Python算法，体现在结果分析金融。三阶段：规范+逻辑+目标需求二、理论模型&Python算法实现相互关联，但第二步更难。Apriori算法——算法从0实现，模板

2022-05-19 20:13:52 451

空空如也

空空如也