自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(336)
  • 资源 (94)
  • 收藏
  • 关注

原创 【总目录】机器学习原理剖析、开源实战项目、全套学习指南(50篇合集)

相信不管此时的你是怀着好奇心打开这篇文章;还是偶然间刷到这篇博文;或者带有学习目的性走到这片领域,我都相信,面前的你一定会成功,因为你懂得投资和学习。学习是一个不断发展的过程,我们要用联系的眼光看待事物,也要用发展的眼光考虑未来,更要有适度的投资建设自己。不是每一次的遇见都是那么的巧合,也不是每一次的邂逅都会成就一段美好,所以你要相信,你和这篇文章的遇见也是更高层次的探索。机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战1、机器学习之Python开源教程——专栏介绍及理论知识概述。.

2022-08-24 00:01:39 2031 21

原创 【全网首发】言简意赅的Python全套语法,内附详细知识点和思维导图!【强烈建议收藏!】

Python是近几年比较火热的编程语言,至于有多火热?偶尔打开微信公众号,页面下面弹出的是《Python训练营》,打开朋友圈发现有推荐学习Python的课程,打开CSDN,发现热榜第一又是Python推荐文章,不得不说Python的影响力在目前还是比较大的,这和Python社区的宣传力度有着密切的关系!目前学习Python的人有多少呢?那些人在学习Python呢?至于这个问题,我认为没有一个准确的答案,因为每一天学习Python的人都在增加,学习Python被越来越多的人注重,所以要回答这个问题,最好的

2021-04-16 13:21:46 46485 1425

原创 上百种Python炫酷可视化案例珍藏版——看完掌握~一键三连~老板都想要给你升职加薪哟!

数据可视化是当下火热的大数据应用技术,很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入。数据可视化在近几年十分火热,但它到底是什么意思很多人却并不很清楚。从广义上来说,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。帮助人更好的分析数据是数据可视化存在的意义,它对数据中所包含的意义进行分析,使分析结

2021-04-12 12:17:05 10095 74

原创 80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫(附大量项目案例和语法解析文章)

前端工程师把数据和网页完美的结合在一起,他们以为这样是最美丽的契合,殊不知,后端的那些工程师宝宝们,一天没事干,把他们的老窝给惊扰了,爬虫给网站带来的危害是比较大的,如果一个服务器一般被很多用户访问,可能它会宕机,也可能会崩溃,那么一个机器通过编程手段来达到这个目的,一分钟的点击次数,同时点击所达到的次数,机器不会累,于是网站被他们端了。一切都要恰到好处,于是他们商量好了,礼貌的访问,隐隐约约的访问,悄悄咪咪的访问,有节制的去获取数据,慢慢的前端工程师和后端工程师关系越来也好了,最终他们诞生了幸福的结晶..

2021-04-09 14:40:19 11449 58

原创 Python爬取热搜数据之炫酷可视化

可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了!项目介绍背景现阶段、抖音、快手、哗哩哗哩、微信公众号已经成为不少年轻人必备的“生活神器”。在21世纪的今天,你又是如何获取外界的信息资源的?相信很多小伙伴应该属于下面这一种类型的:事情要想知道快,抖音平台马上拍;微博热搜刷一刷,聚焦热点不愁卖;闲来发呆怎么办, B 站抖音快手来;要是深夜无聊备,微信文章踩一踩;哈哈哈,小小的活跃一下气氛在这个万物互联的时代,已不再是那个“从前慢,车马慢....

2021-02-15 18:08:56 14199 74

原创 【完结】算法与数据结构【30天】集训营——图论知识总结及相关课后习题讲解案例(30)

( 1)在一个图中,所有顶点的度数之和等于图的边数的()倍。答案: C(在最开始的概念中提到过)( 2)在一个有向图中,所有顶点的入度之和等于所有顶点的出度之和的()倍。答案: B解释:有向图所有顶点入度之和等于所有顶点出度之和。( 3)具有 n 个顶点的有向图最多有()条边。答案: B 解释:有向图的边有方向之分, 即为从 n 个顶点中选取 2 个顶点有序排列, 结果为 n(n-1)。( 4) n 个顶点的连通图用邻接距阵表示时,该距阵至少有 () 个非零元素。A. n。

2022-11-21 19:06:19 48

原创 算法与数据结构【30天】集训营——图的应用之最小生成树、最短路径、拓扑排序、关键路径(29)

现实生活中的许多问题都可以转化为图来解决。 例如, 如何以最小成本构建一个通信网络,如何计算地图中两地之间的最短路径,如何为复杂活动中各子任务的完成寻找一个较优的顺序等。本文将结合这些常用的实际问题,介绍图的几个常用算法,包括最小生成树,最短路径、拓扑排序和关键路径算法。

2022-11-21 16:56:02 172

原创 算法与数据结构【30天】集训营——图的遍历之深度优先搜索、广度优先搜索(28)

总而言之,深度搜索我们可以理解为栈操作,广度搜索我们可以理解为队列操作。

2022-11-20 22:49:48 144

原创 算法与数据结构【30天】集训营——图的定义和基本术语超全详解案例(27)

图G由顶点集V和边集E组成,记为G=(V,E),其中V(G)表示图G中顶点的有限非空集;E(G)表示图G中顶点之间的关系(边)的集合。易错点线性表可以是空表,树可以是空树,图不可以是空图,图可以没有边,但是至少要有一个顶点。

2022-11-19 22:40:59 274 5

原创 算法与数据结构【30天】集训营——外部排序的原理及代码详解(26)

举一个简单的例子:我现在有1TB的数据,但是我的内存只有8GB,请问我应该如何处理这个数据,我们的思想很快就会想到分而治之。首先将这一个TB的数据划分为不同的文件块,然后每个文件块最好是小于等于我们的内存,然后读取之后,可以用内部排序算法进行排序。依次将这些文件块里面的数据排序,然后依次读取出每个文件块的最小元素,按照两两比较的思想,然后输出最小的,就这样,一直合并到两个顺串完,如果一个顺串先完,剩下另一个顺串,那么就将剩下的顺串直接拷贝到硬盘上。按照这个方法,把合并后的顺串继续合并,直到最终合并成

2022-10-27 21:04:05 417

原创 算法与数据结构【30天】集训营——归并排序、基数排序的原理及代码详解(25)

(4)基数排序使用条件有严格的要求:需要知道各级关键字的主次关系和各级关键字的取值范围。, 且不需要附加存储空间,但递归实现时仍需要开辟相应的递归工作栈。(3) 时间复杂度可以突破基于关键字比较一类方法的下界。乐观的生活会有幸运之神降临!, 达到 O(n)。

2022-10-23 18:40:33 140

原创 算法与数据结构【30天】集训营——简单选择排序、树形选择排序、堆排序的原理及代码详解(24)

在要排序的一组数中,选出最小(或者最大)的一个数与第1个位置的数交换;然后在剩下的数中再找最小(或者最大)的与第2个位置的数交换,以此类推,直到 第n-1个元素(倒数第二个数)和第n个元素(最后一个数)比较为止。

2022-10-23 17:11:46 156

原创 算法与数据结构【30天】集训营——冒泡排序、快速排序的原理及代码详解(23)

所以在比较第二趟的时候,

2022-10-23 16:14:44 90

原创 算法与数据结构【30天】集训营——初学者能听懂的动画:希尔排序的原理及代码详解(22)

然后这个时候,表的长度最大是4,4/2等于2,所以要在原来的四组里面进行组合,把元素变成两组,如何组合就是在原来的4个组里面分别选取每个组里面的首元素作为组合元素。

2022-10-23 15:05:57 183

原创 算法与数据结构【30天】集训营——直接插入排序、折半插入排序的原理及代码详解(21)

排序 :就是一系列数据,按照某个关键字(例如:销量,价格),进行递增或者递减的顺序排列起来。

2022-10-23 14:31:56 194

原创 算法与数据结构【30天】集训营——详解查找章节数据结构(C语言版 第2版)课后习题答案 (20)

5)设哈希表的地址范围为 0~ 17 ,哈希函数为: H ( key ) =key%16。用线性探测法处理冲突,输入关键字序列: ( 10 , 24 , 32, 17 , 31 , 30, 46 , 47 , 40, 63 , 49),构造哈希表,试回答下列问题:①画出哈希表的示意图;②若查找关键字 63 ,需要依次与哪些关键字进行比较?③若查找关键字 60 ,需要依次与哪些关键字比较?④假定每个关键字的查找概率相等,求查找成功时的平均查找长度。

2022-10-22 23:43:09 268

原创 算法与数据结构【30天】集训营——散列表的数字分析法、平方取中法、除留余数法、开发地址法、链地址法(19)

中间四位是HLR识别号,表示用户号的归属地;在元素的存储位置和其关键字之间建立某种直接关系,那么在进行查找时,就无需做比较或做很少次的比较,按照这种关系直接由关键字找到相应的记录。越大,表中已填入的记录越多,再填记录时,发生冲突的可能性就越大,则查找时,给定值需与之进行比较的关键字的个数也就越多。这个方法计算很简单,假设关键字是1234,那么它的平方就是1522756,再抽取中间的3位就227,用做散列地址。根据前辈们的经验,若散列表的表长为m,通常p为小于表长的最大质数或不包含小于20质因子的合数。

2022-10-22 22:14:14 200

原创 算法与数据结构【30天】集训营——B+树的概念及其特点、有趣的文章(18)

B+树的节点只存储索引key值,具体信息的地址存在于叶子节点的地址中。因此,B+树成为了数据库比较优秀的数据构,MySQL中MyIsAM和InnoDB都是采用的B+树结构。B树在提高了IO性能的同时并没有解决元素遍历的我效率低下的问题,正是为了解决这个问题,B+树应用而生。B树在提高了IO性能的同时并没有解决元素遍历的我效率低下的问题,正是为了解决这个问题,B+树应用而生。而且在数据库中基于范围的查询是非常频繁的,而B树不支持这样的操作或者说效率太低。B+树的内部结点并没有指向关键字具体信息的指针。

2022-10-20 22:14:35 163

原创 算法与数据结构【30天】集训营——B树的创建、查找、插入、删除总结的最佳解决方法(17)

一棵m阶的B树,满足下:(1)树中每个结点至多有m棵子树;(2) 若根结点不是叶子结点,则至少有两棵子树;(3)除根之外的所有非终端结点至少有「m/2]子树;向上取整操作(4) 所有的叶子结点都出现在同一层次上,并且不带信息,通常称为失败结点(失败结点并不存在,指向这些结点的指针为空。引入失败结点是为了便于分析B-树的查找性能);(5)所有的非终端结点最多有m- 1个关键字这里的关键字需要注意理解一下,结点里面可能存在多个关键字。

2022-10-20 21:59:50 297

原创 算法与数据结构【30天】集训营——平衡二叉树的LL、RR、LR、RL调整的简单快速方法(16)

如果数据呈有序排列,则二叉排序树是线性的,查找的时间复杂度为O(n);反之,如果二叉排序树的结构合理,则查找速度较快,查找的时间复杂度为O(log2n)O(log_2^n)O(log2n​)。事实上,树的高度越小,查找速度越快。因此,希望二叉树的高度尽可能小。它的左子树和右子树都是平衡二叉树,且左子树和右子树的深度之差的绝对值不超过1。

2022-10-20 20:29:04 247

原创 算法与数据结构【30天】集训营——二叉排序树的创建、查找、插入、删除操作(15)

二叉排序树又称二叉查找树,它是一种排序和查找都很有用的特殊二叉树。(1) 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值;(2) 若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值;(3) 它的左、 右子树也分别为二叉排序树。

2022-10-20 18:33:17 190

原创 算法与数据结构【30天】集训营——线性表的顺序查找、折半(二分)查找、分块查找(14)

面向一些数据量很大的实时系统, 如订票系统、互联网上的信息检索系统等, 查找效率尤其重要。本次我们将针对查找运算,讨论应该采用何种数据结构, 使用什么样的方法, 并通过对它们的效率进行分析来比较各种查找算法在不同情况下的优劣。查找表是由同一类型的数据元素(或记录)构成的集合。关键字是数据元素(或记录) 中某个数据项的值,用它可以标识一个数据元素(或记录)。若此关键字 可以唯一地标识一个记录, 则称此关键字为主关键字(对不同的记录, 其主关键字均不同)。反之,称用以识别若千记录的关键字为次关键字。当数据元素只

2022-10-20 17:56:35 371

原创 ros实验操作——订阅者Subscriber的编程实现

首先,在learning_pub_sub_pkg功能包的src文件夹下创建名为 pose_subscriber.cpp 的cpp文件。包含小海龟的位置x、y;线速度linear_velocity;角速度angular_velocity。在启动小海龟仿真之后,ROS会默认发布一个名为“/turtle1/Pose”的topic。其中发布的是turtlesim/Pose类型的数据。

2022-10-20 11:08:44 125

原创 发布者Publisher的编程实现——小乌龟实现匀速跑圈案例

ROS内部的几何图元消息库(geometry_msgs)中集成了多种数据结构,其中的Twist集成了三轴线速度:linear和三轴角速度:angular,我们只需要给定其中的linear.x以及angular.z某个数值,其他皆置为0即可。除用键盘控制小海龟外,我们也可以自己创建一个小海龟的速度发布者,发布名为“/turtle1/cmd_vel”的话题,其中包含小乌龟的速度值,从而控制小海龟运动。便可描述其位置,在启动小乌龟节点时,也会有小乌龟的位置信息。(Publish/Subscribe)的方式传递。

2022-10-20 10:12:51 153

原创 Ubuntu18.04LTS安装配置VScode及下载C++相应第三方库

目录Linux介绍Ubuntu18.04安装Linux的常见操作在Ubuntu中安装C++库每文一语Linux介绍Linux基于Unix,诞生于1991 年10 月5 日,Linux基于GPL协议,是一个自由的,免费的,源码开放的操作系统,Linux存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是

2022-10-17 08:40:43 191

原创 算法与数据结构【30天】集训营——树和二叉树课后习题详解之数据结构C语言严蔚敏版(13)

题目分析 ] 因为后序遍历栈中保留当前结点的祖先的信息,用一变量保存栈的最高栈顶指针,每当退栈时,栈顶指针高于保存最高栈顶指针的值时,则将该栈倒入辅助栈中,辅助栈始终保存最长路径长度上的结点,直至后序遍历完毕,则辅助栈中内容即为所求。解释:设度为 0 结点(叶子结点)个数为 A,度为 1 的结点个数为 B,度为 2 的结点个数为 C,有A=C+1, A+B+C=1001> ,可得 2C+B=1000 ,,又因为 C 为整数,所以 B=0, C=500 , A=501 ,即有> 501 个叶子结点。

2022-10-16 17:46:08 86

原创 算法与数据结构【30天】集训营——二叉树和森林的互转换以及构造哈夫曼树及编码(12)

哈夫曼编码:对一棵具有n个叶子的哈夫曼树,若对树中的每个左分支 赋予0, 右分支赋予1’则从根到每个叶子的路径上,各分支 的赋值分别构成一个二进制串, 该二进制串就称为哈夫曼编码。将第一个二叉树不变,然后将第二个二叉树的跟结点作为第一个二叉树的跟的右孩子,然后将第三棵树的根作为第二个二叉树的跟的右孩子,以此类推即可将所有的二叉树合并为一个二叉树。中序遍历森林:普通的树构成的森林是不存在中序遍历的,这里的中序遍历必然指代的是化成二叉树的森林。从树的二叉链表表示的定义可知,任何一棵和树对应的二叉树,其。

2022-10-16 16:23:44 161

原创 算法与数据结构【30天】集训营——树和二叉树的操作以及全部知识点汇总(11)

树是一种非线性的数据结构,它是由n个有限结点组成有层次关系的集合。树具有以下特点,可以根据这些特点来判断一个数据结构是否是树• 每个结点具有0个或多个子结点• 每个子结点只有一个父结点• 没有前驱的结为根结点• 除了根结点外,每个子结点又可以由m棵不相关的子树组成二叉树每个结点至多只有两颗子树(即二叉树中不能存在度大于 2 的结点)二叉树的子树有左右之分,其次序不能任意颠倒即使树中某结点只有一棵子树,也要区分它是左子树还是右子树。

2022-10-16 01:26:30 132

原创 算法与数据结构【30天】集训营——数组按行(列)为主序存储题型技巧求解、广义表知识点(10)

该类题目,首先需要明确的是是按照行还是列进行主存放,如果是行进行主存放,那么就是该行之前的元素个数乘以数组中列的元素个数,然后加上该列之前的元素个数之和,然后乘以每个元素所占的单位。这里唯一需要注意的就是,在确定题目中所求的数组的元素之前的个数的时候,我们需要考虑该起点位置在哪里?比如起点是从-1开始到9,LOC【7,4】,-1 0 1 2 3 4 5 6 7 ,这里如果是按照行序主存放,那么该元素之前的个数为:8个起点很重要!

2022-10-15 23:14:33 164

原创 算法与数据结构【30天】集训营——串的模式匹配算法KMP、求next[j]、nextval[j] 技巧操作(09)

串(string)(或字符串)是由零个或多个字符组成的有限序列串中字符的数目n称为串的长度。零个字符的串称为空串(null string), 其长度为零。子串在主串中的位置则以子串的第一个字符在主串中的位置来表示。当两个串的长度相等,并且各个对应位置的字符都相等时,才称这两个串相等。

2022-10-15 21:51:15 212

原创 算法与数据结构【30天】集训营——栈和队列课后习题详解之C语言严蔚敏版(第二版)(08)

在拼数过程中,若遇非数字字符,表示数已拼完,将数压入栈中,并且将变量 num 恢复为 0,准备下一个数。解释:对于非循环队列,尾指针和头指针的差值便是队列的长度,而对于循环队列, 差值可能为负数, 所以需要将差值加上 MAXSIZE(本题为 n),然后与 MAXSIZE (本题为 n) 求余,即( n+r-f)%n。解释:栈是后进先出的线性表,一个栈的入栈序列是 1, 2, 3,, , n,而输出序列的 第一个元素为 n,说明 1,2,3,, , n 一次性全部进栈, 再进行输出, 所以。

2022-10-15 20:57:56 65

原创 算法与数据结构【30天】集训营——栈和队列的全套操作及易错知识点总结(07)

栈 (stack) 是限定仅在表尾进行插入或删除操作的线性表。因此, 对栈来说, 表尾端有其特殊含义, 称为栈顶 (top), 相应地, 表头端称为栈底 (bottom)。不含元素的空表称为空栈。操作结果:构造一个空栈s。初始条件:栈s已存在。操作结果:栈S被销毁。初始条件:栈S已存在。操作结果:将S清为空栈。初始条件:栈S已存在。操作结果:若栈 s 为空栈, 则返回 true, 否则返回 false。初始条件:栈S已存在。操作结果:返回s的元素个数, 即栈的长度。

2022-10-15 20:34:14 242

原创 ROS的基本介绍及基本实践操作案例

包括硬件抽象描述、底层驱动程序管理、共用功能的执行、程序间的消息传递、程序发行包管理,可以极大简化繁杂多样的机器人平台下的复杂任务创建与稳定行为控制。设置与启动深度相机功能包,并且可以使⽤rviz可视化工具查看彩⾊图、深度图、 稠密点云图等等。3、fixed frame选择camera_link, DepthCloud组件选择对应的话题。1、启动激光雷达,发布base_link->laser_link的坐标变换。3、 Fixed frame选择camera_link。三、启动小乌龟控制节点。

2022-10-13 15:55:11 1330

原创 机器人系统的基本概念及外部模型参数详解

SCOUT MINI智能移动底盘采用四轮四驱,具备强悍的越野性能,身形小巧,真正实现“灵巧似燕,驰骋 如心”。SCOUT MINI继承了SCOUT四轮差速底盘系列四轮驱动、独立悬挂、原地自转等优点,并在轮毂 电机的设计上取得了创新,底盘最⼩转弯半径为0m,爬坡角度接近30度。SCOUT MINI虽在体积上 更小,但具备卓越的越野性能,突破性实现了10.8km/h的高速精准稳定可控的动力控制系统。

2022-10-13 15:34:03 1411 1

原创 在Ubuntu上部署ROS以及如何搭建工作空间和功能包的创建与编译

工作空间(workspace是一个存放工程开发相关文件的文件夹。典型的工作空间中一般包括以下四个目录空间:1)src:代码空间(Source Space),开发过程中最常用的文件夹,用来存储所有ROS功能包的源码文件。2)build:编译空间(Build Space),用来存储工作空间编译过程中产生的缓存信息和中间文件。3)devel:开发空间(Development Space),用来放置编译生成的可执行文件。4)install:安装空间(Install Space)

2022-10-13 13:48:44 237

原创 【自然语言实战】机器学习之基于评论内容的主题分类模型

朴素贝叶斯法通过训练数据集学习到联合概率分布P(X, Y),为得到联合概率分布,需得知先验概率分布以及条件概率分布,而条件概率分布具有指数级数量的参数,如果全部统计估计是不具有实际可行性的,所以朴素贝叶斯法对条件概率分布作了条件独立性的假设,这样会损失信息,牺牲分类准确性,但是让实际的操作具有了可操作性。:全称是Term Frequency,即词频(单词出现的频率),也就是一个单词在文档中出现的次数,次数越多越重要。单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大,则越重要。

2022-08-24 00:20:16 563

原创 【项目实战】机器学习基于物品的旅游产品推荐系统

的基本思想是如果用户A喜欢物品a,用户B喜欢物品a、b、c,用户C喜欢a和c,那么认为用户A与用户B和C相似,因为他们都喜欢a,而喜欢a的用户同时也喜欢c,所以把c推荐给用户A。这些都已经成为游客出行考虑的问题,前期做大量的旅游攻略,不仅浪费时间,而且容易造成审美疲劳,导致厌倦,最终造成消费不佳,消费动力不足,间接地影响到国民旅游的良性发展。一个大型的电子商务推荐系统一般有非常多的物品,用户可能买的其中不到1%的物品,不同用户之间买的物品重叠性较低,导致算法无法找到一个用户的邻居,即偏好相似的用户。

2022-08-24 00:19:55 262

原创 【进阶版】 机器学习之强化学习、蒙特卡罗、AlphaGo原理浅析(22)

机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战机器学习之Python开源教程——专栏介绍及理论知识概述机器学习框架及评估指标详解Python监督学习之分类算法的概述数据预处理之数据清理,数据集成,数据规约,数据变化和离散化特征工程之One-Hot编码、label-encoding、自定义编码卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱特征选取之单变量统计、基于模型选择、迭代选择机器学习八大经典分类万能算法——代码+案例项目开源、可直接应用于毕设+科研项目。

2022-08-24 00:19:47 230

原创 【进阶版】 机器学习之隐马尔可夫模型、条件随机场、LDA话题模型(21)

机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战机器学习之Python开源教程——专栏介绍及理论知识概述机器学习框架及评估指标详解Python监督学习之分类算法的概述数据预处理之数据清理,数据集成,数据规约,数据变化和离散化特征工程之One-Hot编码、label-encoding、自定义编码卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱特征选取之单变量统计、基于模型选择、迭代选择机器学习八大经典分类万能算法——代码+案例项目开源、可直接应用于毕设+科研项目。

2022-08-24 00:19:39 199

原创 【进阶版】 机器学习之半监督学习、半监督聚类、规则学习相关原理知识(20)

机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战机器学习之Python开源教程——专栏介绍及理论知识概述机器学习框架及评估指标详解Python监督学习之分类算法的概述数据预处理之数据清理,数据集成,数据规约,数据变化和离散化特征工程之One-Hot编码、label-encoding、自定义编码卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱特征选取之单变量统计、基于模型选择、迭代选择机器学习八大经典分类万能算法——代码+案例项目开源、可直接应用于毕设+科研项目。

2022-08-24 00:19:30 201

机器学习配套资源.rar

机器学习配套资源.rar

2022-08-24

Hadoop电影数据集,包含字段说明

Hadoop电影数据集,包含字段说明

2022-06-17

Hadoop豆瓣电影数据分析(Hadoop)操作源码

Hadoop豆瓣电影数据分析(Hadoop)操作源码

2022-06-16

基于Hadoop豆瓣电影数据分析实验报告

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图: 针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。

2022-06-16

Hadoop豆瓣电影分析可视化源码

针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。 豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图:

2022-06-16

自然语言处理之文本分类及文本情感分析资源大全(含代码及其数据,可用于毕设参考!)

包含自然语言处理下的文本分词、构建词向量、以及文本分类;主题分类;情感分析模型代码,可以作为毕业设计参考代码,你可以阅读作者的代码案例,将其换成自己的数据进行构架,如此可以进一步的增强代码的逻辑性! 值得下载!整理和测试不易! 包含多种模型案例 文章专栏代表: 机器学习之自然语言处理——中文分词jieba库详解(代码+原理) https://blog.csdn.net/weixin_47723732/article/details/124907474?spm=1001.2014.3001.5501

2022-05-23

基于Word2Vec构建多种主题分类模型(贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost...)

基于Word2Vec构建多种主题分类模型: 贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost、lightgbm,通过网格搜索进行参数优化,最终迭代出每个模型的最佳参数和准确率,最终返回一个最佳模型。 利用测试数据进行测试,分类模型的效果如何! 1. 有监督学习:读取文本内容(->X)和文本分类标签(->y) 2. 文本内容 -> 分词 (用户字典,停用词) -> 空格连接的字符串 或者 词列表 3. 特征提取/向量化 -> X - 空格连接的字符串 -> CountVectorizer,TfidfVectorizer - 词列表 -> Word2Vec,Doc2Vec 4. 分类标签编码 -> LabelEncoder 5. 构建训练集测试集 6. 构建模型 7. 训练模型 8. 调参和评估 9. 模型的应用

2022-05-22

基于Word2Vec向量化的新闻分本分类.ipynb

基于Word2Vec向量化的新闻分本分类.ipynb

2022-05-22

智能词云算法(一键化展示不同类型的词云图)运行生成HTML文件

点击运行提示用户输入文本路径:注意路径是txt文件的路径,所以如果是Word的,首先需要将其放在TXT文件中。 其次运行之后,会弹出一个功能选项卡,你可以根据选项来生成自己的词云,智能词云程序,小白也可以使用,不需要任何的编程基础!

2022-05-22

协同过滤推荐系统资源(基于用户-物品-Surprise)等案例操作代码及讲解

如果毕业设计做推荐系统可以参考这个资源!!!!!!!!! 资源包括: 1、包含基于物品,基于用户的协同过滤底层算法(Python实现) 2、基于python第三库Surprise实现的推荐系统(机器学习类似原理) 3、基于电影进行推荐系统的设计 4、包含大量的数据集(电影数据集)

2022-05-11

Python机器学习关联规则资源(apriori算法、fpgrowth算法)原理讲解

1、包含apriori算法的代码操作和讲解以及原理的文档PPT 2、包含fpgrowth算法的代码操作和讲解以及原理的文档PPT 3、关联规则的PPT 4、通过这些可以理解到关联规则的运用实际代码 5、值得推荐! 6、下载中之后有问题可以私信博主!!!(必回)

2022-05-11

旅游消费数据集——包含用户id,用户评分、产品类别、产品名称等指标,可以作为推荐系统的数据集案例

旅游消费数据集——包含用户id,用户评分、产品类别、产品名称等指标,可以作为推荐系统的数据集案例

2022-05-11

机器学习-推荐系统(基于用户).ipynb

机器学习-推荐系统(基于用户).ipynb

2022-05-11

机器学习-推荐系统(基于物品).ipynb

基于用于的推荐系统代码,直接可以运行,只需要替换掉你的数据即可! 如果有需要做推荐系统案例的小伙伴,可以私信博主,留言即可! 第一步:发现用户的偏好 第二步:找到相似的用户或物品 第三步:计算推荐

2022-05-11

pyecharts绘图案例模板大全(代码可作为模板)

1、包含53类图表项目,几百种pyecharts可视化模板 2、直接可以运行HTML即可展示画面,也可以直接在网页上修改数据 3、有问题可以私信博主 4、另外100种大屏可视化模板可以私信博主,前端展示,可以修改数据即可! 5、参考专栏:https://blog.csdn.net/weixin_47723732/category_10599682.html 让数据变得灵动炫酷起来,给数据赋予灵魂和价值,从可视化切入,介绍pyecharts、matplotlib、echarts、R语言绘图,Excel绘图等其他绘图,包含专业标准以及企业报表,让可视化不在单一乏味!

2022-05-09

基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

基于Hadoop部署实践对网站日志分析 1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 Hadoop插件安装及部署 第一步:Hadoop环境部署和源数据准备 安装好VMware(查看) 第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将分析数据导入mysql 3. 详细实现步骤操作纪要 3.1 hadoop环境准备 首先开启Hadoop集群:start-all.sh:开启所有的Hadoop所有进程,在主节点上进行 NameNode它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。 Secondary NameNode.....

2022-05-09

Hadoop网站日志分析源码(hive命令).txt

Hadoop网站日志分析源码(hive命令).txt

2022-05-09

Hadoop部署实践所需的安装包(Ubuntu下的安装包)

1、apache-hive-2.3.5-bin.tar.gz 2、hadoop-2.7.3.tar.gz 3、jdk-8u162-linux-x64.tar.gz 4、mysql-connector-java-5.1.24.tar.gz 5、sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

2022-05-09

hadoop实践项目-PPT演示步骤

实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。

2022-05-09

hive安装资料手册.rar

hive安装资料手册.rar

2022-05-09

使用hadoop-streaming运行Python编写的MapReduce程序.rar

使用hadoop-streaming运行Python编写的MapReduce程序.rar

2022-05-09

hadoop实训课数据清洗py脚本(MapReduce python代码,可执行文件脚本,使用方法)

可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./

2022-05-09

大数据分析-网站日志数据文件(Hadoop部署分析资料)

本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始数据进行清洗,以便后续进行统计分析; 使用Hive对清洗后的数据进行统计分析; 使用Sqoop把Hive产生的统计结果导出到mysql中; 两个日志文件,一共有200MB,符合大数据量级,可以作为推荐系统数据集和hadoop测试集。

2022-05-09

Python原生词云(自定义各类参数)

运行根据提示输入文本路径和背景图路径。颜色,停用词,大小,词频等多个参数

2022-04-18

Python编写成绩计算系统

利用Python语言编写成绩管理系统,具体解释参考博主文章: https://blog.csdn.net/weixin_47723732/article/details/107946288

2022-04-07

数学建模论文万能模板(适用于大学生各类建模类竞赛论文参考)

格式排版已经完善,曾有小伙伴用此模板加上自己的建模功底,获得省部级一等奖数学建模! 改模板包含数学建模相关论文必要的流程和解题步骤,并且Word内有批注,对每一个板块应该如何书写,如何注意论文的一些格式,以及参考案例等! 以及按照标准论文排版OK了,建议写作的时候直接按照这个模板进行内容的填充,并且将相关术语进行整合! 例如: 简单的描述一下问题求解的大体思路,首段简明扼要,言简意赅。例如本文基于如何的问题背景,进行如何的建模,有怎样的经济实用效果,得出如何的策略等。主要是简短背景加实际效应的结合 针对问题一,此处描述对于问题一要求解进行大致的思路,利用了什么样的方法,有什么样的思路想法,最终通过怎么样的模型算法进行问题的建模,所得出的直接效果,例如一些模型的准确度和参数,可以加入说明。最终通过该求解方法,能够达到如何的效果,把问题求解实际化。这里该给出的加粗,需要加粗。 针对问题二,同样的效果描述和步骤,这里唯一需要注意的就是,如果问题是层层递进,就需要说明基于问题一所求解的结果,应用到问题二当中。 针对问题三,具体的过程如上,这里不光是对本问题的描述,可以适当.......

2022-04-07

SEIR(SIR)新冠肺炎预测分析源码

博客案例:https://blog.csdn.net/weixin_47723732 截止 2021 年 4 月 27 日, 全球新增确诊病例连续 9 周增加,新增死亡病例连续 6 周增加。 世卫组织总干事谭德塞指出,虽然一些地区的新增确诊病例和死亡人数出现小幅下降,但许多国家疫情仍在密集传播,印度等国的情况尤其令人揪心。 中国政府已决定在全国进行全人群的新冠病毒疫苗接种,以建立最大规模的国民群体新冠免疫屏障。 请你们根据现有的知识和搜集相关数据,利用数学建模的方法,解决如下问题: 1. 建立传染病毒群体免疫屏障的数学模型,说明疫苗接种率的控制对构筑免疫屏障的作用。在此基础上考虑疫苗的有效性问题和病毒的变异问题对免疫屏障的可能影响。讨论免疫屏障和物理隔离对于整个社会的代价及收益的异同。 2. 以中国为例,考虑采取怎样的步骤、需要多大成本、多长时间可完成群体免疫屏障的建立。 3. 试分析导致印度新冠疫情急剧恶化的原因,给出印度疫情对周边国家疫情影响的预测分析和防控建议。 4. 根据你所建立的免疫屏障模型,提出能够有效遏制印度疫情蔓延的方案,并预测实施方案后印度疫情的走向 源码及分析

2022-04-05

国家社科基金项目数据库-2022-3-27.xlsx

1、国家社科基金项目数据库-2022-3-27.xlsx ①包含20个维度字段:项目批准号,项目类别,学科分类,项目名称,立项时间,项目负责人,专业职务,工作单位,单位类别,所在省区市,所属系统,成果名称,成果形式,成果等级,结项时间,结项证书号,出版社,出版时间,作者,获奖情况 2、国家社科基金项目数据库,截止2022年3月27日重新更新数据集,包含最新的立项项目。 包括里面的所有项目资源信息,如果不懂软件分析的小伙伴,直接在Excel里面也可以进行筛选和数据分析哟,数据量约110000条左右。 3、数据量较大,可以推荐做数据分析的案例和模板,Hadoop也可练练手哟,资源信息非常全,欢迎科研宝宝下载哟!

2022-03-27

MySQL多表操作.xmind

MySQL多表操作.xmind

2022-03-15

MySQL基本查询-DQL

MySQL基本查询-DQL

2022-03-14

MySQL约束案例总结

1:主键约束 2:自增长约束 3:非空约束 4:唯一约束 5:默认约束 6:零填充约束

2022-03-14

MySQL的DML操作

包括是数据插入,数据修改,数据删除

2022-03-14

自定义词云图像,字体,颜色,以及词云效果

智能分词效果,自定义词云效果,大小,背景,颜色,以及其他属性,运行程序之后提示你输入背景图片的路径和自定义颜色的属性,一键生成,,非常方便1

2022-02-23

Python考勤系统源码(增删改查)

Python考勤系统源码(增删改查)

2022-02-10

使用Python绘制图形详解二

使用Python绘制图形详解二

2022-02-08

使用Python绘制图形详解

使用Python绘制图形详解

2022-02-08

机器学习Python算法知识点大全,包含sklearn中的机器学习模型和Python预处理的pandas和numpy知识点

1、机器学习sklearn框架知识点,pandas与numpy大全 3、了解机器的核心原理和算法理论 4、应用场景:数据挖掘,预测、分类、推荐算法 5、特点:简化框架及代码思想,言简意赅 6、适用人群:想学习机器学习的初学者 7、使用/学习说明:在学习的过程要结合sklearn核心原理与内容需求分析和方案设计,在实践中不断提升

2022-01-22

hadoop环境部署全套组件,下载后直接可用(虚拟机全套)

Hadoop部署平台全套组件,包含hdfs,hive,hbase,sqoop,mysql,flume等,包含大数据处理的全部组件功能! 现成虚拟机,安装好的镜像,下载直接可运行!!!

2021-12-29

MongoDB思维导图

MongoDB思维导图

2021-12-10

Redis安装及讲义资料

Redis安装及讲义资料

2021-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除