yuhui_2000-CSDN博客

根据被爬取网站的数量不同，可以分为：通用爬虫，如搜索引擎聚焦爬虫，如12306抢票，或专门抓取某一个（某一类）网站数据根据是否以获取数据为目的，可以分为：功能性爬虫，给你喜欢的明星投票、点赞数据增量爬虫，比如招聘信息根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：基于url地址变化、内容也随之变化的数据增量爬虫url地址不变、内容变化的数据增量爬虫爬虫的分类...

2021-07-06 20:20:39 256

招聘网站查询与爬虫作用有关的职位的招聘情况https://www.lagou.com/jobs/list_Python%20%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=1.数据采集抓取微博评论(机器学习舆情监控)抓取招聘网站的招聘信息(数据分析、挖掘)新浪滚动新闻百度新闻网站2.软件测试爬虫之自动化测试虫师3.12306抢票4.网站上的投票投票网5.网络安全短信轰炸注册页

2021-07-06 20:13:12 160

原创 1-3爬虫的概念

爬虫的概念

2021-07-06 19:45:53 129

原创 1-2课程结构

课程结构

2021-07-06 19:33:54 116

原创 1-1爬虫特点介绍

爬虫特点概要1.知识点碎片化2.学习难度3.学习特点4.后续发展5.法律层面6.课件7.建议

2021-07-06 19:22:08 380

原创黑马人工智能就业班之Python爬虫——属性

课程来源课程目录相关资料资料链接：https://pan.baidu.com/s/1bdbHnLpRJ7rqM6JwbEjLhQ 提取码：rj9j解压密码：www.wukongitxueyuan.comIT技术交流QQ群：619553750

2021-07-06 18:52:33 453 1

原创 2-09-认识决策树

学习目标内容预览认识决策树决策树分类原理详解决策树API案例：泰坦尼克号乘客生存预测决策树可视化总结总结认识决策树

2021-03-17 23:57:51 165

原创 2-07-朴素贝叶斯算法原理

学习目标目标说明条件概率与联合概率说明贝叶斯公式、以及特征独立之间的关系记忆贝叶斯公式知道拉普拉斯平滑系数应用贝叶斯公式实现概率的计算应用20类新闻文章的分类预测内容预览什么是朴素贝叶斯分类方法概率基础联合概率、条件概率与相互独立贝叶斯公式API案例：20类新闻文章分类朴素贝叶斯算法总结总结什么是朴素贝叶斯分类方法概率基础知识概率定义女神是否喜欢计算案例联合概率、条件概率与相互独立但是，在现实生活中，一个人的职业和他的体型是

2021-03-17 21:39:49 242

原创 2-06-Facebook案例代码实现

流程分析1）获取数据2）数据处理目的：特征值 x 目标值 y a.缩小数据范围 2 < x < 2.5 1.0 < y < 1.5 b.time -> 年月日时分秒 c.过滤签到次数少的地点数据集划分3）特征工程：标准化4）KNN算法预估流程5）模型选择与调优6）模型评估代码实现...

2021-03-17 18:03:25 272

原创 2-05-Facebook案例流程分析

数据集介绍

2021-03-17 14:56:12 257

原创 2-04-模型选择与调优

导入在KNN算法中，k值的选择对我们最终的预测结果有着很大的影响那么有没有好的方法能够帮助我们选择好的k值呢？模型选择与调优学习目标内容预览：什么是交叉验证（cross validation）超参数搜索-网格搜索（Grid Search）鸢尾花案例增加k值调优案例：预测FaceBook签到位置总结什么是交叉验证（cross validation）交叉验证的定义将拿到的训练数据，分为训练和验证集，以下图为例：将数据分成4份，其中一份作为验证集，然后经过4次（组）的测试，每次都更

2021-03-16 18:55:23 292 2

原创 2-03-KNN算法

学习目标内容预览什么是KNN算法KNN算法API案例：鸢尾花种类预测KNN算法总结什么是KNN算法导入上述问题就是一个分类问题，我们就可以使用KNN算法来解决核心思想：根据你的邻居推断出你的类别KNN算法原理K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，也是相对来说比较易于理解的算法。定义距离公式我们应该如何确定谁才是我们的邻居呢？欧式距离比如说：a(a1,a2,a3),b(b1,b2,b3)a(a1,

2021-03-15 21:23:17 210

原创 2-02-转化器与预估器

主要内容分类算法：目标值：类别sklearn转换器与预估器KNN算法模型选择与调优朴素贝叶斯算法决策树随机森林sklearn转换器与预估器转换器预估器estimator转换器-特征工程的父类标准化X′=x−meanσX^{\prime}=\frac{x-mean}{\sigma}X′=σx−meanfit_transform()将方法fit()和方法transform()进行封装，最终得到了方法fit_transform()换而言之即是：fit_tran

2021-03-15 19:07:42 242

原创 2-01-上节回顾

下面是这个文档的分享链接，大家可以访问一下查看源文件：https://share.mubu.com/doc/7mcdpEdw2E

2021-03-15 18:32:58 108

原创 18-总结

下面是这个文档的分享链接，大家可以访问一下查看源文件：https://share.mubu.com/doc/7mcdpEdw2E

2021-03-15 18:21:55 124

原创 17-instacart降维案例

案例：探究用户对物品类别的喜好细分降维案例介绍数据介绍思路探究

2021-03-15 17:27:51 487

原创 16-主成分分析

什么是主成分分析（PCA）定义作用应用举例说明什么是主成分分析再举例说明什么是主成分分析将这5个点绘制到平面直角坐标系中我们应该如何对这5个点做主成分分析？这条直线是怎么求出来的？在sklearn中如何做主成分分析？注意：对于n_components这个参数：它可以接收float型和int型这两种类型的数据：代码演示先使用一些简单的数据来演示一下主成分分析的大致流程：[[2,8,4,5],[6,3,0,8],[5,4,9,1]]# -*- cod

2021-03-14 18:15:34 172

原创 15-删除低方差特征与相关系数

什么是特征选择？定义举例说明特征选择的定义特征选择的方法相关系数——特征与特征之间的相关程度在sklearn中如何实现特征选择过滤式低方差特征过滤什么是低方差特征过滤如何在sklearn中实现低方差特征过滤代码演示原始数据：代码：# -*- coding: utf-8 -*-"""@Time : 2021/3/8 19:48@Author : yuhui@Email : 3476237164@qq.com@FileName: 15_删除低方差

2021-03-11 12:14:02 1052 1

原创 14-什么是降维

什么是降维降维——降低维度ndarray中的维数维数：ndarray嵌套的层数0维标量1维向量2维矩阵降维的对象是什么？二维数组降维指的是什么？降低特征的个数降维的定义降维之后达到的效果：特征与特征之间不相关降维的方法特征选择主成分分析...

2021-03-08 19:30:45 2207

原创 13-数据预处理-标准化

思考：归一化过程有什么缺点？如果我们的数据中异常值比较多，这会对我们的归一化过程有什么影响？异常值：一般为最大值或者是最小值这也就反映了归一化这种方法的鲁棒性（稳定性）较差，因为数据中的最大值和最小值很容易就会受到异常点的影响。因而，归一化这种数据预处理方法只适合传统精确小数据场景。那么，我们还有别的什么好的方法能够帮助我们进行特征预处理吗？标准化什么是标准化呢？计算公式X′=x−meanσX^{\prime}=\frac{x-mean}{\sigma}X′=σx−mean

2021-03-08 18:44:43 419

原创 12-数据预处理-归一化

导入什么是特征预处理？特征预处理什么是特征预处理？# scikit-learn的解释provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.包含内容如何在sklearn中实现特征预处理sklearn.pr

2021-03-08 17:58:30 391

原创 10-中文文本特征提取

停用词什么是停用词停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。https://baike.baidu.com/item/%E5%81%9C%E7%94%A8%E8%AF%8D在代码中我们应该如何使用

2021-03-08 11:55:31 1283

原创 11-文本特征抽取TfidfVectorizer

关键词关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章当中出现很少能够反映这篇文章核心的词汇我们只要看到关键词部分，就能大致明白这篇文章是讲一些什么的了那么，我们应该如何使用计算机找出文章中的关键词呢？要知道，关键词不一定是出现次数最多的词汇，但一定是直接反映了这篇文章的本质。Tf-idf文本特征提取公式tfidfi,j=tfi,j×idfitfidf_{i,j}=tf_{i,j} \times idf_itfidfi,j=tfi,j×idfi举例说明：

2021-03-08 11:54:33 413

原创 09-文本特征提取CountVectorizer

导入现在，我们有一篇文章，类似于下面的这样的：问：我们应该如何从中提取数据的特征单词作为特征可以作为特征的量：句子短语单词字母综合比较而言，还是选择单词作为特征是比较合适的在sklearn中如何对文本数据进行特征值化# -*- coding: utf-8 -*-"""@Time : 2021/3/7 16:13@Author : yuhui@Email : 3476237164@qq.com@FileName: 09_文本特征提取CountVe

2021-03-07 16:38:33 253

原创 08-字典特征抽取

为什么需要特征工程(Feature Engineering)机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”注：业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。什么是特征工程定

2021-03-07 15:54:04 231

原创 07-sklearn数据集使用

scikit-learn数据集API介绍sklearn小数据集sklearn.datasets.load_iris()sklearn.datasets.load_boston()sklearn大数据集

2021-03-07 10:59:13 1296 1

原创 03-机器学习算法分类

学习目标说明机器学习算法监督学习与无监督学习的区别说明监督学习中的分类、回归特点导入对于下面的猫和狗，我们有一个想法：要想让机器具有识别猫和狗的能力，我们需要让它从数据中获得模型这个时候，数据应该是怎么样的数据呢？在当期的这个问题中，数据的目标值是一个类别我们将这样的问题称之为分类问题分类问题...

2021-03-06 16:59:11 132

原创 06-可用数据集

可用数据集学习阶段可用的数据集：sklearnkaggleUCIScikit-learn工具介绍安装pip3 install Scikit-learn==0.19.1安装好之后可以通过以下命令查看是否安装成功import sklearn注意：安装scikit-learn需要Numpy, Scipy等库Scikit-learn包含的内容分类回归聚类降维模型选择特征工程大致可以分为以下三个方面：分类、聚类、回归特征工程模型选择、调优...

2021-03-06 16:14:53 201

原创 05-学习框架和资料介绍

首先我们需要明确几点问题：算法是核心，数据与计算是基础找准定位大部分复杂模型的算法设计都是算法工程师在做，而我们只需要做：分析很多的数据分析具体的业务应用常见的算法特征工程、调参数、优化不推荐参考书籍：我们应该怎么做？学会分析问题，使用机器学习算法的目的，想要算法完成何种任务掌握算法基本思想，学会对问题用相应的算法解决学会利用库或者框架解决问题当前重要的是掌握一些机器学习算法等技巧，从某个业务领域切入解决问题。机器学习库与框架推荐的参考书籍

2021-03-06 15:45:31 110

原创 04-机器学习开发流程

流程图流程分析获取数据数据清洗特征工程机器学习算法进行训练，得到模型模型评估合格应用不合格重新进行上述操作，直到合格为止

2021-03-06 15:26:29 183

原创 02-什么是机器学习

机器学习的定义机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。关键词：数据模型预测关于机器学习的解释机器从历史数据中自动分析获得模型，并利用模型对未知数据进行预测人根据历史性的经验对未来的事情进行预测比如，我们常常会说：“太阳明天会照常升起。”其实我们并不知道明天太阳会不会升起，我们是根据自己过去的经验说出的这句话我们人从大量的日常经验中归纳规律，当面临新的问题的时候，就可以利用以往总结的规律去分析现实状况，采取最佳策略。从数据（大量的猫和狗的图

2021-03-06 11:33:44 330

原创 01-人工智能概述

机器学习与人工智能、深度学习它们三者之间的关系是怎么样的？从上述两张图片我们可以看出，它们三者其实是包含于被包含的关系机器学习和人工智能、深度学习的关系：机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来什么方法呢？人工神经网络Artificial Neural NetworksANNs人工智能的起点及代表人物机器学习和深度学习都能做些什么？传统预测图像识别自然语言处理当前重要的是掌握一些机器学习算法等技巧，从某个业务领域切入解决问题。人工

2021-03-06 10:59:51 145

原创属性

2021-03-06 10:32:10 110

原创使用sympy绘图时出现错误--网上第一份

描述from sympy.plotting import plotfrom sympy import symbolsx = symbols('x')p2 = plot(x*x, (x, -10, 10))这个是代码然后我在jupyter notebook中运行了这串代码，就遇到了下面的这个情况寻找答案为什么是这样显示的呢？好丑啊，感觉而且这个和别人的运行结果也是完全不一样我现在是在我的虚拟环境中运行的，然后我就想：如果是在Anaconda中的Python中运行这串代码会是一个什么

2021-01-06 20:00:47 665 2

空空如也

空空如也