努力！才能被爱慕~-CSDN博客

原创西瓜书第六章支持向量机

6.1 试证明样本空间中任意点x到超平面（w,b)的距离为式6.26.2试使用LIBSVM，在西瓜数据集3.0a上分别用线性核和高斯核训练一个SVM，并比较其支持向量的差别参考：LIBSVM 在 python 环境下的使用【https://blog.csdn.net/qq_37691909/article/details/85623326】用线性核、高斯核训练SVM【https://blog.csdn.net/qdbszsj/article/details/79124276】使用LIBSVM经过训

2021-07-30 00:30:30 795

原创西瓜书第五章神经网络

神经元模型激活函数：1.阶跃函数2.Sigmoid3.Relu4.tanh感知机与多层网络误差反向传播1.逐层求偏导2.Sigmoid的导数BP 神经网络易遭受过拟合，解决策略：Early StoppingRegularization，可以在误差函数中增加权重的正则项全局最小与局部极小采取不同初始化，选取最优局部最小模拟退火使用 SGD，引入随机因素...

2021-07-25 22:58:25 338

原创西瓜书第四章决策树

算法原理决策树是基于树结构对问题进行决策或判定的过程。决策过程中提出的判定问题（内部节点）是对某个属性的“测试”，每个测试的结果可以导出最终结论（叶节点）或导出进一步判定问题（下一层内部节点，其考虑范围是在上次决策结果的限定范围之内）。核心是选取划分条件（划分属性）。最终目的样本划分越“纯”越好。常见决策树算法ID3决策树C4.5决策树CART决策树参考：https://ifwind.github.io/2021/07/22/%E8%A5%BF%E7%93%9C%E4%B9%A6%E

2021-07-22 23:41:03 216 2

原创西瓜书第三章

西瓜书第三章

2021-07-19 22:13:40 382

原创西瓜书一、二章

习题：1.1给出相应的版本空间：输出版本空间：a=['青绿','乌黑','空集']b=['蜷缩','硬挺','稍蜷','空集']c=['浊响','清脆','沉闷','空集']z=[]for i in a: for j in b: for k in c: z.append((i,j,k))m=0for o in range(len(z)): m+=1 print('第{order},假设集合是{set}'.format(ord

2021-07-13 18:01:55 85

原创吃瓜看书推公式

西瓜书+南瓜书1.准备资料：西瓜书【电子版】2.南瓜书：https://github.com/datawhalechina/pumpkin-book/releases3.哔哩哔哩的视频课：https://www.bilibili.com/video/BV1Mh411e7VU?p=1应该根据进度，做一个学习计划，好困，明天吧~...

2021-07-11 20:56:26 81

原创 python爬虫入门与综合应用

1.练习一：百度首页进行数据import requests# 发出http请求re=requests.get("https://www.baidu.com")# 查看响应状态print(re.status_code)#输出：200#200就是响应的状态码，表示请求成功#我们可以通过res.status_code的值来判断请求是否成功。2.用爬虫下载孔乙己的文章，网址【https://apiv3.shanbay.com/codetime/articles/mnvdu】import req

2021-06-26 23:16:46 266

原创 python操作pdf做文档的分割、合并，内容提取

Python 操作 PDF 会用的库：PyPDF2 和 pdfplumberPyPDF2 可以更好的读取、写入、分割、合并PDF文件；pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格。对应的官网分别是：PyPDF2：https://pythonhosted.org/PyPDF2/pdfplumber：https://github.com/jsvine/pdfplumber输入如下命令在conda种进行安装：pip install PyPDF2pip in

2021-06-22 18:01:03 2939 1

原创 python自动化之word操作用python做邀请函

需求你是公司的行政人员，对合作伙伴进行邀请，参加公司的会议；参会人名单如下：拟定的邀请函样式如下：根据参会人名单，利用python批量生成邀请函。在这里插入代码片#导入对应库# 导入库from openpyxl import load_workbookfrom docx import Documentfrom docx.enum.text import WD_PARAGRAPH_ALIGNMENTfrom docx.shared import RGBColor, Pt,Inch

2021-06-20 18:14:54 1211

原创 python办公室自动化之使用Python操作Excel表

使用python对Excel进行读写操作练习题找出text_1.xlsx中sheet1表中空着的格子，并输出这些格子的坐标from openpyxl import load_workbookexl = load_workbood('test_1.xlsx')sheet = exl.activefor row in sheet.iter_rows(min_row = 1, max_row = 29972, min_col = 1, max_col = 10):

2021-06-18 15:43:14 237

原创 python 办公室自动化

Task00：熟悉规则1.环境准备2.阅读内容1.环境准备python3.0 ，工具anaconda2.阅读内容打卡规则：http://datawhale.club/t/topic/1425打卡截止、打卡链接、打卡结果可在Datawhale“开源学习”小程序中查看。推荐使用的论坛：http://datawhale.club/论坛基本功能使用教程：http://datawhale.club/t/topic/1425...

2021-06-15 11:29:47 315 4

原创 python 办公自动化# 1 文件自动化处理

1 文件自动化处理一、生成随机的测验试卷文件假如你是一位地理老师，班上有 35 名学生，你希望进行美国各州首府的一个小测验。不妙的是，班里有几个坏蛋，你无法确信学生不会作弊。你希望随机调整问题的次序，这样每份试卷都是独一无二的，这让任何人都不能从其他人那里抄袭答案。当然，手工完成这件事又费时又无聊。下面是程序所做的事：• 创建 35 份不同的测验试卷。• 为每份试卷创建 50 个多重选择题，次序随机。• 为每个问题提供一个正确答案和 3 个随机的错误答案，次序随机。• 将测验试卷写到

2021-06-14 23:54:12 357 3

原创 Task5：模型融合

学习目标：将之前建模调参的结果进行模型融合。模型融合的方式平均：简单平均法加权平均法投票：简单投票法加权投票法综合：排序融合log融合stacking:构建多层模型，并利用预测结果再拟合预测。blending：选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测。平均：简单加权平均，结果直接融合求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的结果，将其进行加权融和加权平均法一般根据之前预测模型的准确率，进行加权融合，将准确性高的.

2020-09-27 23:12:59 103

原创 Task4：建模与调参

学习目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程完成相应学习打卡任务1.导入数据包import pandas as pdimport numpy as npimport warningsimport osimport seaborn as snsimport matplotlib.pyplot as plt"""sns 相关设置@return:"""# 声明使用 Seaborn 样式sns.set()# 有五种seaborn的绘图风格，它

2020-09-24 21:04:20 184

原创 Task3：特征工程

学习目标：学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、、编码、选择的相应方法# 导入包并读取数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklea

2020-09-21 23:59:07 1208

原创 Task2 数据分析

赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的：EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.了解变量间的相互关系、变量与预测值之间的存在关系。为特征工程做准备* 读取数据利用pandas库第一种：使用with open方法第二种：使用csv.reader方法第三种：使用pd.read_csv方法代码：# 1.with open方法with open("train.csv

2020-09-18 17:42:23 148

原创 TASK1:金融风控赛题理解

目标:读赛题数据和目标，清楚评分体系。赛题数据:贷款平台记录，通过赛题数据，进行风控预测。工具:panda库，读取数据。

2020-09-15 21:12:46 130

原创通过路由器来设置局域网下无线打印机打印

流程：1.路由器、打印机及电脑的基本配置；1.1无线路由根据千兆或百兆网速来选择1.2连接好路由器后，使用网线在路由器的分口，拉一个端口，连接到打印机；1.3根据打印机型号，安装对应的驱动程序。2.可能遇到的问题：2.1 打印机不能自己获取地址，需要手动设置IP地址；解决方案：获悉该路由器的IP地址：方法：win+R ,输入cmd，在cmd界面里输入ipconfig，可以看到这台电脑连接的所在的IP地址，子网掩码及网关。设置打印机的IP地址，除了后三位，之前的和电脑的IP地址一样，后面

2020-06-03 22:30:31 18111

原创 Task 04：爬取腾讯新闻

了解ajax加载通过chrome的开发者工具，监控网络请求，并分析用selenium完成爬虫1.AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了2.ajax请求在前端中有两种表现形式，一种是在后台偷偷获取数据，另一种是在右侧进度条滑动到底部时进行数据的加载。3.将地址栏中的链接复制过来作为爬取的网页对象，只会得到第一页的数据，因为二三页的数据...

2020-04-27 22:03:35 149

原创 Task3：Selenium模块学习及丁香园模拟登录爬取留言板

模拟自动化登陆的模块：Seleniumselenium是一个自动化测试工具selenium应用场景：用代码的方式去模拟浏览器操作过程（如：打开浏览器、在输入框里输入文字、回车等），在爬虫方面很有必要1、selenium准备工作第一步：安装selenium（pip install selenium）第二步：安装chromedriver（一个驱动程序，用以启动chrome浏览器，具体的驱动...

2020-04-26 15:01:12 193

原创 Task 02：爬虫2

爬虫二Beautiful Soup库入门学习beautifulsoup基础知识。使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup...

2020-04-23 22:08:27 94

原创 Task1：爬虫基础知识

基础知识了解：1.互联网、HTTP互联网互联网也叫因特网(Internet)，是指网络与网络所串联成的庞大网络，这些网络以一组标准的网络协议族相连，连接全世界几十亿个设备，形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”，在此基础上发展出...

2020-04-21 21:50:37 916

原创 Task5 模型融合

具体内容见链接https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.1cd8593aw4bbL5&postId=95535模型融合常用的方法有三个1.简单加权融合，属于结果层面的融合2.stacking/blending3.boosting/bagging...

2020-04-04 21:53:21 73

原创 Task4：建模与预测

建模调参一、基础知识1. 线性回归模型线性回归对于特征的要求特征符合线性行和可加性。假设因变量为Y，自变量为X1，X2，则回归分析的默认假设为Y=b+a1X1+a2X2+ε。线性性：X1每变动一个单位，Y相应变动a1个单位，与X1的绝对数值大小无关。可加性：X1对Y的影响是独立于其他自变量（如X2）的。特征之间应相互独立。处理长尾分布理解线性回归模型线性回归五大假设：1）线性性...

2020-04-01 20:44:02 129

原创 Task3 特征工程

特征工程赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX特征工程1 时间特征处理时间特征是’regDate’, ‘creatDate’，我进行年月日的提起from t...

2020-03-28 21:41:56 107

原创 Task2：数据的探索性分析（EDA）

二手车价格预测数据初测试使用的相关函数集head() shape()：载入训练集和测试集数据describe() info() sum(), .mean()：数据总览，了解每个统计量的均值，方差，各分位数和数据类型。isnull() missingno库：查找数据缺失值和异常值并处理拟合预测值分布，(简单的可以使用非参数估计)，对于偏态分布，一般可进行对数转换，另外可查...

2020-03-25 00:15:01 86

原创 Task1-数据挖掘入门学习

数据挖掘路径—探索性数据分析（EDA）数据挖掘学习大致路径1.EDA目标1.EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可...

2020-03-22 22:58:04 73

原创《动手学深度学习》Task10-3:DCGAN

Deep Convolutional Generative Adversarial Networkswe introduced the basic ideas behind how GANs work. We showed that they can draw samples from some simple, easy-to-sample distribution, like a unifor...

2020-02-28 13:52:58 118

原创《动手学深度学习》Task10-2:生成对抗网络

Generative Adversarial NetworksThroughout most of this book, we have talked about how to make predictions. In some form or another, we used deep neural networks learned mappings from data points to l...

2020-02-28 13:52:44 241

原创《动手学深度学习》Task10-1:图像分类案例2

Kaggle上的狗品种识别（ImageNet Dogs）在本节中，我们将解决Kaggle竞赛中的犬种识别挑战，比赛的网址是https://www.kaggle.com/c/dog-breed-identification 在这项比赛中，我们尝试确定120种不同的狗。该比赛中使用的数据集实际上是著名的ImageNet数据集的子集。# 在本节notebook中，使用后续设置的参数在完整训练集上训练...

2020-02-28 13:52:27 161

原创《动手学深度学习》Task09-3:图像分类案例1

Kaggle上的图像分类（CIFAR-10)现在，我们将运用在前面几节中学到的知识来参加Kaggle竞赛，该竞赛解决了CIFAR-10图像分类问题。比赛网址是https://www.kaggle.com/c/cifar-10# 本节的网络需要较长的训练时间# 可以在Kaggle访问：# https://www.kaggle.com/boyuai/boyu-d2l-image-classif...

2020-02-28 13:52:02 174

原创《动手学深度学习》Task09-2:图像风格迁移

样式迁移如果你是一位摄影爱好者，也许接触过滤镜。它能改变照片的颜色样式，从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式，经常需要尝试大量不同的组合，其复杂程度不亚于模型调参。在本节中，我们将介绍如何使用卷积神经网络自动将某图像中的样式应用在另一图像之上，即样式迁移（style transfer）[1]。这里我们需要两张输入图像，一张是内...

2020-02-28 13:51:42 317

原创《动手学深度学习》Task09-1:目标检测基础

9.3 目标检测和边界框%matplotlib inlinefrom PIL import Imageimport syssys.path.append('/home/kesci/input/')import d2lzh1981 as d2l# 展示用于目标检测的图d2l.set_figsize()img = Image.open('/home/kesci/input/img2...

2020-02-25 18:27:19 386

原创《动手学深度学习》Task08-3:模型微调

9.2 微调在前面的一些章节中，我们介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet，它有超过1,000万的图像和1,000类的物体。然而，我们平常接触到数据集的规模通常在这两者之间。假设我们想从图像中识别出不同种类的椅子，然后将购买链接推荐给用户。一种可能的方法是先找出100种常见的椅子，为每种椅子...

2020-02-25 18:18:17 418

原创《动手学深度学习》Task08-2:数据增强

图像增广在5.6节（深度卷积神经网络）里我们提到过，大规模数据集是成功应用深度神经网络的前提。图像增广（image augmentation）技术通过对训练图像做一系列随机改变，来产生相似但又不同的训练样本，从而扩大训练数据集的规模。图像增广的另一种解释是，随机改变训练样本可以降低模型对某些属性的依赖，从而提高模型的泛化能力。例如，我们可以对图像进行不同方式的裁剪，使感兴趣的物体出现在不同位置，...

2020-02-25 18:17:46 150

原创《动手学深度学习》Task08-1:文本分类

文本情感分类文本分类是自然语言处理的一个常见任务，它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题：使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析，并有着广泛的应用。同搜索近义词和类比词一样，文本分类也属于词嵌入的下游应用。在本节中，我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络，来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后续内...

2020-02-25 18:17:16 191

原创《动手学深度学习》Task06-3:词嵌入进阶

词嵌入进阶在“Word2Vec的实现”一节中，我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型，并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量，并能一定程度上地保存词与词之间的近似关系，但 Word2Vec 模型仍不是完美的，它还可以被进一步地改进：子词嵌入（subword embedding）：FastText 以固定大...

2020-02-25 18:16:29 159

原创《动手学深度学习》Task07-2:word2vec

词嵌入基础我们在“循环神经网络的从零开始实现”一节中使用 one-hot 向量表示单词，虽然它们构造起来很容易，但通常并不是一个好选择。一个主要的原因是，one-hot 词向量无法准确表达不同词之间的相似度，如我们常常使用的余弦相似度。Word2Vec 词嵌入工具的提出正是为了解决上面这个问题，它将每个词表示成一个定长的向量，并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类...

2020-02-25 18:15:58 146

原创《动手学深度学习》Task07-1:优化算法进阶

11.6 Momentum在 Section 11.4 中，我们提到，目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降（steepest descent）。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量。然而，如果自变量的迭代方向仅仅取决于自变量当前位置，这可能会带来一些问题。对于noisy gradient,我们需要谨慎...

2020-02-25 18:15:30 147 1

原创《动手学深度学习》Task06-3:梯度下降

梯度下降（Boyd & Vandenberghe, 2004）%matplotlib inlineimport numpy as npimport torchimport timefrom torch import nn, optimimport mathimport syssys.path.append('/home/kesci/input')import d2lzh...

2020-02-25 18:14:55 71

空空如也

空空如也