- 博客(15)
- 收藏
- 关注
原创 机器学习-线性回归
线性回归作为机器学习入门时候所学习的第一门课,结构简单,原理清晰。因此往往容易被学习者所忽视,其实线性回归虽然简单,但是确实一套具有很高的实战价值的算法,在很多的现实场景中有着非常广泛的应用。线性回归的原理线性回归总结起来就是两个字:拟合,也就是通过调整直线方程的参数,使得所作直线拟合数据集点,从而达到趋近于理论点的过程。...
2021-12-15 22:21:04 2196
原创 深度学习介绍
深度学习深度学习和机器学习一样有三个step,深度学习的单个步骤分别是:Step1:神经网络(Neural network)Step2:模型评估(Goodness of function)Step3:选择最优函数(Pick best function)Step1:神经网络神经网络(Neural network)里面的节点,类似我们的神经元。神经网络也可以有很多不同的连接方式,这样就会产生不同的结构(structure)在这个神经网络里面,我们有很多逻辑回归函数,其中每个逻辑回归都有自己
2021-07-18 23:57:16 175
原创 深度学习-误差和梯度下降
深度学习-误差和梯度下降1.关于Error1.1 偏差和方差什么是偏差和方差:偏差和方差的区别如下图所示,在简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gAG9arZ7-1626346348640)(C:\Users\XP_Fan\Desktop\chapter5-12.png)]1.2 如何进行分析[外链图片转存失败,源站可能有防盗链机制,
2021-07-17 01:02:04 590
原创 深度学习-回归
回归1.回归定义Regression 就是找到一个函数 function ,通过输入特征 xx,输出一个数值 Scalar。应用举例股市预测(Stock market forecast)输入:过去10年股票的变动、新闻咨询、公司并购咨询等输出:预测股市明天的平均值自动驾驶(Self-driving Car)输入:无人车上的各个sensor的数据,例如路况、测出的车距等输出:方向盘的角度商品推荐(Recommendation)输入:商品A的特性,商品B的特性输出:购买商品B的可能性P
2021-07-15 01:19:59 4497 1
原创 深度学习-初介绍
前言随着社会的发展,对生产资料的需求量变得更大,同时对集体的组织能力要求越来越高,为了满足对这些需求的供应,对一些重复性机械化的生产我们可以通过工业机器去生产,但是机器和人最大的一个区别就是人有学习的能力,并通过不断的学习在现有的基础上创造出之前不存在的东西,而机器只能在人类限定的规则下进行运作。这个时候人们就想能否通过某种方式去实现让机器和人一样自主学习呢。这个就是所谓的人工智慧Artificial Intelligence。我们可以简单的将深度学习理解为一个在不断进化的黑盒子,在一端我们输入一些数
2021-07-13 00:17:11 65
原创 爬虫入门与综合应用
爬虫入门与综合应用DataWhale-Python办公自动化组队学习task5信息时代,缺失的不是信息,而是在这繁杂的信息当中如何高效迅速的获取到自己想要的信息,这个时候通过爬虫技术就能很好解决实际操作过程中的问题。1.ResquestsRequests是一款目前非常流行的http请求库,能够非常方便的对网页Requests进行爬取,可以通过pip install requests命令进行安装。requests库主要包含以下几个函数:re.status_code 响应的HTTP状态码re.tex
2021-06-27 00:09:04 57
原创 Python自动化与PDF
Python自动化与PDF1.相关准备Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber。其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件,而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格。win+r 后输入 cmd 打开 command 窗口,依次输入pip install PyPDF2和pip install pdfplumber进行Python库的安装。2.批量拆分导入相关的库from PyPDF2 i
2021-06-23 23:43:35 96
原创 Python自动化与Word
Python自动化与Word在Python中可以使用 python-docx 库进行word文档的相关处理,使用pip install python-docx进行安装。1.Python-docx相关介绍在Word文档中页面结构主要包括:文档Document,段落Paragraph,文字段Run。python-docx将整个文档看成是一个Document对象,其基本结构包含:每个**Document包含许多个代表“段落”的Paragraph对象,存放在document.paragraphs**中
2021-06-21 00:04:44 84
原创 Python自动化与Excel
Python自动化与Excel在日常工作中,excel的使用非常频繁,但是很多的excel表格数据格式混乱,excel处理大型数据时比较慢,这个是时候使用Python进行excel表格的处理非常的高效便捷。Python中的openpyxl模块可以很好的满足这些需求。在终端中使用pip install openpyxl进行模块的安装。1. excel表格的读取1.1 读取对应表格from openpyxl import load_workbook # 加载模块exl = load_workbook(
2021-06-19 01:06:03 96
原创 Datawhale-OfficeAutomation文件读取及操作
1读写文件1.1文件和文件路径在windows上,路径书写是使用倒斜杠’‘作为文件夹之间的分隔符,而在OS X和Linux上,是使用正斜杠’/'作为它们的路径分隔符。用os.path.join()函数创建文件名称字符串import osos.pathway.join('Datawhale','docu')1.2 获取工作目录读取电脑当中的文件时,需要在确保文件在当前的工作路径中,否则会因为查找不到文件和报错,在Python中使用os.getcwd()函数来回去当前工作路径的字符串,并通过os.
2021-06-16 23:03:42 106
原创 Datawhale 零基础入门数据挖掘- 模型融合
Task 5: 模型融合1 学习目标学习融合策略完成相应学习打卡任务2 内容介绍https://mlwave.com/kaggle-ensembling-guide/https://github.com/MLWave/Kaggle-Ensemble-Guide模型融合对于比赛结果的提升是比较明显的,主要包括以下这几种类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综
2021-03-29 00:11:13 75
原创 Datawhale 零基础入门数据挖掘- 建模与调参
Task4 建模与调参此部分为零基础入门数据挖掘之心电图分类的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 心电图分类预测项目地址:比赛地址:4.1 学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2 内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于baggi
2021-03-25 17:47:47 120
原创 Datawhale 零基础入门数据挖掘- 特征工程
Task3 特征工程此部分为零基础入门数据挖掘-心跳信号分类预测的 Task3 特征工程部分,带你来了解时间序列特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘-心跳信号分类预测项目地址:比赛地址:3.1 学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用3.2 内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh
2021-03-22 22:44:47 83 1
原创 Datawhale 零基础入门数据挖掘- 数据分析
Task 2 数据分析Tip: 此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家后续多多交流。赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让
2021-03-19 13:01:37 269
原创 Datawhale 零基础入门数据挖掘- 赛题理解
Datawhale 零基础入门数据挖掘-Task1 赛题理解Task1赛题理解Tip:本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门心电图心跳信号多分类预测挑战赛。2016年6月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和
2021-03-16 17:41:27 111
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人