自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Task4 基于深度学习的文本分类1-fastText

文章目录Task4 基于深度学习的文本分类1-fastText本章学习内容本章学习作业Task4 基于深度学习的文本分类1-fastText本章学习内容Task4学习内容网址本章学习作业阅读FastText的文档,尝试修改参数,得到更好的分数预处理数据;更改时期数(使用选项-epoch,标准范围[5 - 50]);更改学习率(使用选项-lr,标准范围[0.1 - 1.0]);使用单词n-gram(使用option -wordNgrams,标准范围[1 - 5])。基于验证集的结果调整超

2020-07-27 23:13:36 124

原创 Task3 基于机器学习的文本分类

文章目录Task3 基于机器学习的文本分类本章学习内容本章作业Task3 基于机器学习的文本分类本章学习内容学习内容在此网页中https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.12.6406111aIKCSLV&postId=118254本章作业1.尝试改变TF-IDF的参数,并验证精度。改变参数ngram_range的值,(1,1)时候:f1_score为0.859;(1,3)时候:f1_scor

2020-07-25 23:54:43 106

原创 Task2 数据读取与数据分析

文章目录Task2 数据读取与数据分析本章学习内容本章作业Task2 数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。本章学习内容https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9qzgwFH&postId=118253本章作业1.假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个

2020-07-23 23:21:03 145 1

原创 NLP之新闻文本分类的赛题理解

文章目录赛题理解学习目标赛题数据数据标签评测指标数据读取解题思路赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。 赛题数据为新闻文本,并按

2020-07-21 23:17:03 413

原创 可汗学院:统计学第四次学习

统计学第四次学习线性回归在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。卡方分布若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标...

2019-08-11 22:28:20 317

原创 可汗学院:统计学第三次学习

统计学第三次学习假设检验假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。单侧检验和双侧检验单侧检验...

2019-08-09 21:06:27 462

原创 可汗学院:统计学第二次学习

统计学第二次学习中心极限定理:中心极限定理是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上...

2019-08-07 21:42:56 124

原创 可汗学院:统计学第一次学习

统计学第一次学习样本与总体:均值:mean 衡量集中趋势的方法。中位数:median 考虑集中趋势的另一种方式。众数:mode 也就是出现频率最高的数字。极差:range数字越大表示数据之间越分散、越小表示越紧密,用来衡量集中趋势。中程数:midrange 衡量集中趋势的另一种方式。标准差:标准差就是方差的开方,用σ表示。意义与方差一样,优点是直观。诸方差:诸方差是方差的简化,...

2019-08-05 21:59:06 168

原创 Python爬虫第四次任务

任务预览(2天)4.1实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。注:丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626我们可以通过查找<div class= “nav_account”>中的a元素,通过模拟点击这个按钮。login = browser.find_element_by_class_n...

2019-05-17 22:21:20 198

原创 Python爬虫第三次任务

任务预览(2天)3.1 安装selenium并学习3.1.1安装selenium并学习。3.1.2使用selenium模拟登陆163邮箱。注:163邮箱直通点:https://mail.163.com/ 。3.2 学习IP相关知识3.2.1学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。3.2.2抓取西刺代理,并构建自己的代理池。注:西刺直通点:https://www...

2019-05-15 21:02:25 136

原创 Python爬虫第二次任务

任务预览(两天)2.1 学习beautifulsoup1.学习beautifulsoup,并使用beautifulsoup提取内容。2.使用beautifulsoup提取丁香园论坛的回复内容。注:丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。2.2学习xpath1.学习xpath,使用lxml+xpath提取内容。2.使用xpa...

2019-05-13 00:25:39 223

原创 Python爬虫第一次任务

任务预览(2天)1. 学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。# 此代码是使用requests库向百度发出请求import requestsdef main(): HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT...

2019-05-11 15:11:42 295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除