自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 西瓜书第一章

基本概念概览 机器学习的目标是使学得的模型能很好地适用于"新样本",而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本 样本空间的计算:20个属性,10条示例,样本空间为10^20 阅读材料: 第一本机器学习专门性教材:Mitchell, T. (1997). Machine Learning. Mc Graw Hill, New York, NY 出色的入门读物:Duda,R.O.,P.E.Hart,and D.G.Stork.(20

2021-08-17 22:23:47 170

原创 Datawhale 5 月组队学习笔记(五):异常值检测

基础知识

2021-05-11 22:53:51 101

原创 Datawhale 1月组队学习笔记(五): 数据分析Task5,作者信息关联

1. 任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 2. 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 3. 社交网络分析 图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如

2021-01-25 22:13:01 116

原创 Datawhale 1月组队学习笔记(四): 数据分析Task4,使用论文标题完成类别分类

任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 1.导入相关包 import seaborn as sns #用于画图 from bs4 import BeautifulSoup #用于爬取arxiv的数据 import re #用于正则表达式,匹配字符串的模式 import requests #用于网络连接,发送网络请求,使用域名获取对应信息 import json #读取数据

2021-01-22 22:22:27 118

原创 Datawhale 1月组队学习笔记(三): 数据分析Task3

1.导入相关包

2021-01-19 22:40:04 86

原创 2021-01-16

任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 读取数据 由于数据过大,为方便运行,仍只读入100行 from bs4 import BeautifulSoup import re import requests import json import pandas as pd import matplotlib.pyplot as plt with ope

2021-01-16 22:27:26 58

原创 Datawhale 12月组队学习笔记(一): 数据分析Task1

准备 seaborn(画图)、BeautifulSoup(爬取arxiv)、re(正则表达式)、requests(网络连接)、json(读json格式的数据)、pandas、matplotlib.pyplot(画图) import seaborn as sns from bs4 import BeautifulSoup import re import requests import json import pandas as pd import matplotlib.pyplot as p.

2021-01-14 18:19:51 93

原创 Datawhale 12 月组队学习笔记(十一):pandas综合练习

练习四: import pandas as pd df = pd.read_table("benchmark.txt",header=None) pat1 = 'Benchmarking (\w+)(\w+) precision type (\w+)' pat2 = '(\w+) model average (\w+) time : (.+)ms' bench_info=df[0].str.extract(pat1).rename(columns={0:'type_x', 1:'precision', 2:

2021-01-13 23:48:26 78

原创 Datawhale 12 月组队学习笔记(十):pandas时间序列

思维导图更新

2021-01-10 23:56:04 51

原创 Datawhale 12 月组队学习笔记(九):pandas分类数据

思维导图更新

2021-01-07 22:23:43 89

原创 Datawhale 12 月组队学习笔记(九):pandas正则化

思维导图更新

2021-01-06 22:39:35 220

原创 Datawhale 12 月组队学习笔记(八):pandas缺失值

思维导图更新

2021-01-03 21:58:08 57

原创 Datawhale 12 月组队学习笔记(七):pandas综合练习

思维导图整理 练习一:企业收入的多样性 import pandas as pd import numpy as np df1 = pd.read_csv('company.csv') df2 = pd.read_csv('company_data.csv') print(df1.head()) print(df2.head()) print(df1['证券代码'].sort_values().unique())# 排序查看df1证券代码 print(df2['证券代码'].sort_values().

2021-01-01 23:34:50 184

原创 Datawhale 12 月组队学习笔记(六):pandas连接

pandas思维导图扩充

2020-12-29 23:39:36 72

原创 Datawhale 12 月组队学习笔记(五):pandas变形

pandas思维导图扩充 练习 一、现有一份关于美国非法药物的数据集,其中 SubstanceName, DrugReports 分别指药物名称和报告数量: 将数据转为如下的形式: import numpy as np import pandas as pd df = pd.read_csv('data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True) print(df.head(3)) d

2020-12-27 22:28:30 120

原创 Datawhale 12 月组队学习笔记(四):pandas分组

pandas 逻辑图补充

2020-12-25 19:39:34 71

原创 Datawhale 12 月组队学习笔记(三):pandas索引

思维导图更新

2020-12-22 23:20:46 114

原创 Datawhale 12 月组队学习笔记(二):pandas常用基本函数

pandas思维导图扩充: 作业: import pandas as pd import numpy as np df = pd.read_csv('data/pokemon (2).csv') print((df[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']].sum(1) != df['Total']).mean()) # 0.0 对于 # 重复的妖怪只保留第一条记录,解决以下问题: dp_dup = df.drop_d

2020-12-19 21:13:04 150 1

原创 Datawhale 12 月组队学习笔记(一):预备知识

numpy思维导图补充 pandas基础知识导图

2020-12-16 21:32:04 78

原创 Datawhale 11 月组队学习笔记(五):大作业

大作业 导入鸢尾花数据 import numpy as np import pandas as pd from pandas import plotting import matplotlib.pyplot as plt plt.style.use('seaborn') import seaborn as sns sns.set_style("whitegrid") from sklearn.linear_model import LogisticRegression from sklearn.m

2020-12-01 22:38:19 101

原创 Datawhale 11 月组队学习笔记(四):线性代数

线性代数 练习 计算数组a和数组b之间的欧氏距离 import numpy as np a = np.array([1, 2, 3, 4, 5]) b = np.array([4, 5, 6, 7, 8]) d = np.linalg.norm(a - b) print(d) #6.708203932499369 给定矩阵A和数组吧,求解线性方程组: import numpy as np a = np.array([[1, -2, 1], [0, 2, -8], [-4, 5, 9]]) b =

2020-11-29 14:50:17 93

原创 Datawhale 11 月组队学习笔记(三):统计相关

统计相关 习题 计算给定数组中每行的最大值 import numpy as np np.random.seed(100) a = np.random.randint(1, 10, [5, 3]) print(a) print('每行最大值为:') print(np.amax(a, axis=1)) # [[9 9 4] [8 8 1] [5 3 6] [3 3 3] [2 1 9]] 每行最大值为: [9 8 6 3 9] 计算数组的元素最大值与最小值之差(极值) import numpy as

2020-11-27 23:35:35 102

原创 Datawhale 11 月组队学习笔记(二):随机抽样

随机抽样 二项分布(binomial) 野外正在进行9(n=9)口石油勘探井的发掘工作,每一口井能够开发出油的概率是0.1(p=0.1)。请问,最终所有的勘探井都勘探失败的概率? np.random.seed(20201124) n = 9 p = 0.1 size = 50000 x = np.random.binomial(n, p, size) print(np.sum(x == 0) / size) # 0.3897 plt.hist(x) plt.show() s = stats.binom.pm

2020-11-25 23:02:54 189

原创 Datawhale 11 月组队学习笔记(一):输入与输出

Datawhale 11 月组队学习笔记( 不同类型文件的输入和输出 练习 # 只打印或显示numpy数组rand_arr的小数点后3位 import numpy as np np.set_printoptions(precision=3) rand_arr = np.random.random([5, 3]) print(rand_arr) # [[0.849 0.47 0.37 ] [0.842 0.728 0.06 ] [0.286 0.905 0.926] [0.283 0.443 0.8

2020-11-23 21:52:08 99 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除