自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (7)
  • 收藏
  • 关注

原创 贝叶斯算法(3)新闻分类任务实战:jieba中文分词、tfidf特征词提取、wordcloud词云展示、LDA主题建模、朴素贝叶斯算法分析预测

1 加载数据import pandas as pdimport jieba# 数据源:http://www.sogou.com/labs/resource/ca.phpval_path = '/Users/haiwangluo/Downloads/人工智能全套/自然语言处理(Python版)/第六章:贝叶斯算法-新闻分类任务/贝叶斯Python文本分析/Python文本分析/data/val.txt'df_news = pd.read_table(val_path,names=['categor

2020-06-10 09:26:08 1577 1

原创 贝叶斯算法(2)贝叶斯算法实现单词拼写检查器

1 思路分析求解:argmaxc P(c|w) -> argmaxc P(w|c) P© / P(w)P©, 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 wargmaxc, 用来枚举所有可能的 c 并且选取概率最大的编辑距离:两个词之间的编辑距离定义为使用了几次插入(在词中插入一个单字母), 删除(删除一个单字母), 交换(交换相邻两个字

2020-06-08 16:51:57 371

原创 贝叶斯算法(1)概述:贝叶斯算法原理、公式推导、贝叶斯常见应用实例:拼写纠正实例、垃圾邮件过滤、拼写检查器

1 贝叶斯要解决的问题1. 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把, 摸出黑球的概率是多大 (P = M/N)2. 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛 摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可 以就此对袋子里面的黑白球的比例作出什么样的推测2 Why贝叶斯?1. 现实世界本身就是不确定的,人类的观察能力是有局限性的 我们日常所观察到的只是事物表面上的结果,因此我们需要 提供一个猜测2.1 男生女生的概率推断问题已

2020-06-08 11:43:11 574

原创 Pandas工具包实战(16)apply函数操作:numpy, pandas,

0 定义函数来使用import pandas as pdimport numpy as nptitanic = pd.read_csv('titanic_train.csv')titanic.head() PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN

2020-06-06 11:03:49 581

原创 Pandas工具包实战(15)大数据处理技巧:dataframe,获取内存占用信息,降低对象的存储大小

大数据的读取与获取信息import pandas as pdgl = pd.read_csv('game_logs.csv')gl.head() date number_of_game day_of_week v_name v_league v_game_number...0 18710504 0 Thu CL1 na 1 ...1 18710505 0 Fri BS1 na 1 ...2 18710506 0 Sat CL1 na 2 ...3

2020-06-06 10:54:06 459

原创 Pandas工具包实战(14)pandas绘图操作:pandas画图,series, dataframe

0 导库%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt1 pandas画常见折线图s = pd.Series(np.random.randn(10),index = np.arange(0,100,10))s.plot()2 dataframe多列内容画折线图df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),

2020-06-05 22:57:58 789

原创 Pandas工具包实战(13)索引操作进阶:series, dataframe, bool布尔索引,select选择语句,where语句,query语句

import pandas as pdimport numpy as nps = pd.Series(np.arange(5),index = np.arange(5)[::-1],dtype='int64')s4 0 3 12 21 30 4dtype: int64 s.isin([1,3,4])4 False3 True2 False1 True0 Truedtype: bools[s.isin

2020-06-05 18:44:04 509

原创 Pandas 工具包实战(12)字符串操作:series, dataframe

1 字符串操作import pandas as pdimport numpy as nps = pd.Series(['A','b','B','gaer','AGER',np.nan])ss.str.lower() # 把所有字母都变成小写s.str.upper() # 把所有字母都变成大写s.str.len() # 返回每个数据元素的长度index = pd.Index([' tang',' yu ','di'])index # Index([' tang', '

2020-06-05 18:23:10 209

原创 Pandas工具包实战(11)groupby 操作的延伸:series, dataframe

groupby 操作import pandas as pdimport numpy as npdf = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B' : ['one', 'one', 'two', 'three', 'two', 'two',

2020-06-05 18:11:24 163

原创 Pandas工具包实战(10)pandas常用操作总结:series, dataframe, 排序、去重、映射、分组、统计、缺失值处理

1 常用操作:排序sort_values,去重drop_duplicatesimport pandas as pddata = pd.DataFrame({'group':['a','a','a','b','b','b','c','c','c'], 'data':[4,3,2,1,12,3,4,5,7]})# 排序data.sort_values(by=['group','data'],ascending = [False,True],inplace=Tru

2020-06-05 11:15:58 513

原创 Pandas工具包实战(9)时间操作与时间序列操作:datetime、timestamp, 互相转换

1 时间操作,datetime函数%matplotlib notebook # 画图的魔法指令import datetimedt = datetime.datetime(year=2017,month=11,day=24,hour=10,minute=30)dt # datetime.datetime(2017, 11, 24, 10, 30)print (dt) # 2017-11-24 10:30:002 pandas中的timestamp时间戳# to_datetime函数把字

2020-06-04 21:45:52 1557

原创 Pandas工具包实战(8)pivot数据透视表:series, dataframe

数据透视表import pandas as pdexample = pd.DataFrame({ 'Month': ["January", "January", "January", "January", "February", "February", "February", "February", "March", "March", "March", "March"], 'Category': ["Transportation",

2020-06-04 18:05:04 592

原创 Pandas 工具包实战(7)显示设置:series, dataframe, get_option、set_option、display.max_columns,显示设置

显示设置import pandas as pd1 设置最多显示行数pd.get_option('display.max_rows') # 60pd.set_option('display.max_rows',6)pd.Series(index = range(0,100))2 设置最多显示列数pd.get_option('display.max_columns') # 20pd.set_option('display.max_columns',30)pd.DataFrame(

2020-06-04 17:34:23 3324

原创 Pandas 工具包实战(6)merge 操作:series, dataframe,合并操作

merge操作import pandas as pdleft = pd.DataFrame({'key':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['B0','B1','B2','B3']})right = pd.DataFrame({'key':['K0','K1','K2','K3'], 'C':['C0',

2020-06-04 17:23:29 1256

原创 Pandas工具包实战(5)对象的操作:series, dataframe, 对象的增删改查

1 Series结构的增删改查import pandas as pddata = [10,11,12]index = ['a','b','c']s = pd.Series(data = data,index = index)# a 10# b 11# c 12# dtype: int642 查操作s[0] # 10s[0:2] mask = [True,False,True]s[mask]# a 10# c 12# dtype: in

2020-06-03 17:26:54 198

原创 Pandas工具包实战(4)数值运算操作:dataframe、二元统计

1 数值运算操作import pandas as pddf = pd.DataFrame([[1,2,3],[4,5,6]],index = ['a','b'],columns = ['A','B','C'])df# A B C# a 1 2 3# b 4 5 6df.sum() # 默认按行求和,每行对应元素纵向相加# A 5# B 7# C 9# dtype: int64df.sum(axis = 0) # 默认按行求和 # A 5# B

2020-06-03 12:58:48 262

原创 Pandas工具包实战(3)GroupBy操作:dataframe

1 pandas 中的 groupby操作import pandas as pdimport numpy as npdf = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]})# for key in ['A','B','C']:# print (key,df[df['key'] == key].sum())df

2020-06-03 12:44:12 151

原创 Pandas工具包实战(2)pandas索引:series, dataframe, Pandas索引结构、loc、iloc、bool布尔类型的索引

1 Pandas索引结构import pandas as pddf = pd.read_csv('./data/titanic.csv')df['Age'][:5]df[['Age','Fare']][:5]2 iloc 用position来去定位 (位置)df.iloc[0] # 选择第一行的数据df.iloc[0:5] # 选择前五行的数据df.iloc[0:5,1:3] # 选择前五行的前三列的数据3 loc 用label来去定位 (标签),与修改值df = df.s

2020-06-03 12:35:07 378

原创 Pandas工具包实战(1)pandas介绍:pandas基本处理、创建dataframe、取指定数据、series、指定索引重设索引、统计函数

1 Pandas:数据分析处理库import pandas as pddf = pd.read_csv('./data/titanic.csv')print (help(pd.read_csv))# .head()可以读取前几条数据,指定前几条都可以df.head()# .info返回当前的信息df.info()df.index # RangeIndex(start=0, stop=891, step=1)df.columns # Index(['PassengerId',...

2020-06-03 11:57:22 212

原创 NLP常用工具包实战 (5)jieba中文分词器:全模式/精确模式切分词、添加自定义词典、关键词抽取、词性标注、wordcloud词云展示

1 全模式/精确模式切分词import jiebaimport jieba.analyseimport jieba.posseg as psegseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("全模式: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("精确模式: " + "/ ".join(seg_list))

2020-06-01 20:16:51 1043

原创 NLP常用工具包实战 (4)spacy工具包:文本处理、词性、命名体识别、案例一(找出所有人物名字)、案例二(恐怖袭击文本资料分析)

导入工具包和英文模型# python -m spacy download en 用管理员身份打开CMDimport spacynlp = spacy.load('en')from spacy import displacyfrom collections import Counter, defaultdictimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns1 文本处理doc = nlp('W

2020-06-01 20:00:57 1288 2

原创 NLP常用工具包实战 (3)NLTK工具包:英文数据分词、Text对象、停用词、词性标注、命名实体识别、数据清洗实例

NLTK 非常实用的文本处理工具,主要用于英文数据,历史悠久~import nltk# nltk.download()# nltk.download('punkt')# nltk.download('stopwords')from nltk.tokenize import word_tokenizefrom nltk.text import Textfrom nltk.corpus import stopwordsfrom nltk import pos_tagfrom nltk.chun

2020-06-01 19:29:44 1113

原创 NLP常用工具包实战 (1) Python字符串处理:去掉空格或者特殊字符、替换操作、查找操作、判断操作、分割合并操作、帮助文档

1 去掉空格或者特殊字符input_str = ' 今天天气不错,今天挺风和日丽的 'print(input_str.strip()) # 今天天气不错,今天挺风和日丽的print(input_str.rstrip()) # 今天天气不错,今天挺风和日丽的print(input_str.lstrip()) # 今天天气不错,今天挺风和日丽的str2 = 'AAA今天天气不错,挺风和日丽的AAA'print(str2.strip('A')) # 今天天气不错,挺风和日丽的print(

2020-06-01 18:52:41 430

原创 第十九篇:机器学习基础:梯度下降法简单演示,python代码复现梯度下降原理

1 梯度下降 参数更新原理的简要展示import matplotlib.pyplot as pltimport numpy as np# 假设x_data和y_data都有10笔,分别代表宝可梦进化前后的cp值x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]# 这里采用最简单的linear model:y_data=b

2020-05-30 21:51:48 604

原创 第十八篇:机器学习基础知识复习总结:机器学习概念与介绍:监督学习、半监督学习、迁移学习、无监督学习、结构化学习、强化学习

Supervised Learning(监督学习)supervised learning 需要大量的training data,这些training data告诉我们说,一个我们要找的function,它的input和output之间有什么样的关系而这种function的output,通常被叫做label(标签),也就是说,我们要使用supervised learning这样一种技术,我们需要告诉机器,function的input和output分别是什么,而这种output通常是通过人工的方式标注出

2020-05-30 21:47:42 440

原创 第十三篇:机器学习基础:线性回归算法、正规方程、梯度下降、正则化、岭回归

1 线性回归简介1.1 线性回归应用场景- 房价预测、销售额度预测、贷款额度预测 1.2 什么是线性回归- 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归#### 通用公式:h(w) = w1x1 + w2x2+ w3x3+ ... +b = wTx + b, 其中:w, x 可以理解为矩阵: w = [b, w

2020-05-29 12:35:31 473

原创 第十二篇:机器学习基础:聚类算法 KMeans算法及kmeans原理代码的python实现

1 聚类算法简介聚类算法在现实中的应用- 用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别- 基于位置信息的商业推送,新闻聚类,筛选排序- 图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段聚类算法的概念- 聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。- 计算样本和样本之间的相似性:常用的相似度计算方法有欧式距离法。- 聚类算法与分类算法最大的区别:聚类算法是无监督的学习算法,而分类算法属于监督的

2020-05-29 11:49:23 1136 1

原创 第十一篇:机器学习基础:logistic逻辑斯蒂回归算法(输出是0或1的二分类算法!!!)

1 逻辑斯谛回归介绍- 逻辑斯谛回归(Logistic Regression)是机器学习中的一种分类模型,逻辑斯谛回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。- 应用场景:两个类别之间的判断。逻辑回归就是解决二分类问题的利器: * 广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号2 逻辑斯谛回归的原理- 输入:h(w) = w1x1 + w2x2 + w3x3 + ... + b = wTx * 逻辑回归的输入就是一个线性回归的

2020-05-29 11:30:09 2181

原创 第十篇:机器学习基础:SVM支持向量机算法模型原理

1. 支持向量机概述1.1 从算法的功能来划分 =================================================================== 有监督学习:线性二分类与多分类(linear support vector classification) :非线性二分类与多分类(support vector classification,SVC) :普通连续型变量的回归(support vector r

2020-05-29 10:57:07 530

原创 第九篇:机器学习基础:集成学习算法与SVM支持向量机的代码实操及调参

导入相应的标准库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA from sklearn.svm import SVC from sklearn.m

2020-05-29 10:47:00 1328

原创 第八篇:机器学习基础:集成学习算法:随机森林、Adaboost、 XGBoost

1 集成学习1.1。何为集成方法? 集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。 最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。 集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。1.2。组合弱学习器:很重要的一点是:我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。 如果我们选择具有低偏

2020-05-29 10:27:41 1178

原创 第七篇:机器学习基础之分类算法:决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取(字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取)

1 决策树算法简介- 决策树定义:是一种树形结构,本质是一颗由多个判断节点组成的树。- 决策树算法api: * class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)2 决策树分类原理2.1 熵:- 物理学上,熵 Entropy 是“混乱”程度的量度: 系统越有序,熵值越低;系统越混乱或者分散,熵值越高。- 信息熵(Entropy): * 从信息的

2020-05-29 10:16:20 426

原创 第六篇:机器学习基础:机器学习应用的框架梳理:数据集导入与划分、特征工程数据预处理、常见分类算法、Pipeline和GridSearchCV、模型评估测试与模型性能评价、模型保存与加载

1 导入数据与划分数据集1.1。导入数据:使用 pandas.read_csv(‘https://…’, header=‘infer’, index_col=None)1.2。随机抽样:DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source] n=3:提取3行数据列表 frac=0.8: 抽取其中80% r

2020-05-29 10:01:46 963 1

原创 第五篇:机器学习基础之分类算法:朴素贝叶斯算法、朴素贝叶斯算法流程、文本分类的例子、朴素贝叶斯算法代码原理实现及测试、朴素贝叶斯算法应用实战

1 概率基础回顾1。概率的定义:一件事情发生的可能性, P(X) 取值范围为[0,1]2。联合概率:包含多个条件,且所有条件同时成立的概率:P(A, B)3。条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率:P(A|B),P(A,C|B)4。相互独立:P(A, B) = P(A)P(B) <=> 事件A与事件B相互独立2 朴素贝叶斯算法2.1。朴素?假设:特征与特征之间是相互独立 !!!2.2。贝叶斯公式:P(C|W) = P(W|C)P© / P(W) 注:W 为

2020-05-29 09:40:42 898 1

原创 第四篇:机器学习基础之分类算法:K近邻knn算法原理、算法步骤、api、相关参数、KNN算法原理代码的实现及测试、实际应用及调参

1 KNN 算法原理1.1。k-近邻(k-Nearest Neighbour,简称KNN),常用于有监督学习。1.2。核心思想:根据你的’邻居’来推断你的类别 * 整个计算过程分为三步: A.计算待分类物体与其他物体之间的距离; B.统计距离最近的 K 个邻居; C.对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类1.3。定义:如果一个样本 x 在特征空间中的 K 个最相似的(即特征空间中最邻近)的样本大多属于类别A, 则该

2020-05-29 09:23:46 333

原创 第三篇:机器学习基础 Matplotlib:中文显示问题处理、常见图形、折线图(单画板单坐标系多图、单画板多坐标系多图)、案例:绘制交通流量折线图

导入模块库import matplotlib.pyplot as pltimport random中文显示问题显示中文字体:matplotlib显示中文 https://www.cnblogs.com/hhh5460/p/4323985.html常见图形及意义1。折线图(plot):显示数据变化趋势,反映事务的变化情况。(变化)2。散点图(scatter):判断变量之间是否存在数量关联趋势,展示离群点。(分布规律)3。柱状图(bar):绘制离散性的数据,可直观看出各个数据的大小,比较数据

2020-05-28 23:53:07 276

原创 第二篇:机器学习基础 Pandas:Series 与 DataFrame 与数据常见操作、列操作、统计函数、排序、shift、rolling、groupby、merge、去重、交叉&透视表、缺失值处理

0 本文学习来源:参考文献1: https://www.cnblogs.com/weidu/p/9831807.html1 为什么使用Pandas1. 增强图表可读性2. 便捷的数据处理能力3. 读取文件方便4. 封装了Matplotlib、Numpy的画图和计算2 Pandas数据结构1。Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。2。其中Series是一维数据结构,DataFrame是二维的表格型数据

2020-05-28 23:40:21 1407 1

原创 第一篇:机器学习基础 Numpy: ndarray、数组的基本操作、生成随机数组、数组的索引与切片、ndarray的运算

1 numpy优势用于快速处理任意维度的数组:numpy使用ndarray对象来处理多维数组numpy支持常见的数据和矩阵操作2 ndarray的属性、ndarray的形状、ndarray的类型import numpy as npimport matplotlib.pyplot as plt# ndarray的属性、ndarray的形状、ndarray的类型def simple_numpy(): score = np.array( [[80, 89, 86, 6

2020-05-28 22:42:06 780 1

rand-terrorism-dataset.txt

nlp常用工具包实战(4)spacy工具包,第五点,即第二个案例分析所用资源 111111111 vhbjnkl,/,nbvcx

2020-06-01

pride_and_prejudice.txt

nlp常用工具包实战(4)spacy工具包 的第四小点,找到所有人物名字。原资源 dfghjklkjhcxvzzvbnm,./lkjnbv

2020-06-01

清华大学-学堂在线-大数据机器学习课件笔记.zip

清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM、降维与度量学习、提升方法 adaboost 算法、EM 算法及混合高斯模型、计算学习理论、隐马尔可夫模型和概率图模型、条件随机场、概率图模型的学习与推断、神经网络与深度学习、深度学习正则化方法、深度学习优化方法等。

2020-05-29

清华大学—学堂在线—高级大数据系统课件笔记.zip

清华大学 学堂在线,高级大数据系统课件笔记:讲解内容:大数据系统导论、linux 数据处理基础、分布式文件系统、map reduce、内存化的数据处理、流数据处理、NoSQL、图处理、机器学习系统等。

2020-05-29

机器学习课程英文课件及笔记.zip

机器学习课程英文讲义文件及学习笔记,讲解机器学习入门知识,常见机器学习算法模型,深度学习模型,以及相应的案例实战。

2020-05-29

Python深度学习之神经网络资料.zip

深度学习与神经网络入门基础教程:深度学习介绍、tensorflow框架介绍、数据读取、神经网络基础、卷积神经网络的原理、设计网络哟解决问题。

2020-05-28

Python3天快速入门机器学习项目资料.zip

机器学习3天快速基础入门教程:机器学习概述、特征工程、knn、朴素贝叶斯、决策树、随机森林、线性回归、非线性回归、逻辑斯蒂回归、k-means聚类算法

2020-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除