太阳不热-CSDN博客

原创贝叶斯算法（3）新闻分类任务实战：jieba中文分词、tfidf特征词提取、wordcloud词云展示、LDA主题建模、朴素贝叶斯算法分析预测

1 加载数据import pandas as pdimport jieba# 数据源：http://www.sogou.com/labs/resource/ca.phpval_path = '/Users/haiwangluo/Downloads/人工智能全套/自然语言处理(Python版)/第六章：贝叶斯算法-新闻分类任务/贝叶斯Python文本分析/Python文本分析/data/val.txt'df_news = pd.read_table(val_path,names=['categor

2020-06-10 09:26:08 1577 1

原创贝叶斯算法（2）贝叶斯算法实现单词拼写检查器

1 思路分析求解：argmaxc P(c|w) -> argmaxc P(w|c) P© / P(w)P©, 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 wargmaxc, 用来枚举所有可能的 c 并且选取概率最大的编辑距离:两个词之间的编辑距离定义为使用了几次插入(在词中插入一个单字母), 删除(删除一个单字母), 交换(交换相邻两个字

2020-06-08 16:51:57 371

原创贝叶斯算法（1）概述：贝叶斯算法原理、公式推导、贝叶斯常见应用实例：拼写纠正实例、垃圾邮件过滤、拼写检查器

1 贝叶斯要解决的问题1. 正向概率:假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大（P = M/N）2. 逆向概率:如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个(或好几个)球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测2 Why贝叶斯?1. 现实世界本身就是不确定的，人类的观察能力是有局限性的我们日常所观察到的只是事物表面上的结果，因此我们需要提供一个猜测2.1 男生女生的概率推断问题已

2020-06-08 11:43:11 574

原创 Pandas工具包实战（16）apply函数操作：numpy, pandas,

0 定义函数来使用import pandas as pdimport numpy as nptitanic = pd.read_csv('titanic_train.csv')titanic.head() PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN

2020-06-06 11:03:49 581

原创 Pandas工具包实战（15）大数据处理技巧：dataframe，获取内存占用信息，降低对象的存储大小

大数据的读取与获取信息import pandas as pdgl = pd.read_csv('game_logs.csv')gl.head() date number_of_game day_of_week v_name v_league v_game_number...0 18710504 0 Thu CL1 na 1 ...1 18710505 0 Fri BS1 na 1 ...2 18710506 0 Sat CL1 na 2 ...3

2020-06-06 10:54:06 459

原创 Pandas工具包实战（14）pandas绘图操作：pandas画图，series, dataframe

0 导库%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt1 pandas画常见折线图s = pd.Series(np.random.randn(10),index = np.arange(0,100,10))s.plot()2 dataframe多列内容画折线图df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),

2020-06-05 22:57:58 789

原创 Pandas工具包实战（13）索引操作进阶：series, dataframe， bool布尔索引，select选择语句，where语句，query语句

import pandas as pdimport numpy as nps = pd.Series(np.arange(5),index = np.arange(5)[::-1],dtype='int64')s4 0 3 12 21 30 4dtype: int64 s.isin([1,3,4])4 False3 True2 False1 True0 Truedtype: bools[s.isin

2020-06-05 18:44:04 509

原创 Pandas 工具包实战（12）字符串操作：series, dataframe

1 字符串操作import pandas as pdimport numpy as nps = pd.Series(['A','b','B','gaer','AGER',np.nan])ss.str.lower() # 把所有字母都变成小写s.str.upper() # 把所有字母都变成大写s.str.len() # 返回每个数据元素的长度index = pd.Index([' tang',' yu ','di'])index # Index([' tang', '

2020-06-05 18:23:10 209

原创 Pandas工具包实战（11）groupby 操作的延伸：series, dataframe

groupby 操作import pandas as pdimport numpy as npdf = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B' : ['one', 'one', 'two', 'three', 'two', 'two',

2020-06-05 18:11:24 163

原创 Pandas工具包实战（10）pandas常用操作总结：series, dataframe, 排序、去重、映射、分组、统计、缺失值处理

1 常用操作：排序sort_values，去重drop_duplicatesimport pandas as pddata = pd.DataFrame({'group':['a','a','a','b','b','b','c','c','c'], 'data':[4,3,2,1,12,3,4,5,7]})# 排序data.sort_values(by=['group','data'],ascending = [False,True],inplace=Tru

2020-06-05 11:15:58 513

原创 Pandas工具包实战（9）时间操作与时间序列操作：datetime、timestamp, 互相转换

1 时间操作，datetime函数%matplotlib notebook # 画图的魔法指令import datetimedt = datetime.datetime(year=2017,month=11,day=24,hour=10,minute=30)dt # datetime.datetime(2017, 11, 24, 10, 30)print (dt) # 2017-11-24 10:30:002 pandas中的timestamp时间戳# to_datetime函数把字

2020-06-04 21:45:52 1557

原创 Pandas工具包实战（8）pivot数据透视表：series, dataframe

数据透视表import pandas as pdexample = pd.DataFrame({ 'Month': ["January", "January", "January", "January", "February", "February", "February", "February", "March", "March", "March", "March"], 'Category': ["Transportation",

2020-06-04 18:05:04 592

原创 Pandas 工具包实战（7）显示设置：series, dataframe, get_option、set_option、display.max_columns，显示设置

显示设置import pandas as pd1 设置最多显示行数pd.get_option('display.max_rows') # 60pd.set_option('display.max_rows',6)pd.Series(index = range(0,100))2 设置最多显示列数pd.get_option('display.max_columns') # 20pd.set_option('display.max_columns',30)pd.DataFrame(

2020-06-04 17:34:23 3324

原创 Pandas 工具包实战（6）merge 操作：series, dataframe，合并操作

merge操作import pandas as pdleft = pd.DataFrame({'key':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['B0','B1','B2','B3']})right = pd.DataFrame({'key':['K0','K1','K2','K3'], 'C':['C0',

2020-06-04 17:23:29 1256

原创 Pandas工具包实战（5）对象的操作：series, dataframe, 对象的增删改查

1 Series结构的增删改查import pandas as pddata = [10,11,12]index = ['a','b','c']s = pd.Series(data = data,index = index)# a 10# b 11# c 12# dtype: int642 查操作s[0] # 10s[0:2] mask = [True,False,True]s[mask]# a 10# c 12# dtype: in

2020-06-03 17:26:54 198

原创 Pandas工具包实战（4）数值运算操作：dataframe、二元统计

1 数值运算操作import pandas as pddf = pd.DataFrame([[1,2,3],[4,5,6]],index = ['a','b'],columns = ['A','B','C'])df# A B C# a 1 2 3# b 4 5 6df.sum() # 默认按行求和，每行对应元素纵向相加# A 5# B 7# C 9# dtype: int64df.sum(axis = 0) # 默认按行求和 # A 5# B

2020-06-03 12:58:48 262

原创 Pandas工具包实战（3）GroupBy操作：dataframe

1 pandas 中的 groupby操作import pandas as pdimport numpy as npdf = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]})# for key in ['A','B','C']:# print (key,df[df['key'] == key].sum())df

2020-06-03 12:44:12 151

原创 Pandas工具包实战（2）pandas索引：series, dataframe, Pandas索引结构、loc、iloc、bool布尔类型的索引

1 Pandas索引结构import pandas as pddf = pd.read_csv('./data/titanic.csv')df['Age'][:5]df[['Age','Fare']][:5]2 iloc 用position来去定位（位置）df.iloc[0] # 选择第一行的数据df.iloc[0:5] # 选择前五行的数据df.iloc[0:5,1:3] # 选择前五行的前三列的数据3 loc 用label来去定位（标签），与修改值df = df.s

2020-06-03 12:35:07 378

原创 Pandas工具包实战（1）pandas介绍：pandas基本处理、创建dataframe、取指定数据、series、指定索引重设索引、统计函数

1 Pandas:数据分析处理库import pandas as pddf = pd.read_csv('./data/titanic.csv')print (help(pd.read_csv))# .head()可以读取前几条数据,指定前几条都可以df.head()# .info返回当前的信息df.info()df.index # RangeIndex(start=0, stop=891, step=1)df.columns # Index(['PassengerId',...

2020-06-03 11:57:22 212

原创 NLP常用工具包实战（5）jieba中文分词器：全模式/精确模式切分词、添加自定义词典、关键词抽取、词性标注、wordcloud词云展示

1 全模式/精确模式切分词import jiebaimport jieba.analyseimport jieba.posseg as psegseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("全模式: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("精确模式: " + "/ ".join(seg_list))

2020-06-01 20:16:51 1043

原创 NLP常用工具包实战（4）spacy工具包：文本处理、词性、命名体识别、案例一（找出所有人物名字）、案例二（恐怖袭击文本资料分析）

导入工具包和英文模型# python -m spacy download en 用管理员身份打开CMDimport spacynlp = spacy.load('en')from spacy import displacyfrom collections import Counter, defaultdictimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns1 文本处理doc = nlp('W

2020-06-01 20:00:57 1288 2

原创 NLP常用工具包实战（3）NLTK工具包：英文数据分词、Text对象、停用词、词性标注、命名实体识别、数据清洗实例

NLTK 非常实用的文本处理工具，主要用于英文数据，历史悠久~import nltk# nltk.download()# nltk.download('punkt')# nltk.download('stopwords')from nltk.tokenize import word_tokenizefrom nltk.text import Textfrom nltk.corpus import stopwordsfrom nltk import pos_tagfrom nltk.chun

2020-06-01 19:29:44 1113

原创 NLP常用工具包实战（1） Python字符串处理：去掉空格或者特殊字符、替换操作、查找操作、判断操作、分割合并操作、帮助文档

1 去掉空格或者特殊字符input_str = ' 今天天气不错，今天挺风和日丽的 'print(input_str.strip()) # 今天天气不错，今天挺风和日丽的print(input_str.rstrip()) # 今天天气不错，今天挺风和日丽的print(input_str.lstrip()) # 今天天气不错，今天挺风和日丽的str2 = 'AAA今天天气不错，挺风和日丽的AAA'print(str2.strip('A')) # 今天天气不错，挺风和日丽的print(

2020-06-01 18:52:41 430

原创第十九篇：机器学习基础：梯度下降法简单演示，python代码复现梯度下降原理

1 梯度下降参数更新原理的简要展示import matplotlib.pyplot as pltimport numpy as np# 假设x_data和y_data都有10笔，分别代表宝可梦进化前后的cp值x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]# 这里采用最简单的linear model：y_data=b

2020-05-30 21:51:48 604

原创第十八篇：机器学习基础知识复习总结：机器学习概念与介绍：监督学习、半监督学习、迁移学习、无监督学习、结构化学习、强化学习

Supervised Learning(监督学习)supervised learning 需要大量的training data，这些training data告诉我们说，一个我们要找的function，它的input和output之间有什么样的关系而这种function的output，通常被叫做label(标签)，也就是说，我们要使用supervised learning这样一种技术，我们需要告诉机器，function的input和output分别是什么，而这种output通常是通过人工的方式标注出

2020-05-30 21:47:42 440

原创第十三篇：机器学习基础：线性回归算法、正规方程、梯度下降、正则化、岭回归

1 线性回归简介1.1 线性回归应用场景- 房价预测、销售额度预测、贷款额度预测 1.2 什么是线性回归- 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归#### 通用公式：h(w) = w1x1 + w2x2+ w3x3+ ... +b = wTx + b, 其中：w, x 可以理解为矩阵: w = [b, w

2020-05-29 12:35:31 473

原创第十二篇：机器学习基础：聚类算法 KMeans算法及kmeans原理代码的python实现

1 聚类算法简介聚类算法在现实中的应用- 用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别- 基于位置信息的商业推送，新闻聚类，筛选排序- 图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段聚类算法的概念- 聚类算法：一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。- 计算样本和样本之间的相似性：常用的相似度计算方法有欧式距离法。- 聚类算法与分类算法最大的区别：聚类算法是无监督的学习算法，而分类算法属于监督的

2020-05-29 11:49:23 1136 1

原创第十一篇：机器学习基础：logistic逻辑斯蒂回归算法（输出是0或1的二分类算法！！！）

1 逻辑斯谛回归介绍- 逻辑斯谛回归（Logistic Regression）是机器学习中的一种分类模型，逻辑斯谛回归是一种分类算法，虽然名字中带有回归。由于算法的简单和高效，在实际中应用非常广泛。- 应用场景：两个类别之间的判断。逻辑回归就是解决二分类问题的利器: * 广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号2 逻辑斯谛回归的原理- 输入：h(w) = w1x1 + w2x2 + w3x3 + ... + b = wTx * 逻辑回归的输入就是一个线性回归的

2020-05-29 11:30:09 2181

原创第十篇：机器学习基础：SVM支持向量机算法模型原理

1. 支持向量机概述1.1 从算法的功能来划分 =================================================================== 有监督学习：线性二分类与多分类（linear support vector classification）：非线性二分类与多分类（support vector classification，SVC）：普通连续型变量的回归（support vector r

2020-05-29 10:57:07 530

原创第九篇：机器学习基础：集成学习算法与SVM支持向量机的代码实操及调参

导入相应的标准库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA from sklearn.svm import SVC from sklearn.m

2020-05-29 10:47:00 1328

原创第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

1 集成学习1.1。何为集成方法？集成学习是一种机器学习范式。在集成学习中，我们会训练多个模型（通常称为「弱学习器」）解决相同的问题，并将它们结合起来以获得更好的结果。最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来，从而创建一个「强学习器」（或「集成模型」），从而获得更好的性能。1.2。组合弱学习器：很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。如果我们选择具有低偏

2020-05-29 10:27:41 1178

原创第七篇：机器学习基础之分类算法：决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取（字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取）

1 决策树算法简介- 决策树定义：是一种树形结构，本质是一颗由多个判断节点组成的树。- 决策树算法api： * class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)2 决策树分类原理2.1 熵:- 物理学上，熵 Entropy 是“混乱”程度的量度: 系统越有序，熵值越低；系统越混乱或者分散，熵值越高。- 信息熵（Entropy）: * 从信息的

2020-05-29 10:16:20 426

原创第六篇：机器学习基础：机器学习应用的框架梳理：数据集导入与划分、特征工程数据预处理、常见分类算法、Pipeline和GridSearchCV、模型评估测试与模型性能评价、模型保存与加载

1 导入数据与划分数据集1.1。导入数据：使用 pandas.read_csv(‘https://…’, header=‘infer’, index_col=None)1.2。随机抽样：DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source] n=3：提取3行数据列表 frac=0.8：抽取其中80% r

2020-05-29 10:01:46 963 1

原创第五篇：机器学习基础之分类算法：朴素贝叶斯算法、朴素贝叶斯算法流程、文本分类的例子、朴素贝叶斯算法代码原理实现及测试、朴素贝叶斯算法应用实战

1 概率基础回顾1。概率的定义：一件事情发生的可能性， P(X) 取值范围为[0,1]2。联合概率：包含多个条件，且所有条件同时成立的概率：P(A, B)3。条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率：P(A|B)，P(A,C|B)4。相互独立：P(A, B) = P(A)P(B) <=> 事件A与事件B相互独立2 朴素贝叶斯算法2.1。朴素？假设：特征与特征之间是相互独立！！！2.2。贝叶斯公式：P(C|W) = P(W|C)P© / P(W) 注：W 为

2020-05-29 09:40:42 898 1

原创第四篇：机器学习基础之分类算法：K近邻knn算法原理、算法步骤、api、相关参数、KNN算法原理代码的实现及测试、实际应用及调参

1 KNN 算法原理1.1。k-近邻（k-Nearest Neighbour，简称KNN），常用于有监督学习。1.2。核心思想：根据你的’邻居’来推断你的类别 * 整个计算过程分为三步： A.计算待分类物体与其他物体之间的距离； B.统计距离最近的 K 个邻居； C.对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类1.3。定义：如果一个样本 x 在特征空间中的 K 个最相似的（即特征空间中最邻近）的样本大多属于类别A, 则该

2020-05-29 09:23:46 333

原创第三篇：机器学习基础 Matplotlib：中文显示问题处理、常见图形、折线图（单画板单坐标系多图、单画板多坐标系多图）、案例：绘制交通流量折线图

导入模块库import matplotlib.pyplot as pltimport random中文显示问题显示中文字体：matplotlib显示中文 https://www.cnblogs.com/hhh5460/p/4323985.html常见图形及意义1。折线图(plot)：显示数据变化趋势，反映事务的变化情况。（变化）2。散点图（scatter）：判断变量之间是否存在数量关联趋势，展示离群点。（分布规律）3。柱状图(bar)：绘制离散性的数据，可直观看出各个数据的大小，比较数据

2020-05-28 23:53:07 276

原创第二篇：机器学习基础 Pandas：Series 与 DataFrame 与数据常见操作、列操作、统计函数、排序、shift、rolling、groupby、merge、去重、交叉&透视表、缺失值处理

0 本文学习来源：参考文献1: https://www.cnblogs.com/weidu/p/9831807.html1 为什么使用Pandas1. 增强图表可读性2. 便捷的数据处理能力3. 读取文件方便4. 封装了Matplotlib、Numpy的画图和计算2 Pandas数据结构1。Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。2。其中Series是一维数据结构，DataFrame是二维的表格型数据

2020-05-28 23:40:21 1407 1

原创第一篇：机器学习基础 Numpy： ndarray、数组的基本操作、生成随机数组、数组的索引与切片、ndarray的运算

1 numpy优势用于快速处理任意维度的数组：numpy使用ndarray对象来处理多维数组numpy支持常见的数据和矩阵操作2 ndarray的属性、ndarray的形状、ndarray的类型import numpy as npimport matplotlib.pyplot as plt# ndarray的属性、ndarray的形状、ndarray的类型def simple_numpy(): score = np.array( [[80, 89, 86, 6

2020-05-28 22:42:06 780 1

rand-terrorism-dataset.txt

nlp常用工具包实战（4）spacy工具包，第五点，即第二个案例分析所用资源 111111111 vhbjnkl,/,nbvcx

2020-06-01

pride_and_prejudice.txt

nlp常用工具包实战（4）spacy工具包的第四小点，找到所有人物名字。原资源 dfghjklkjhcxvzzvbnm,./lkjnbv

2020-06-01

清华大学-学堂在线-大数据机器学习课件笔记.zip

清华大学-学堂在线大数据机器学习课件笔记系列：概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM、降维与度量学习、提升方法 adaboost 算法、EM 算法及混合高斯模型、计算学习理论、隐马尔可夫模型和概率图模型、条件随机场、概率图模型的学习与推断、神经网络与深度学习、深度学习正则化方法、深度学习优化方法等。

2020-05-29

清华大学—学堂在线—高级大数据系统课件笔记.zip

清华大学学堂在线，高级大数据系统课件笔记：讲解内容：大数据系统导论、linux 数据处理基础、分布式文件系统、map reduce、内存化的数据处理、流数据处理、NoSQL、图处理、机器学习系统等。

2020-05-29

机器学习课程英文课件及笔记.zip

机器学习课程英文讲义文件及学习笔记，讲解机器学习入门知识，常见机器学习算法模型，深度学习模型，以及相应的案例实战。

2020-05-29

Python深度学习之神经网络资料.zip

深度学习与神经网络入门基础教程：深度学习介绍、tensorflow框架介绍、数据读取、神经网络基础、卷积神经网络的原理、设计网络哟解决问题。

2020-05-28

Python3天快速入门机器学习项目资料.zip

机器学习3天快速基础入门教程：机器学习概述、特征工程、knn、朴素贝叶斯、决策树、随机森林、线性回归、非线性回归、逻辑斯蒂回归、k-means聚类算法

2020-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人