ML
文章平均质量分 95
晨丢丢
这个作者很懒,什么都没留下…
展开
-
Spark MLlib — EMLDA
LDA(Latent Dirichlet allocation)是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出,也即根据给定的一篇文档,推测其主题分布。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。本文主要介绍LDA涉及的数学知识以及Spark MLli原创 2016-11-22 16:33:35 · 877 阅读 · 0 评论 -
基于LSTM的Chatbot实例(1) — 研究背景及数据准备
一、背景 一直想写一篇面对初学者的文章从上层应用到底层的机器学习基础方面全流程的阐释当下流行的深度学习算法(CNN,RNN等)。刚好春节前有同学工作内容涉及对话机器人,我也从零开始接触学习了下,所以就借这个案例展开说一些自己的学习过程吧。 对话系统根据实际的任务需求,所要用到的主要技术手段也不尽相同。具体来说,对话系统大致可分为两种:任务导向型(task-oriented)对话系...原创 2018-05-28 14:15:07 · 2475 阅读 · 2 评论 -
基于LSTM的Chatbot实例(2) — tensorflow LSTM模型创建
一、总体分析 感觉很多chatbot的博文都是直接拿seq2seq开刀,上来就堆了一堆RNN(或者LSTM,Attention)模型的原理和公式。本篇从初学者的角度出发更想将机器学习基础(目标函数,优化方法,正则化等思想)贯穿始终。并结合Tensorboard可视化tensorflow中相关的模型算法。 在Machine Learning by Mitchell(1997)中,给出了机...原创 2018-05-29 09:19:57 · 2576 阅读 · 2 评论 -
基于LSTM的Chatbot实例(3) — tensorboard可视化分析LSTM
一、计算图 上一篇文章中已经完成了基于tensorflow的chatbot模型建立和训练,并保存训练日志在指定目录。在命令行使用”tensorboard –logdir=‘XXX’”,根据提示打开指定url,即可可视化整个模型计算图及训练过程的参数的变化情况。这里先将选项卡切换在”GRAPHS”栏位,查看整个计算图 整个序列非常的长,下面将分别展开来说。...原创 2018-05-29 19:09:36 · 3416 阅读 · 0 评论 -
基于LSTM的Chatbot实例(4) — 基于SGD的模型参数训练及优化
一、SGD基本知识 前几篇文章中已经介绍了我们的seq2seq模型使用均方误差作为损失函数,使用SGD算法(随机梯度下降)算法来训练模型参数,实例中代码如下:net = tflearn.regression(real_output_sequence, optimizer='sgd', learning_rate=0.1, loss='mean_square') 大多数机器学习任务最...原创 2018-05-31 17:01:59 · 3427 阅读 · 0 评论 -
商品销售数据建模及分析
一、概述本篇的数据集及程序代码上传在个人github上 本文针对所给的酒类商品销售数据集进行了以下两大类分析: (1) 统计分析类酒种的销售统计 地区的销售统计 (2) 建模分析类相似用户反馈相似商品反馈协同过滤推荐感兴趣用户推荐地域优先推荐用户流失度分析高价值用户分析其中用户流失度分析及高价值用户分析依赖更加完整的数据集(订单的时间序列及单次订单消费...原创 2018-06-01 09:01:26 · 29358 阅读 · 12 评论 -
Home Credit Default Risk(1) — 背景介绍
总体介绍 Home Credit Default Risk是Home Credit公司在kaggle上的一个信贷风险评估竞赛。其提供的数据文件描述及文件间关联关系如下:有些金融专有名词尤其是一些公司产品的专有名词对于我们外行人员来说相当难理解了,所以我查看了下公司官网,给出了一些背景介绍,有助于理解数据吧。 Home Credit公司的商业模式其实跟支付宝的某些部分很像,后面会类比。一个...原创 2018-10-24 09:39:37 · 4519 阅读 · 1 评论 -
Home Credit Default Risk(2) —初步探索
本篇以application_{train|test}.csv入手,进行基本的数据分析# 导入需要的依赖包import osimport pandas as pdimport matplotlib.pyplot as pltimport matplotlibimport seaborn as snsimport numpy as npfrom sklearn.preproces...原创 2018-10-24 18:21:14 · 1521 阅读 · 3 评论