Jack的机器学习专栏
Dell EMC认证数据科学专家
沉默的大多数的杂谈感想
这个作者很懒,什么都没留下…
展开
-
《Tensorflow+PyTorch深度学习》读书笔记
这本书极其不推荐大家购买了哈,国人写书实在是太敷衍了。该书罗列了大量各种库的安装日志,还有各种程序的代码的复制粘贴,甚至还把所有程序的输出也作为书的内容贴上去了。简直令人发指!大概花了一周时间就阅读完了本书,干货实在太少,很多概念都没有讲清楚。做个脑图简单梳理下一些关键的知识点吧。建议如果想深入学习Tensorflow或者PyTorch的还是看官方文档吧!...原创 2020-07-03 16:28:50 · 331 阅读 · 0 评论 -
机器学习的回归模型的一些度量方法
https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metricsRegression metricsSee the Regression metrics section of the user guide for further details.metrics.explained_variance_sc...转载 2018-11-28 15:18:56 · 532 阅读 · 0 评论 -
数据科学全景脑图-持续更新中
原创 2018-11-29 12:07:40 · 704 阅读 · 0 评论 -
NCMS网络频道云管理系统(ChannelCheckerV2.0)
智能电视OTT应用的蓬勃发展,ChannelChecker单机版发布后,或者各大智能电视论坛和网络的推荐。据程序后台统计,下载次数超过万次,累计检测网络电视频道源超过百万次。我由此想到如此大量丰富的数据源,完全可以开发成云平台大数据类的应用,实现离线分散的用户的数据汇聚产生更加的价值和更好的用户体验。因此,基于云平台的网络频道管理系统NCMS进入开发计划并发布。云平台的选择几经波折,最开始是在百度原创 2017-12-25 13:22:58 · 2243 阅读 · 0 评论 -
ChannelChecker项目
2013年电视盒子开始流行,当时OTT应用大量进入电视用户终端中,BAT也投资或收购了很多电视盒子的硬件厂商和软件厂商。当时的一个独角兽应用是电视盒子植入电视频道APP取代广电的卫视频道,一个关键技术的如何获取频道源和测试其有效性。刚好我当时是泰捷webox的内测会员,webox对网络电视频道支持的也比较好,唯一短板是没有稳定和自动测试频道源的功能。2013年尝鲜用python写了一个网络电视频道原创 2017-12-25 13:01:08 · 415 阅读 · 0 评论 -
基于热点短信息分类的研究与实现-2008年硕士论文答辩PPT
时光荏苒,在机器学习大热的当口,猛然想起自己的硕士毕业答辩就是做的机器学习嘛。今日得空写个博客记录下,部分内容在9年后看是有些过时了,尤其是把短信息分类作为研究对象,在2017年的今天,短信息只是沦为了接受验证码的工具了。不过论文中的大量研究方法放到今天仍然是不过时的,这也说明虽然机器学习的对象在随着时代发展,但是其核心方法并无大的改变。原创 2017-12-19 16:24:26 · 201 阅读 · 0 评论 -
自动分类之-贝叶斯原理
研究生时期研究了不少分类的算法,发现最简单朴素的就是贝叶斯原理。如今blog也闲置了1年有余了,是该记录点什么了。那么就这里开篇吧,我将会在这里以系列方式放出我之前实现的一个垃圾信息过滤分类系统,该系统基于手机平台wm5。原创 2009-10-09 10:46:00 · 1170 阅读 · 2 评论 -
手机移动开发经验点滴
question1:设备安全配置不允许连接answer: 部署Windows Mobile 5.0 SmartPhone应用程序时,关于"设备安全配置不允许连接。请确保您具有所开发设备的适当证书。有关连接此设备的正确安全设置,请查阅 SDK 文档"错误的处理。"请在cmd下运行位于:C:/Program Files/Microsoft Visual Studio 8/SmartDev原创 2007-09-10 23:31:00 · 1041 阅读 · 0 评论 -
转载:图解双盲试验
图解双盲试验转载 2018-09-05 11:12:10 · 1545 阅读 · 0 评论 -
100-Days-Of-ML-Code day1-day6 notes
X = dataset.iloc[ : , :-1].values # 取所有行的从一列到最后一列Y = dataset.iloc[ : , 3].values # 取所有行的第列 OneHotEncoder:直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制.机器学习中对于离散型的分类型的数据,需要对其进行数字化单元线性回归用于单变量预测 ...原创 2018-08-16 15:08:40 · 367 阅读 · 0 评论 -
google机器学习速成课程
特征工程良好特征的特点:避免使用很少使用的离散特征值,良好的特征值应该出现5次以上最好具有清晰明确的含义不要将”神奇“的值域实际数据混为一谈,即不包含超出范围的异常值考虑上游不稳定,即特征的定义不随时间变化数据缩放:[min,max](value-mean)/stddev处理离群值:取对数限制最大值分段或分箱数据清理:遗漏值重复样本不良标签不良特征值奥卡姆剃刀:如无必要,勿增实体,切勿浪费较多东西...原创 2018-03-26 17:17:22 · 341 阅读 · 0 评论 -
基于超融合系统的客户应用服务的测试
存储系统变革数十年,从DAS到NAS/SAN再到统一存储。一个核心思想或者底线是如何让客户更方便更安装的使用他们的数据和应用。在如今云计算,云平台大行其道的时代,超融合系统作为下一代存储明星,很好的适应和客户对数据存储的需求和其业务部署的变化。超融合系统同时提供了存储,网络,计算的能力,具有高度集成化和快速扩展的特点。以前我们做传统存储测试,产品组是聚焦于数据存储部分,兼容性组聚焦于第三方的网络设原创 2018-01-02 16:22:31 · 570 阅读 · 0 评论 -
理解 Bias 与 Variance 之间的权衡
转载:https://www.cnblogs.com/ooon/p/5711516.html理解 Bias 与 Variance 之间的权衡有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于我们诊断模型的错误,避免 over-fit...转载 2018-09-03 15:19:35 · 380 阅读 · 0 评论 -
人工智能简史-阅读笔记脑图
原创 2018-05-16 17:16:40 · 1367 阅读 · 0 评论 -
PowerStore数据提取
如何从PowerStore系统提取数据目前PowerStore系统的controlpath数据的都存储在cluster的postgres数据库中,分为appliance和cluster两个level。通过定时导出数据到外部系统,可以把它作为一个data pump或者汇总所有系统的数据做一个大的data lake关于数据种类,目前比较有价值的是容量数据和性能数据,当然还有一些其他的数据集可...原创 2018-11-16 21:54:47 · 375 阅读 · 0 评论