数据分析
皮皮虾我们走
记录学习的轨迹,博客只是补充,系统学习还是要看书,多敲代码,共勉!
展开
-
数据比赛
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggets Competition全国高校云计算应用创新大赛Byte Cup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenData Competition上海SODA大赛赛...转载 2018-05-21 17:20:28 · 471 阅读 · 1 评论 -
相似度算法介绍
######################尊重版权,转载注明地址;https://blog.csdn.net/pztyz314151/article/details/52094588######################相似度算法介绍相似度算法主要任务是衡量对象之间的相似程度,是信息检索、推荐系统、数据挖掘等的...转载 2018-05-08 10:39:31 · 7785 阅读 · 1 评论 -
推荐系统的评测方法及指标
首先声明,以下内容是看了项亮的《推荐系统实践》后 写的,内容基本出自该书,只是我自己再归纳总结一下而已(以免喷子又喷)推荐系统中,主要有三种评测推荐效果的实验方法:1)离线实验。 往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证),然后在训练...转载 2018-05-08 10:17:58 · 635 阅读 · 0 评论 -
数据分析的一些好文章(持续更新)
1 如何分析活跃用户和留存用户 https://www.zhihu.com/question/20267239/answer/1160518452 如何搭建一个指标体系 陈丹奕 https://zhuanlan.zhihu.com/p/207394883 建模那点事儿(上下)https://zhuanlan.zhihu.com/p/20391425...原创 2018-05-14 20:33:29 · 1166 阅读 · 0 评论 -
sql语句
sql查询语句的处理步骤如下:--查询组合字段(5)select (5-2) distinct(5-3) top(<top_specification>)(5-1)<select_list>--连表(1)from (1-J)<left_table><join_type...转载 2018-05-07 15:29:37 · 137 阅读 · 0 评论 -
left join on 和where条件的放置
select * fromtd left join (select case_id as sup_case_id , count(*) supervise_number from td_kcdc_case_sup_info group by case_id ) sup on ...转载 2018-05-07 15:33:17 · 239 阅读 · 1 评论 -
读书笔记 - 数据分析
卢辉 -《 数据挖掘与数据化运营实战 》第六章内容摘录数据挖掘项目完整案例1 项目背景和业务分析需求的提出背景:某互联网公司“免费会员运营团队”的主要工作内容就是不断培养和提升免费会员的成熟度和电子商务专业度, 以便在条件具备的时候可以适时将部分优质的免费会员提升为付费会员,免费会员按照活跃度来划分可分为高活跃度、 中活跃度和低活跃度3类群体。活跃度划分的指标主要是30天之内登录网...原创 2018-05-07 16:25:43 · 325 阅读 · 0 评论 -
github / gist
删除 git remote rm origingit init git add . git commit -m “注释语句” git remote add origin https://github.com/XH94/Kaggle-Titanic git pull –rebase origin master git push -u origin master...原创 2018-05-05 21:52:44 · 1587 阅读 · 0 评论 -
pandas使用
一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd122、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=...转载 2018-07-19 09:02:56 · 249 阅读 · 0 评论