数据分析
文章平均质量分 60
人工智能数据分析,运用算法知识解析数据之间的潜在关系
缘 源 园
这个作者很懒,什么都没留下…
展开
-
英文关键字文字拆分之语意匹配
一批词是产品词,一批词是流量词。这个世界上呢,简单的说,所有的单词除了有效词就是无效词。除了跟产品有关的就是无关的。把数十万个关键字挑出来产品有关的,其他没关系的就做排除处理。各种字体的错误变形,是不能排除掉的。第二步把他们拆分成单个字词。然后进行语意的对比。每个单字意思一样的提取出来。第一步梳理出企业产品词和市场流量词汇。...原创 2022-07-20 18:11:17 · 135 阅读 · 0 评论 -
大数据营销模型思路架构
我的理想状态是,把一个行业,一个公司里的所有商业关键字的词组,打乱成单个词。放在软件后台去自主筛选。这些词的目的是为了避免过度否定把有用的也给否了、然后把没有购买欲望的只是想获取知识的词,放在排除字词里。毕竟搜索引擎是一个供大众学习的知识平台,所有人都能接到到,都投入竞价费用,造成了极度的浪费。关键字分为:完全没有购买欲望,终生不可能有买卖需求的词。有购买欲望,搜索制造商,购买等方面的词。对产品有了解需求,只是处于了解阶段的词。对竞争对手产品感兴趣,对行业产品有需求的人。以上四类原创 2021-11-21 23:13:54 · 824 阅读 · 0 评论 -
网站产品词投放准确,带来的询盘却没法成交,是什么原因呢?
网站核心产品词投放准确,带来的询盘却无法跟踪,可能原因如下:1、没有认证;2、电压太高或者太低无法生产;3、材料构成原因;4、国内跟国外很多参数不是一个标准,无法达成一致。5、价格差距悬殊6、起订量问题如何解决这些问题?思路1:没有认证,就去办一个认证?不可,没那么简单,因为一个认证几万,办下来能不能成交还是个问题。确定只是缺了一个认证,可以去操作。但是办了之后,没成交,成本支出,不划算。我们还要考虑这个认证在市场上的认可度,是极个别的要求,还是通用市场认可的认证。原创 2021-11-09 17:37:09 · 133 阅读 · 0 评论 -
外贸乙方推广公司需要什么样的团队?
1、懂产品,知道怎么学习分类产品。公司目前系列产品任何一个行业方向了解的。英语不需要特别好,会分类学产品就行。2、自主学习能力时代在更新,社会在变化,不断学习才是立业之本。自主学习,探索能力,不是被动工作。用发现的眼光,去发现问题解决问题。且数据分析还需要逻辑思维能力。3、否掉关键字库市场上所谓的大数据处理系统,排除垃圾无用流量。实质上是把有商业用途的词留下,无用的排除账户,原理就这么简单。最好能把针对不同的否定关键字提前放入账户。只需要上产品关键字。针对企业独特卖点写广告语。即原创 2021-11-08 15:10:07 · 761 阅读 · 0 评论 -
Kmeans聚类分析
Kmeans聚类聚类经常用Kmeans。数据量过大,不建议直接使用Kmeans. MiniBatchKMeans可以替代Kmeans随机选几个点,然后开始算距离,距离离得近的属于一类,给每个类别打上标签,算出聚类中心。离的很近或者小于阈值,聚类结束。原创 2021-01-21 11:06:11 · 3421 阅读 · 3 评论 -
收入与支出聚类分析
聚类方法仍需要对分群结果进行解读,通过业务合理性来选择分群的数量原创 2021-01-21 15:19:05 · 521 阅读 · 2 评论 -
订房聚类分析
案例背景 Airbnb在全球拥有广泛丰富的用户出行场景。自身在app和网页端,以及通过各种营销渠道会收集到非常全面的用户行为数据 通过这些数据,锁定潜在的目标客群并指定相应的营销策略是Airbnb发展的重要基石 字段名字 字段名字 id 唯一的用户id Android 安卓APP中预订 date_account_created 用户注册日期 Moweb 手机移动网页预订 date_first_booking...原创 2021-01-22 22:03:39 · 241 阅读 · 1 评论 -
共享单车线性回归分析
给出共享单车的相关业务数据,建立kmeans模型,不同维度分群结果进行分析column definition user_id 用户编码 start_time 开始时间 end_time 结束时间 timeduration 骑行时长 bikeid 自行车编码 tripduration 骑行距离 from_station_id 开始站编码 from_station_name 开始站名字 to_station_id原创 2021-01-23 23:10:24 · 2656 阅读 · 4 评论 -
促销策略和销量关系的回归分析
什么时候使用线性回归?目标值是连续的特征和目标之间有关联直接根据若干特征去预测目标或者找到特征之间的关系(哪个特征对目标值的影响更大)原创 2021-01-31 15:39:08 · 1645 阅读 · 0 评论 -
电商数据回归分析
'revenue':用户的下单购买金额 (目标值)'gender' 性别 1男 0女 空缺 未知'age' 年龄'engaged_last_30' 最近30天有关键操作(社区发帖,买家秀)'lifecycle', 生命周期 A,B,C 注册6个月内 1年内 2年内' days_since_last_order ' 最近一次下单距今天数 <1说明当天有下单'previous_order_amount' 以往积累的用户购买金额'3rd_party_stores' 在非...原创 2021-02-02 10:37:35 · 1351 阅读 · 0 评论 -
电信客户流失预测
数据说明 CustomerID 客户ID Gender 性别 partneratt 配偶是否也为att用户 dependents_att 家人是否也是att用户 landline 是否使用att固话服务 internet_att/internet_other 是否使用att的互联网服务 Paymentbank/creditcard/electroinc 付款方式 MonthlyCharges 每月话费 TotalCharg原创 2021-02-06 11:41:59 · 948 阅读 · 0 评论 -
聚类和分类算法的区别
聚类和分类算法的区别 学习方式不同聚类是一种非监督式学习算法,而分类是监督式学习算法。 对源数据集要求不同,有无目标值 应用场景不同 聚类一般应用于数据探索性分析、数据降维、数据压缩等探索性、过程性分析和处理 分类更多地用于预测性分析和使用。 解读结果不同。聚类算法的结果是将不同的数据集按照各自的典型特征分成不同类别,不同人对聚类的结果解读可能不同;而分类的结果却是一个固定值(例如高、中、低、是、否等),不存在不同解读的情况。 模原创 2021-02-06 11:53:08 · 5058 阅读 · 0 评论 -
如何选择分类分析算法?
文本分类:朴素贝叶斯,例如电子邮件中垃圾邮件的识别。 训练集较小,选择高偏差且低方差的分类算法:朴素贝叶斯、支持向量机(不容易过拟合) 算法模型的计算时间短和模型易用性,不要选支持向量机、人工神经网络 重视算法的准确率:支持向量机或GBDT、XGBoost等基于Boosting的集成方法 注重效果的稳定性或模型鲁棒性,那么应选择随机森林、组合投票模型等基于Bagging的集成方法。 想得到有关预测结果的概率信息,基于预测概率做进一步的应用:逻辑回归 ..原创 2021-02-06 11:56:30 · 566 阅读 · 0 评论 -
LR的常见使用场景
朴素贝叶斯 文本分类 前提条件是 特征之间是没有关联的,独立事件。 决策树(knn)/随机森林 给出可解释的规则 强调解释性,并且要给出一个很明确的业务指导的时候决策时是首选。 逻辑回归(二分类问题) 会不会流失 是不是羊毛 会不会点击 CTR预估(推荐系统,精准推送) 用户特征+物品特征=》已经训练好的LR模型=》可以预测出点击率 每一件商品都丢到模型中预测当前用户的点击率 把点击率最高的返回去 上述场景原创 2021-02-06 12:15:06 · 714 阅读 · 0 评论 -
优惠券使用预测
marital 婚姻状况default 是否有欠款returned 是否退货loan 是否用花呗coupon_used_in_last6_month 过去六个月是否使用优惠券的情况coupon_used_in_last_month 上个月使用优惠券的情况coupon_ind 会不会使用优惠券import pandas as pdcoupon=pd.read_csv("coupon.csv",index_col=0) #指定索引列,则不会...原创 2021-02-07 15:18:53 · 585 阅读 · 3 评论 -
关联分析概念
关联分析通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则,它是从大量数据中发现多种数据之间关系的一种方法。另外,它也可以基于时间序列对多种数据间的关系进行挖掘。关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets)是指经常出现在一块的物品的集合。 关联规则(associational rules)是暗示两种物品之间可能存在很强的关系 关联规则从大量的数据中(购物小票)找到经.原创 2021-02-07 17:23:16 · 2125 阅读 · 0 评论 -
关联规则代码实现
# 导入库import pandas as pdimport numpy as npfrom efficient_apriori import apriori#加载数据文件data = pd.read_csv('order_table.csv')#显示数据信息data.head()#数据信息 order_id product_name0 201901010000001 citrus fruit1 201901010000001 semi-finished bread2 2.原创 2021-02-08 10:20:46 · 1516 阅读 · 0 评论 -
异常点检测isolationforest
噪音”的出现有多种原因 业务操作的影响(典型案例:网站广告费用增加10倍,导致流量激增) 数据采集问题(典型案例:数据缺失、不全、溢出、格式匹配等问题) 数据同步问题(异构数据库同步过程中的丢失、连接错误等导致的数据异常) 在对离群点进行挖掘分析之前,需要从中区分出真正的“离群数据”,将“垃圾数据”去掉. 常用的异常检测方法 基于统计的异常检测方法(如基于泊松分布、正态分布等分布规律找到异常分布点) 基于距离的异常检测方法(如基于K均值找到离所有分类最原创 2021-02-08 21:50:08 · 1364 阅读 · 3 评论 -
机器学习进行词频统计
# 导入库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库读取文本文件with open('article1.txt') as fn: strin..原创 2021-02-08 23:42:46 · 619 阅读 · 0 评论 -
用python处理对词语进行词性标注
读取整段文本# 导入库import jieba.posseg as psegimport pandas as pdwith open('article1.txt') as fn: string_data = fn.read() # 使用read方法读取整段文本分词+词性标注words = pseg.cut(string_data) # 分词words_pd = pd.DataFrame(words, columns=['word', 'type']) # 创建结果数..原创 2021-02-09 00:31:06 · 2875 阅读 · 0 评论 -
在python中关键字如何提取
导入库import jieba.analyse # 导入关键字提取库import pandas as pd # 导入pandas读取文本数据with open('article1.txt') as fn: string_data = fn.read() # 使用read方法读取整段文本关键字提取# 关键字提取tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True...原创 2021-02-09 00:39:59 · 3075 阅读 · 0 评论 -
风控业务数据处理流程-数据采集、反欺诈、风控模型、催收
风控业务 数据采集 自己获取 从运营商获取 从大数据公司获取 人民银行征信报告 从手机里爬数据 反欺诈 大部分的公司都使用的是反欺诈规则 风控模型 A 申请评分卡 B 行为评分卡 C 催收评分卡 催收 ...原创 2021-03-02 23:09:50 · 1425 阅读 · 0 评论 -
信贷风险控制理论操作流程——特征工程、特征衍生
一 定义问题 基本统计分析 工具选择 建模分析(选择算法) 监督/无监督 监督 分类 回归 算法确定下来之后 数据预处理 特征衍生 特征选择 风控建模的时候需要注意 信用评分分段之后,正常的效果,评分和预期的概率应该是单调的 按照评分进行分组 ..原创 2021-03-03 11:35:52 · 417 阅读 · 0 评论 -
案例解决问题的建模流程
基本数据分析,工具分析,计算机语言,可以结局的问题;利用算法建模;数据预处理;特征衍生;特征选择原创 2021-03-02 22:26:31 · 126 阅读 · 0 评论 -
特征工程 — 特征选择Filter、Wrapper、Embedded
移除低方差的特征移除低方差的特征。因为方差为0,说明一组数据中每个数都是一样的,那么数据的波动就最小,也就是没有波动了,因为平均数是1,每个数据也都是1如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。threshold 临界点VarianceThreshold 方差阈值方差很小,分子很小,说明数值-平均数的太相近,数据太过集中,拥有这些特征无法判断结果。所以需要移除方差是0的特征还有方差特别小的特征。传入方差的阈值,低于这原创 2021-03-02 23:19:24 · 1923 阅读 · 0 评论 -
特征单调性和分布稳定性案例代码分析实现
在做很多基于空间划分思想的模型的时候,我们必须关注变量之间的相关性。单独看两个变量的时候我们会使用皮尔逊相关系数。原创 2021-03-03 00:20:13 · 786 阅读 · 0 评论 -
金融风控_特征衍生案例代码实现_放款中数据分析
对creat_dt做补全,用oil_actv_dt来填补 截取6个月的数据。构造变量的时候不能直接对历史所有数据做累加。否则随着时间推移,变量分布会有很大的变化。原创 2021-03-05 00:37:59 · 761 阅读 · 1 评论 -
DecisionTreeRegressor决策树的属性解释
dtree = tree.DecisionTreeClassifier( criterion="mse" #不纯度的计算方法。"mse"表示使用均方误差;"friedman_mse"表示使用费尔德曼均方误差;“mae”表示使用绝对平均误差 ,splitter="best" #控制决策树中的随机选项。“best”表示在分枝时会优先选择重要的特征进行分枝;“random”表示分枝时会更加随机,常用来防止过拟合 .原创 2021-03-03 23:57:56 · 793 阅读 · 1 评论 -
金融反欺诈 常用特征处理方法
pydotplus依赖Graphviz这个绘图库, 它是c开发的, 所以在安装pydotplus之前, 需要首先安装Graphviz, 不过不管哪个系统, 它都有编译好的二进制包, 可以直接安装。以windows为例, 我们首先需要现在Graphviz安装包....原创 2021-03-06 03:14:58 · 1388 阅读 · 1 评论 -
数据分析概要及分析分析思路
数据如何驱动运营给企业带来价值 原始收集数据 数据埋点 收集用户在网页端,APP,小程序等终端的各种数据 业务数据 外部数据 数据加工处理 将收集的数据转换成可理解、可量化、可观察的业务指标 单纯的数据没有意义,只有和业务结合才能发挥价值 数据可视化 有了数据指标,必须管理好指标 建立指标体系 数据决策和执行 从数据中得到相关信息,需要把这些信息转换成原创 2021-03-06 21:15:39 · 1525 阅读 · 0 评论 -
会员数据化运营RFM
1 会员数据化运营概述 会员数据化运营几乎是所有企业的必备运营工作,企业要生存必须有会员(客户,用户) 会员数据化运营辅助于客户关系管理(CRM),可以用来解决以下几方面问题: 会员的生命周期状态是什么? 会员的核心诉求是什么? 会员的转化习惯和路径是什么? 会员的价值如何? 如何扩大市场覆盖、获得更多的新会员? 如何更好地维系老会员? 应该在什么时间、采取何种措施、针对哪些会员做哪些运原创 2021-03-06 22:07:24 · 2007 阅读 · 0 评论 -
随机森林/决策树
决策树(knn)/随机森林 给出可解释的规则 强调解释性,并且要给出一个很明确的业务指导的时候决策时是首选。 随机森林:“随机“表示2种随机性,即每棵树的训练样本、训练特征随机选取。多棵决策树组成了一片“森林”,计算时由每棵树投票或取均值的方式来决定最终结果,体现了三个臭皮匠顶个诸葛亮的中国传统民间智慧。决策树: 以分类任务为代表的决策树模型,是一种对样本特征构建不同分支的树形结构。比如,去银行贷款,银行会根据你的实际情况评估,年龄,是否有工作,性别等...原创 2021-03-07 00:04:26 · 209 阅读 · 0 评论 -
cut和quct的区别
pd.cut 指定分组区间,需要注意默认情况,传入的分组区间是左开右闭pd.quct quct等频分组只需要传入分成几组,尽量按照每一组样本数量相等pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的(qcut:大致分为相同的几组)pd.qcut(data, q):对数据进行分组将数据分组,一般会与value_counts搭配使用,统计每组的个数# 自行分组qcut = pd.qcut(p_change, 10)# 计算分到每个组.原创 2021-03-07 01:00:12 · 658 阅读 · 0 评论 -
RFM充分应用在商业环境
rfm作用,给用户分群(从用户价值的角度给用户分群),分群之后可以针对不同群体的特点,来进行精细化/差异化/个性化运营rfm适用业务,用户直接消费(电商)如果没有直接消费的(信息流,短视频)不适合rfmrfm分群之后,根据不同群体的特点做不同的运营动作如果把rfm都分成三个档次,333,233,223,133 要重点照顾的群体 按照不同组用户数量占总体用户的比例,比例过高 。可以系统自动化运营;比例比较低,价值比较高 VIP人工运营。用户分群有很多种套路可以对用户进行分群,分群的目.原创 2021-03-07 12:17:30 · 205 阅读 · 0 评论 -
数据分析运营——全渠道发货分析,用户运营
数据分析运营——会员占比分析,会员占所有消费比例,不同门店推动会员运营的积极性;会员质量原创 2021-03-07 12:50:44 · 337 阅读 · 0 评论 -
特征工程建模流程
业务建模流程 将业务抽象为分类or回归问题 定义标签,得到y 选取合适的样本,并匹配出全部的信息作为特征的来源 特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互) 输出模型报告 上线与监控 什么是特征在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。举个例子,假设你有一个学生列表,这个列表里包含每个学生的姓名、学习小时数、IQ和之前考试的总分数。现在,有一个原创 2021-03-07 13:31:50 · 625 阅读 · 0 评论 -
数据预处理详解
数据预处理是数据分析和数据运营过程中的重要环节,它直接决定了后期所有数据工作的质量和价值输出 数据清洗 数据转换 数据抽样 Python数据清洗(代码实现)缺失值处理 :https://blog.csdn.net/weixin_48135624/article/details/114482634异常值处理:https://blog.csdn.net/weixin_48135624/article/details/114483524归一化/标准化https://blo原创 2021-03-08 00:22:35 · 2401 阅读 · 0 评论 -
数据预处理-框架总结概况
数据清洗 缺失值处理 删除 谨慎 行删 (如果只有几个样本有缺失,可以考虑按行删除) 列删 (如果某个特征缺失比较严重,可以考虑把这个特征删除) 填充 统计学方法 连续型特征 均值、加权均值、中位数等方填充 分类特征 众数 模型预测 预测用户的性别 专家补全 业务经验比较丰富,利用经...原创 2021-03-08 00:23:05 · 283 阅读 · 0 评论 -
链家租房数据基本分析
import pandas as pdlj_data = pd.read_csv('LJdata.csv')#原始列名lj_data.columns#Index(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更新时间', '看房人数','备注', '链接地址'],dtype='object')lj_data.columns = ['district', 'address', 'title', 'house_type', 'ar.原创 2021-03-08 00:23:25 · 1609 阅读 · 2 评论 -
案例 APP Store 数据分析
1 案例介绍 案例背景 对APP下载和评分数据分析帮助App开发者获取和留存用户 通过对应用商店的数据分析为开发人员提供可操作的意见 通过数据分析要解决的问题 免费和收费的App都集中在哪些类别 收费app的价格是如何分布的,不同类别的价格分布怎样 App文件的大小和价格以及用户评分之间是否有关 分析流程 数据概况分析 数据行/列数量 缺失值分布原创 2021-03-08 00:23:36 · 2220 阅读 · 2 评论