DataEase 实战训练营
初级课程
高级课程
【高级课程】数据分析方法
1.数据分析方法--概念&分类
什么是数据分析方法论: 用来指导数据分析师进行一次完整的数据分析, 它更多的是指数据分析思路, 比如从哪几个方面开展数据分析? 各方面包含什么内容和指标? 数据分析方法论主要从宏观角度指导如何进行数据分析, 它就像一个数据分析的前期规划, 指导着后期数据分析工作的开展. 常见数据分析方法论: 1. 5W2H分析法 2. PEST分析法 3. 逻辑数分析法 4. 4P营销理论 5. ......
什么是数据分析方法: 是指具体的分析方法, 如常见的对比分析, 交叉分析, 相关分析, 回归分析, 聚类分析等数据分析方法. 数据分析方法主要从微观角度知道如何进行数据分析.常见数据分析方法: 1. 对比分析 2. 相关分析 3. 回归分析 4. 聚类分析 5. ......
数据分析方法论和数据分析方法的区别举例:
| 数据分析 | 服装制作 | |
|---|---|---|
| 方法论 | 5W2H 4P 逻辑树等分析思路 | 服装设计图 |
| 工具 | DataEase Excel SmartBI Tableau等 | 剪刀 缝纫机 电熨斗等 |
| 技术 | 交叉分析 相关分析 回归分析 聚类分析等 | 平面, 立体裁剪等 合缝, 包缝, 骑缝等 压烫, 吸烫, 坐烫等 |
数据分析的三大作用 1. 原因分析 : 分析发生当前情况的原因 2. 现状分析 : 分析当前情况 3. 预测分析 : 预测未来的发展走向
根据数据分析作用分类数据分析方法
| 数据分析作用 | 基本方法 | 数据分析方法 |
|---|---|---|
| 现状分析 | 对比 | 对比分析 分组分析 结构分析 分布分析 交叉分析 RFM分析 矩阵关联分析 综合评价分析 ...... |
| 原因分析 | 细分 | 结构分解法 因素分解法 漏斗图分析 ...... |
| 预测分析 | 预测 | 趋势分析 回归分析 时间序列 ...... |
2. 现状分析-对比分析法
什么是对比分析法: 将两个或两个以上的数据进行比较, 分析他们的差异, 从而揭示事物发展变化情况和规律性. 对比分析可以翡翠直观的看出事物某方面的变化或差距, 并且可以准确、量化地表示出变化或差距是多少.
对比分析方法类别 同级类别对比(横比) 同级类比对比, 称为横比, 如不同国家人口数、CDP的对比, 不同省份收入、用户数对比, 不同公司、不同部门之间的对比不同产品之间的对比等. 这样可以了解自身某一方面或各方面的发展水平在公司、集团内部或各地区处于什么样的位置, 明确哪些指标是领先的, 哪些是落后的, 进而找出下一步发展的目标. 不同时期对比(纵比) 时间是一种常用的、特殊的维度, 时间维度上的对比, 称为纵比. 本月数据与上个月数据进行对比, 就是环比. 每个月份的数据与某一固定月份的数据进行对比, 就是定基比. 通过时间前后的对比, 可以知道在时间维度上事物的发展变化是好是差, 如新增用户数环比上月增长10%, 同比去年增长20%. 与目标对比 用实际完成值与目标进行对比. 例如每个公司每年都有自己的业绩目标或计划, 所以可以先将目前的业绩与全年的业绩目标进行对比, 看是否完成目标. 如果一年还未过完, 处于某阶段, 可把目标按时间拆分再进行对比, 或直接计算完成率, 再与时间进度(截至当天累计天数/全年天数)进行对比. 行业内对比 通过与行业中的标杆企业、竞争对手或行业的平均水平进行对比 同样我们也可以了解自身某一方面或各方面的发展水平在行业内处于什么样的位置, 明确哪些指标是领先的, 哪些指标是落后的, 进而找出下一步发展的方向和目标.
3. 现状分析-分组分析法
什么是分组分析法: 根据分组字段, 将分析对象划分成不同的部分, 以对比分析各组之间的差异的一种分析方法. 分组的目的就是为了便于对比, 把总体中具有不同性质的对象区分开, 把性质相同的对象合并在一起, 保持各组内对象属性的一致性、各组之间的属性差异性, 以便进一步进行各组之间的对比分析.
分组分析法类别 定性分组 它是按事物的固有属性划分的, 如性别、学历、地区等属性, 定性分组一般看结构, 也就是结构分析. 定量分组 也就是数值分组, 根据分析目的将数值型数据进行等距或非等距分组, 定量分组一般看分布, 也就是分布分析.
4. 现状分析-RFM分析法
什么是RFM分析法: 根据客户活跃程度和交易金额贡献, 进行客户价值细分的一种客户细分方法. RFM分析法其实是交叉分析在客户价值细分领域的一个经典应用. 主要有三个指标组成: 分别为 R近度, F频度, M额度 组成
RFM指标的意义
| 指标 | 解释 | 意义 |
|---|---|---|
| R(Recency) 近度 | 客户最近一次交易时间到现在的间隔 | R 越大, 表示客户越久未发生交易 R 越小, 表示客户越近有交易 |
| F (Frequency) 频度 | 客户最近一段时间内交易的次数 | F 越大, 表示客户交易越频繁 F 越小, 表示客户不够活跃 |
| M (Monetary) 额度 | 客户在最近一段时间内交易的金额 | M 越大, 表示客户价值越高 M 越小, 表示客户价值越低 |
RFM分值的计算方式
R值计算
距离今天的时间间隔 = 购买时间 - 今日日期
平均时间间隔 = Avg (距离今天的时间间隔)
IF ( 距离今天的时间间隔 < 平均时间间隔):
R = 1
else:
R = 0F值计算
平均消费次数 = avg (sum (消费次数))
IF (用户消费次数 > 平均消费次数):
F = 1
else:
F = 0M值计算
所有用户平均消费金额 = sum(消费金额) / sum(消费次数)
每个用户平均单次消费金额 = avg (消费金额)
IF (每个用户平均单次消费金额 > 所有用户平均消费金额):
M = 1
else:
M = 0RFM值计算 R值 拼接 F值 拼接 M值 的到三位 0 、1 主城的数据, 根据分值进行客户类型分类
RFM分析方法在会员价值分析中经常用到, 把客户按最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary) 三个维度分成八个等级, 判断客户价值.
| R值(最近一次消费时间) | F值(消费频率) | M值(消费金额) | RFM分值 | 意 义 |
|---|---|---|---|---|
| 近 | 高 | 高 | 111 | VIP高价值 保持客户 |
| 远 | 高 | 高 | 011 | 主动保持联系, 是重点保持客户 (一段时间内没来的忠诚客户) |
| 近 | 低 | 高 | 101 | 高潜用户, 是重点发展客户 (忠诚度不高) |
| 远 | 低 | 高 | 001 | 给予挽留措施, 是重点挽留客户 (将要流失或已经流失) |
| 近 | 高 | 低 | 110 | 一般价值客户 (需要提升客单价) |
| 远 | 高 | 低 | 010 | 一般保持客户 (需要提醒客户消费) |
| 近 | 低 | 低 | 100 | 一般发展客户 (需要提升用户消费频次) |
| 远 | 低 | 低 | 000 | 潜在客户 (流失风险大, 可使用促销方式召回) |
![]() |
5. 现状分析-ABC分析法(帕累托分析法)
什么是ABC分析法: 根据事物在技术、经济方面的主要特征, 进行分类排列, 从而实现区别对待区别管理的一种方法. ABC法则强调分清主次, 并将管理对象划分为A 、B、 C三类.
① A 类商品: 最重要、销售量最高或者销售额最高的商品. 通常占据总商品数量的比例较小, 但对于企业的运营和理论贡献较大. 对A类商品需要进行精细管理, 以确保供应的稳定性和及时性.
② B 类商品: 次重要、销售量次高或者销售额次高的商品. 他们的重要性和价值相对于A类商品较低, 但仍然对企业的运营和利润有一定的影响. 对B类商品需要进行适度的管理和控制, 以平衡供应和库存成本.
③ C 类商品: 最不重要、销售量最低或者销售额最低的商品. 他们通常占据总商品数量的比例较大, 但对企业的运营和利润贡献较小. 对C类商品可以采取较为简化的管理方式, 以降低管理成本和库存成本.
计算公式: ① 先将数据按照销售额进行降序排序 ② 累计占比 = 根据排序累计金额 / 总销售额
① A类商品: 0% ~ 50% ② B类商品: 50% ~ 90% ③ C类商品: 90% ~ 100%
6. 原因分析- 结构分析法
什么是结构分解法: 结构分解法采用金字塔形结构, 可使业务结构的层次更分明、条理更清晰, 简单明了的表达了各业务结构之间的关系. 可采用逻辑树方式进行对比分析, 它是将问题按项目组成结构进分层罗列, 从最高层开始, 逐步向下扩展, 如剥洋葱、剥笋一样, 层层深入, 分析项目构成的变化, 直至找到问题所在.
结构分解法示例

7. 原因分析 - 因素分析法
什么是因素分解法: 因素分解法把综合性指标分解为各个原始因素, 主要用于分析有明确数量关联关系的各因素之间的变动对综合指标变动量的影响程度, 从而确定影响指标变化的原因
因素分解法的具体操作步骤: 1. 确定指标由哪些因素构成 2. 确定各因素与指标的关系, 如 加、减、乘、除或函数等. 3. 测定、分析因素对指标变动的影响方向和程度.
因素分析法的常见应用 -- 杜邦分析法
杜邦分析法: 杜邦分析法是因素分析法在财务方面的一个经典应用, 它是利用各主要财务指标间的内在关系, 对企业财务状况及经济效益进行综合分析评价的方法, 该体系以净资产收益率为起点, 以总资产收益率和权益乘数为核心, 重点揭示企业盈利能力及权益乘数对净资产收益率的影响, 以及各相关指标间的相互影响关系, 为各级管理者优化经营理财状况, 提高公司经营效益体提供了思路, 提高总资产收益率的根本在于扩大销售、节约成本、优化投资配置、加速资金周转、优化资金结构、确定风险意识等. 杜邦分析体系的特点是将若干个用以评价企业经营、销量和财务状况的比例, 按其内在联系有机的结合起来, 形成一个完整的指标体系, 并最终通过权益收益率来综合反映 案例: 金山办公公布的杜邦分析图:
8. 原因分析 - 漏斗分析法
什么是漏斗分析法: 以漏斗的形式展现分析过程及结果. 也就是从业务流程角度进行对比分析, 通过环节变化查找指标变化原因. 漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具.
为什么要在分析业务流程的时候使用漏斗图?
因为漏斗图是对业务流程最直观的一种表现形式, 并且也最能说明问题所在. 通过漏斗图可以很快发现业务流程中存在问题的页面和环节.
9. 原因分析- 购物篮模型分析法
什么是购物篮模型分析法: 通过研究用户消费数据, 将不同商品之间进行关联, 并挖掘二者之间联系的分析方法, 也叫做商品关联分析法. 需要通过 支持度、置信度、提升度 三个指标判断商品之间的关联程度, 常用于零售行业.
购物篮模型分析法(关联分析) 通过研究用户消费数据, 将不同商品之间进行关联, 并挖掘二者之间联系的分析方法, 就叫做商品关联分析法, 即购物篮分析模型. 需要通过 支持度、置信度、提升度 三个指标判断商品之间的关联程度, 常用语零售行业.
① 支持度: A商品和B商品同时被购买的概率, 支持度越大, 商品间关联性越强. 计算公式: 同时购买A和B订单数 / 总购买订单数 (例: 今天共有10笔订单, 其中同时购买可乐和薯片的次数是7次, 那么可乐+薯片组合的支持度九十 7 / 10 = 70%) ② 置信度: 因为购买了A所以购买了B的概率, 需要注意与支持度区分开来. 计算公式: 同时购买A和B订单数 / 购买A的订单数 (例: 今天共有10笔订单, 其中购买可乐的次数是4,同时购买可乐和薯片的次数是3, 其中置信度是3 / 4 = 75%) ③ 提升度: 先购买A对购买B的提升作用, 用来判断商品组合方式是否具有实际价值, 大于 1 说明该组合方式有效, 小于 1 则说明无效.
计算公式: 支持度 / ( ( 购买A次数 / 总购买订单数 ) * ( 购买B次数 / 总购买订单数) ) (例: 今天共有10笔订单, 购买可乐的次数是8, 购买薯片的次数是6, 购买可乐 + 薯片的次数是6, 那么提升度是 0.6 / (0.8 * 0.6) > 1, 因此可乐 + 薯片的组合方式是有效的.)
10. 预测分析数据分析方法
什么是预测分析数据分析方法: 根据科管对象的已知信息, 运用各种定性和定量的分析理论与方法, 对事物未来发展的趋势和水平进行判断和推测的一种活动. 预测分析常用的方法可以分为定性预测与定量预测两大类.
预测分析常常用方法分类:
- 定性预测: 它是指预测的人依靠熟悉业务知识、具有丰富经验和综合分析能力的人员与专家, 根据已掌握的历史资料和直观材料, 运用个人的经验和分析判断能力, 对事物的未来发展做出性质和程度上的判断. 主要的预测方法有德尔菲法、主观概率法等.
- 定量预测: 它是一种运用数学工具对事物规律进行定量描述, 预测其发展趋势的方法. 定量预测可以分为数值预测与分类预测.
- 数值预测可用于用户数、收入、GDP、人口数等预测, 主要使用时间序列、回归分析等方法进行预测.
- 分类预测可用于用户是否流失、用户是否购买、用户是否会参与等行为进行预测, 主要使用决策树、逻辑回归、神经网络等方法进行预测 .
- 其中数值预测是我们最常用的预测方法.
预测分析下的分析方法:
预测分析的注意点: 业务为导向 , 技术为辅助, 预测分析的结果需要符合业务发展规律, 相关的预测分析技术得到的预测结果仅仅作为参考, 需要根据相关的运营策略、资源配置等情况决定是否修正预测结果, 并不是直接就采用他们的预测结果, 否则预测的结构很可能脱离业务的实际情况. 所以进行预测重点不在于是用多么高级的预测分析方法, 而是在于是否符合业务实际发展情况.
预测分析--趋势分析法: 应用事务时间发展的延续性原理来预测事物发展的趋势, 它有一个前提假设 -- 事物发展具有一定的连贯性, 即事物随时间发展变化的趋势也是今后该事物随时间发展变化的趋势. 只有在这样的前提假设下, 才能进行预测分析.

言覃