-
很多同学表示想看RFM,今天它来了。RFM是很传统的数据分析模型,几乎所有文章都会提到它,然而市面上流传的各种乱用、错用也非常多。今天我们系统讲一下。 1 、RFM基本原理RFM是三个单词的缩写:最近一次消费时间 (Recency),取数的时候
-
一、Alluxio Edge 产生的背景首先来介绍一下现代数据技术栈的演变历程。10 年前,Hadoop 拥有一个紧密耦合的 MapReduce 和 HDFS 架构。HDFS 在本地部署,计算资源多由 YARN 管理。今天,技术栈的丰富带给我们
-
继上次盘点《数据科学家95%的时间都在使用的11个基本图表》之后,今天将为大家带来数据科学家95%的时间都在使用的11个基本分布。掌握这些分布,有助于我们更深入地理解数据的本质,并在数据分析和决策过程中做出更准确的推断和预测。1. 正态分布正态分布(Normal
-
在数据科学和机器学习领域,许多模型都假设数据呈现正态分布,或者假设数据在正态分布下表现更好。例如,线性回归假设残差呈正态分布,线性判别分析(LDA)基于正态分布等假设进行推导。 因此,了解如何测试数据正态性的方法对于数据科学家和机器学习从业者至关重要。本文将介绍测
-
EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过
-
诊断业务问题,是很多企业对经营分析、数据分析的基础要求,也是数据驱动业务的三大基础方法之一。在数据分析方法里,业务问题诊断,是典型的“一看就会,一做就错”。很多同学很苦恼:“为啥我做的问题分析,业务方不认可呢?”今天系统地解答一下。一、常见做法业务诊断有标准的流程