Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 1.07 KB

binning_and_normalization.md

File metadata and controls

7 lines (4 loc) · 1.07 KB

在机器学习中,例如有一列数据的取值范围是1-100,我把数据按0-33转换成0,34-66转换成1,67-100转换成2,这样的数据处理操作中文和英文叫什么?叫 rescale?

在机器学习中,将连续的数值数据转换为几个离散的区间的操作,在中文中通常称为“分箱”(Binning)或“装箱”(Bucketing),在英文中也称为 Binning 或 Bucketing。这种方法通常用于将连续变量转换为分类变量,或者用于数据的预处理阶段,以减少小的观察误差的影响。

这个过程不应该与“rescaling”混淆。Rescaling 是指将数据的范围缩放到一个新的范围,比如0到1或者-1到1,这种操作包括归一化(Normalization)和标准化(Standardization)等。在归一化过程中,数据的最小值会被转换为新范围的最小值,数据的最大值会被转换为新范围的最大值,其他值则按比例缩放。而在标准化过程中,数据会被转换为均值为0,标准差为1的分布。