本次作业中,将对2个数据集进行探索性分析与预处理。
数据集1: NFL Play-by-Play 2009-2017
数据集2: San Francisco Building Permits
对标称属性,给出每个可能取值的频数
数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数
针对数值属性,绘制直方图,用qq图检验其分布是否为正态分布。绘制盒图,对离群值进行识别.
观察数据集中缺失数据,分析其缺失的原因。
分别使用下列四种策略对缺失值进行处理:
- 将缺失部分剔除
- 用最高频率值来填补缺失值
- 通过属性的相关关系来填补缺失值
- 通过数据对象之间的相似性来填补缺失值
处理后,可视化地对比新旧数据集。
分析过程的报告
分析程序