-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathshapandemo3-403.html
91 lines (87 loc) · 6.43 KB
/
shapandemo3-403.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>数据清洗</title>
<link href="./shapanmin.css" rel="stylesheet" type="text/css">
<link rel="stylesheet" href="https://cdn.staticfile.org/twitter-bootstrap/3.3.7/css/bootstrap.min.css">
<script src="https://cdn.staticfile.org/jquery/2.1.1/jquery.min.js"></script>
<script src="https://cdn.staticfile.org/twitter-bootstrap/3.3.7/js/bootstrap.min.js"></script>
</head>
<body>
<section class="qui-page">
<header class="qui-header" style="background:url(./img/首页6.png) ;">
<h1 style="color: whitesmoke;">数据清洗</h1>
</header>
<section class="container" style="width: 1100px;">
<br /><br /><br />
<div class="btn-group">
<button type="button" class="btn btn-default"><a href="./shapandemo3-401.html">理论浏览</a></button>
<button type="button" class="btn btn-default"><a href="./shapandemo3-402.html">代码解释</a></button>
<button type="button" class="btn btn-default"><a href="./shapandemo3-403.html">示例演示</a></button>
</div>
<br><br><br><br>
<div id="context1" class="context" style="width: 1000px;line-height: 25px;">
以DMwR程序包中iris(鸢尾花)数据集作为演示示例,该数据集含有150个样本,包括Sepal.length(花萼长度)、Sepal.width(花萼宽度)、Petal.length(花瓣长度)、Petal.width(花瓣宽度)以及Species(花的种类)这五个变量。在异常值识别模块中,我们已经对Spedal.width(花萼宽度)变量中进行了异常值识别,以下将通过盖帽法来对其进行异常值处理:<br>
<img src="./img/数据清洗4-03.png" style="margin: 40px; margin-left: 100px;"><br>
在使用盖帽法之前,为了处理的严谨性,我们需要求数据服从正态分布。藉此,首先通过KS检验判断该组数据是否服从正态分布,运行结果如下:<br>
从检验结果来看,P值大于0.05,故可以认为该组数据服从正态分布。于是,我们使用盖帽法对原数据进行处理,并将结果以箱线图的形式呈现出来,运行结果如下所示:<br>
<img src="./img/数据清洗4-04.png" style="margin: 40px; margin-left: 100px;"><br>
<img src="./img/数据清洗4-05.png" style="margin: 40px; margin-left: 100px;"><br>
从运行结果我们可以知道,花萼宽度的0.01分位数为2.2,0.99分位数为4.151;对比使用盖帽法前后的箱线图,我们可知异常值的情况得到了较好的改善。但处理后的数据仍存在异常值,说明盖帽法有待改善,对于这一部分异常值我们可以通过删除后进行合理插补来解决。<br>
</div>
</section>
<footer class="qui-footerBasic" style="footer-">
<p class="switchStyle"><a href="#"><span>重庆交通大学</span></a></p>
</footer>
</section>
<aside class="qui-asides">
<section class="qui-aside">
<nav class="qui-asideNav">
<ul>
<li><a href="./shapanindex.html"><span>首页</span></a></li>
<li id="p1" class="dropdown"><a href="./shapandemo1.html"
class="dropdown-toggle"><span>R语言入门</span><b class="caret"></b></a>
</li>
<li class="dropdown"><a href="#" class="dropdown-toggle" data-toggle="dropdown"><span>数据清洗</span><b
class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="shapandemo3-01.html">缺失值识别</a></li>
<li><a href="shapandemo3-02.html">缺失值处理</a></li>
<li><a href="shapandemo3-03.html">异常值识别</a></li>
<li><a href="shapandemo3-04.html">异常值处理</a></li>
</ul>
</li>
<li class="dropdown"><a href="#" class="dropdown-toggle" data-toggle="dropdown"><span>数据集成</span><b
class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="./shapandemo2-1.html">理论浏览</a></li>
<li><a href="./shapandemo2-2.html">代码解释</a></li>
<li><a href="./shapandemo2-3.html">示例演示</a></li>
</ul>
</li>
<li class="dropdown"><a href="#" class="dropdown-toggle" data-toggle="dropdown"><span>数据变换</span><b
class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="./shapandemo4-01.html">简单函数变换</a></li>
<li><a href="./shapandemo4-02.html">数据规范化</a></li>
<li><a href="./shapandemo4-03.html">数据离散化</a></li>
<li><a href="./shapandemo4-04.html">属性构造</a></li>
</ul>
</li>
<li class="dropdown"><a href="#" class="dropdown-toggle" data-toggle="dropdown"><span>数据规约</span><b
class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="./shapandemo5-01.html">理论浏览</a></li>
<li><a href="./shapandemo5-02.html">代码解释</a></li>
<li><a href="./shapandemo5-03.html">示例演示</a></li>
</ul>
</li>
</ul>
</nav>
</section>
</aside>
</body>
</html>