-
Notifications
You must be signed in to change notification settings - Fork 6
/
Copy path02-base.Rmd
1788 lines (1223 loc) · 49.7 KB
/
02-base.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# 基础语法 {#base}
“程序 = 算法 + 数据结构”,**数据结构**是信息的载体,而**算法**是完成任务所需要的步骤。两者的构造和使用方法形成了编程语言独特的语法。本章先介绍 R 的基本数据结构,然后介绍条件和循环控制,接着介绍函数的创建与拓展包的使用,最后通过编程实战来实践和掌握本章涉及的知识点。
## 基本数据结构
为了表示现实世界的信息,各类编程语言常包含 3 种基本的数据类型:**数值型**,包括整数和浮点数;**字符型**,表示文本信息;**逻辑型**,也常称为布尔值,表示是非判断,如对与错,是与否。在 R 中,除了这些基本数据类型的实现,为了方便计算工作,R 本身还包含了矩阵、数据框和列表等复杂的数据类型,以支持表示各类常用的数据。
### 向量
在 R 中,数据运算常通过向量的形式进行。**向量**是一组同质的信息,如 20 个数字、30 个字符串(与数学术语中的向量类似,但不等同)。单一的信息在此被称为**元素**。**标量**可以看作元素数量为 1 的向量。
接下来我们通过向量元素的数据类型来实际地了解和操作它。
#### 数值
数值应该可以说是最常用的信息表现形式,如人的身高、年龄。在 R 中使用小学学到的阿拉伯表示法即可创建数值,如圆周率 $\pi$:
```{r}
3.14
```
> 此处 `#>` 后显示 R 运行代码后的返回结果,`[1]` 是结果的索引,以辅助用户观测,这里表示结果的第 1 个值是 3.14。
`typeof()` 与 `class()` 是两个对于初学者非常有用的函数,它们可以返回数据的类型信息。
```{r}
typeof(3.14)
class(3.14)
```
在 R 中不需要像其他语言一样区分数值的精度信息,`typeof()` 返回结果为 `double` 提示该值是一个浮点数。
在 R 中,任何所见的事物皆为**对象**,`class()` 返回对象的类信息,此处是 `numeric`(数值)。
我们再来看看如何在 R 中表示整数。借助上述两个工具函数,我们不难发现下面的代码与想象不同。
```{r}
3
typeof(3)
class(3)
```
`typeof()` 与 `class()` 对于 3 的返回结果与 3.14 完全相同!这是因为即便只输入 3,R 也将其作为浮点数对待。
我们可以利用 `identical()` 函数或 `is.integer()` 函数进行检查:
```{r}
identical(3, 3.0)
is.integer(3)
```
返回的结果是后面将介绍的逻辑值,`TRUE` 表示对、`FALSE` 表示错。因此可以判断 `3` 并不是整数。
正确的整数表示方法需要在数字后加 `L` 后缀,如 `3L`。
```{r}
is.integer(3L)
identical(3L, 3)
```
`is.integer()` 函数隶属于 `is.xxx()` 家族,该函数家族用于辅助判断对象是否属于某一类型。读者在 RStudio 中输入 `is.` 后 RStudio 将智能提示有哪些函数的名字以 `is.` 开头。
浮点数和整数都是数值,所以下面的代码都会返回 `TRUE`:
```{r}
is.numeric(3.14)
is.numeric(3L)
```
现实中的数据常成组出现,例如,一组学生的身高。R 使用 `c()` 函数(`c` 为 `combine` 的缩写)对数据进行组合:
```{r}
c(1.70, 1.72, 1.80, 1.66, 1.65, 1.88)
```
这样我们就有了一组身高数据。
利用 R 自带的 `mean()` 和 `sd()` 还是我们可以轻易求取这组数据的均值和标准差:
```{r}
# 均值
mean(c(1.70, 1.72, 1.80, 1.66, 1.65, 1.88))
# 标准差
sd(c(1.70, 1.72, 1.80, 1.66, 1.65, 1.88))
```
上面我们计算时我们重复输入了身高数据,如果在输入时发生了小小的意外,如计算标准差时将 `1.65` 写成了 `1.66`,那么我们分析得就不是同一组数据了!虽然说在上述的简单计算不太可能发生这种情况,但如果存在 100 甚至 1000 个数据的重复输入,依靠人眼判断几乎是必然出错的。
一个解决办法是依赖系统自带的复制粘贴机制,但如果一组数据被上百次重复使用,这种办法也不实际。
正确的解决办法是引入一个符号(Symbol),用该符号**指代**一组数据,然后每次需要使用该数据时,使用符号代替即可。符号在编程语言中也常被称为**变量**,后面我们统一使用该术语。
上述代码块改写为:
```{r}
heights <- c(1.70, 1.72, 1.80, 1.66, 1.65, 1.88)
mean(heights)
sd(heights)
```
`<-` 符号在 R 中称为赋值符号,我们可以将它看作数据的流动方向,这样更方便理解,我们不难猜测到 `->` 的写法也是有效的:
```{r}
c(1.70, 1.72, 1.80, 1.66, 1.65, 1.88) -> heights2
heights2
```
但通常以 `<-` 的写法为主。
另外,`=` 符号与 `<-` 有基本相同的含义,但不常用。如果读者有其他编程语言经验,也可以使用它作为常用赋值符号。两者的区别见本章【**常见问题与方案**】一节。
R 中变量的命名有一些限制,最重要的就是不要以数字开头:
```{r, error=TRUE}
3ab = 3
```
变量命名有 2 点建议:
1. 对于一些临时使用的变量,以简单为主,如 `i`、`j`、`k` 等。
2. 与数据相关的命名,建议与其信息一致,如上面的代码我使用了 `heights`,不然在没有注释的情况下,代码的阅读者无法快速理解你写的程序。
另外,**长变量**的命名通常有 2 个推荐的规则:
1. 骆驼法
以学生身高数据为例,可以写为 `studentHeights`,它遵循 `aBcDeF` 这样的构造方式。
2. 蛇形
以下划线作为分隔符,写为 `student_heights`。
两种写法在 R 中都很常用,读者选择一种即可,**重点在于一个 R 脚本中应当保持变量名命名风格的一致**。
在了解向量和变量后,我们再来学习下向量的计算方式。
假设我们有两组数据,分别以变量 `a` 和 `b` 存储:
```{r}
a <- c(1, 2, 3)
b <- c(4, 5, 6)
```
我们将其堆叠到一起,如图 \@ref(fig:vector-construction):
```{r vector-construction, fig.height=1, echo=FALSE, fig.cap="向量的直观展示"}
layout(matrix(1:6, byrow = TRUE, ncol = 3))
layout.show(6)
```
当我们将 `a` 与 `b` 相加,结果是什么呢?
```{r}
a + b
```
两个向量之和是向量元素一一相加组成的向量。如果向量的元素不相同,结果又是如何呢?
我们将 `a` 与 `4` 相加看一看,此时向量堆叠如图 \@ref(fig:vector-add) 所示:
```{r vector-add, fig.height=1, echo=FALSE, fig.cap="向量不等长图示"}
layout(matrix(c(1:4, 0, 0), byrow = TRUE, ncol = 3))
layout.show(4)
```
```{r}
a + 4
```
上述结果与 `a + c(4, 4, 4)` 相同:
```{r}
a + c(4, 4, 4)
```
因此,如果向量不等长时,短向量会通过重复与长向量先对齐(如图 \@ref(fig:vector-align)),然后再相加。
```{r vector-align, fig.height=1, echo=FALSE, fig.cap="向量对齐"}
layout(matrix(c(1:4, 4, 4), byrow = TRUE, ncol = 3))
layout.show(4)
```
注意,此过程中,长向量会保持不变,如果出现短向量重复后无法对齐的情况,多余的部分将被扔掉,R 返回结果的同时会抛出一个警告信息。
```{r, warning=TRUE}
c(1, 2, 3) + c(4, 5)
# 上面的加法等价于 c(1, 2, 3) + c(4, 5, 4)
```
整个过程称为**向量化运算**。除了加法,其他任何向量(几何)运算方式都相同。
```{r}
# 想减
a - b
# 相除
a / b
# 相乘
a * b
# 整除
a %/% b
# 取余数
a %% b
# 平方
a ^ 2
# 取对数
log(a, base = 2)
```
**向量化运算**的本质是成对的向量元素运算操作。这个特性让 R 在处理数据时非常方便,无论向量元素的个数是多少,在运算时我们都可以将其作为标量对待。
例如,计算数据 `heights` 的均值和标准差,这里我们直接通过公式而不是 R 自带的函数进行计算:
$$
\mu = \frac{\sum x_i}{n}
$$
$$
sd = \sqrt\frac{\sum(x_i - \mu)^2}{n - 1}
$$
> `sd` 的计算中使用的是 `n-1` 而不是 `n` 的原因是我们计算的是**样本**标准差。
实际操作如下:
```{r}
# 先计算均值
heightsMean <- sum(heights) / length(heights)
heightsMean
# 计算标准差
heightsSD <- sqrt( sum( (heights - heightsMean)^ 2) / (length(heights) - 1) )
heightsSD
```
将结果与 R 函数计算结果对比:
```{r}
mean(heights)
sd(heights)
```
注意,上述我们使用了 R 的一些其他工具函数,`length()` 用来获取向量的长度,而 `sum()` 用来获取向量之和,`sqrt()` 用来计算开方。
初学者可能对于计算中使用的一些计算函数感到陌生,这是**非常非常非常正常**的,我个人也无法记得所有 R 提供的函数,编程是一门实践课程,读者需要通过使用去熟悉,而无法通过死记硬背掌握。在想要使用自己不知道的函数时,这里有几点建议:
1. 猜测函数名。R 的函数命名方式是有规律可循的,且大体有对应的英文含义,读者不妨先尝试猜一猜函数名,看看是否真的有。
2. 使用 R 的文档系统。R 的文档系统非常丰富,读者可以在 R 控制台 `?numeric` 来获取关于 `numeric` 的相关信息。而 `??numeric` 可以进行更为深度的搜索。学会读和理解函数文档是掌握 R 必备的技能。
3. 使用搜索引擎。(初学者)遇到的问题基本都会有人遇到,R 的用户众多,各个博客和论坛都记录了关于 R 的使用和问题讨论,在上述 2 点无法解决问题时,读者不妨多使用搜索引擎查找相关资料。
这一小节我们通过数值数据作为对象学习了一些重要的 R 基础概念和操作。接下来我们将这些知识拓展到其他基础数据类型中就相对容易多了。
#### 字符串
日常数据处理任务中除了常见的数值型数据,文本数据也比较常用。例如,表示性别是“男”或“女”,教育程度是“中学”还是“大学”。
在 R 中,并不能直接通过输入非数值的字符创建字符串:
```{r, error=TRUE}
男
```
文本数据需要通过单引号 `''` 或双引号 `""` 引号括起来,这样就可以创建字符串了:
```{r}
'男'
"女"
```
```{r}
typeof("abcde")
class("abcde")
```
单双引号可以通过嵌套以实现单引号或者双引号的输出:
```{r}
'"abcde"'
"'abcde"
```
由于 R 的底层实现只有双引号,所以 `'"abcde"'` 输出中的 `"` 带有转义符号 `\`(反斜杠)。读者可以利用转义符号完成对引号(或其他一些特殊符号)的输出操作。
```{r}
'\'abc' # a 前面的单引号被转义了,''abc' 则是错误的写法
"\"\'abc" # 参照上面进行理解,试试运行 ""'abc",你会观察到什么现象?为什么?
```
函数 `nchar()` 常用于获取字符串中字符的个数:
```{r}
nchar("abcde")
```
注意,这与获取字符串向量的元素个数是不同的:
```{r}
abc <- c("abcde", "f", "g")
length(abc)
nchar(abc)
```
字符串常涉及集合操作,如交集、并集、差集:
```{r}
# 交集
intersect(c("a", "b", "c"),
c("a", "b", "d"))
# 并集
union(c("a", "b", "c"),
c("a", "b", "d"))
# 差集
setdiff(c("a", "b", "c"),
c("a", "b", "d"))
```
注意,集合操作同样适用于其他数据类型,读者不妨试一试。
#### 因子
因子是另类的字符串,它引入了水平信息,更有利于保存和展示分类的文本数据,创建方式如下:
```{r}
sex <- factor(c("Male", "Female", "Female", "Male", "Male"))
sex
```
上述结果除了打印向量本身的元素,还输出了变量 `sex` 的水平信息。水平信息可以通过 `levels()` 函数获取。
```{r}
levels(sex)
```
重命名因子水平,可以完成对应所有元素的修改:
```{r}
levels(sex) <- c("Female", "男的")
sex
```
水平可以在创建因子时指定,如果一些分类没有对应的水平,将被转换为 `NA`(Not Available 的缩写),`NA` 是 R 中比较特殊的一个值,表示数据未知的状态。
```{r}
factor(c("Male", "Female", "Female", "Male", "Male", "M", "M"), levels = c("Male", "Female"))
```
除了水平,我们还可以为分类添加标签以展示某一分类对应的具体信息:
```{r}
factor(c("Male", "Female", "Female", "Male", "Male", "M", "M"),
levels = c("Male", "Female"),
labels = c("性别:男", "性别:女"))
```
初学者需要额外注意,R 代码不支持中文,中文以及特殊字符只能出现在字符串中,两者的换用是代码出错的常见原因。
#### 逻辑值
逻辑值仅有 2 个:`TRUE` 和 `FALSE`,对应缩写为 `T` 和 `F`。一般并不会直接使用逻辑值存储信息,而是使用它管理程序的逻辑,这一点在本章【控制结构与循环】一节中介绍。
逻辑值的另外一个重要作用是对数据取子集,相比于整数索引,它更加的高效。
我们先看一下如何利用整数索引提取子集,如提取变量 `heights` 的第 2 个元素:
```{r}
heights[2]
```
再提取第 2 到第 5 个元素,这会形成新的向量:
```{r}
heights[2:5]
```
这里 `2:5` 是一个便捷操作,它生成了整数向量 `c(2, 3, 4, 5)`:
```{r}
2:5
```
如果使用负号,将会去掉对应的元素:
```{r}
heights
heights[-2]
```
在实际工作中,需要提取的数据子集通常不会这么有序,因此需要借助比较运算符和 `which()` 函数获取子集数据的索引。
例如,找出身高大于 1.7 的数据:
```{r}
# 先使用 which() 找出索引
which(heights > 1.7)
# 然后组合取子集操作提取子集数据
heights[which(heights > 1.7)]
```
实际上,我们完全没有必要引入 `which()` 函数用来返回数据的整数索引,`heights > 1.7` 比较的结果是一个逻辑值向量,它本身就可以作为索引用于提取子集。
```{r}
heights > 1.7
heights[heights > 1.7]
```
`TRUE` 对应的元素被保留,而 `FALSE` 对应的元素被去除。请读者记住,逻辑索引是首选的取子集方式,它更加高效。
#### 深入向量
向量除了保存数据,还可以保存与之相关的属性。例如,为了更好展示 `heights` 信息,我们可以增加名字属性。
```{r}
names(heights) <- paste("Student:", 1:6)
heights
```
上述代码中,`paste()` 将两个向量粘贴到一起,默认中间存在空格。
```{r}
paste("Student:", 1:6)
# 修改分隔符
paste("Student", 1:6, sep = "-")
```
`names()` 函数不仅可以设定名字属性,还可以查看:
```{r}
names(heights)
```
R 中很多函数都与 `names()` 类似,不仅可以用于修改,同时还可以用于获取对应的信息。
另外,R 对象所具有的属性可以通过 `attributes()` 函数查看:
```{r}
attributes(heights)
```
R 默认的类系统非常自由,我们可以任意设定属性,如增加一个班级属性:
```{r}
attr(heights, "class-name") <- "A"
attr(heights, "class-name")
attributes(heights)
```
在创建向量时,一些函数会相当有用,如 `rep()`,它可以用来重复数据。
```{r}
rep(1:4, 3)
rep(1:4, each = 3)
```
读者如果想要更新部分向量值,直接对提取的子集重新赋值即可。
```{r}
heights2
heights2[heights2 > 1.8] <- 1.8
heights2
```
### 数组与矩阵
我们前面看的的向量都是一个维度的,如果我们增加维度信息,将形成数组。2 维的数组比较常用,被称为矩阵。
创建一个 2x2x3 的数组:
```{r}
array(1:12, dim = c(2, 2, 3))
```
创建一个 4x3 的矩阵:
```{r}
matrix(1:12, nrow = 4, ncol = 3, byrow = TRUE)
```
矩阵包含 2 个常用的属性,行名 `rownames` 和列名 `colnames`:
```{r}
M <- matrix(1:12, nrow = 4, ncol = 3, byrow = TRUE)
rownames(M)
colnames(M)
```
上述创建矩阵时我们没有设定,所以默认是 `NULL`(空值)。我们可以自行设定:
```{r}
rownames(M) <- paste0("a", 1:4)
colnames(M) <- paste0("b", 1:3)
M
```
还可以获取矩阵的维度信息:
```{r}
dim(M)
# 行数
nrow(M)
# 列数
ncol(M)
```
针对数值矩阵,一些运算非常有用:
```{r}
# 矩阵和
sum(M)
# 矩阵均值
mean(M)
# 行和
rowSums(M)
# 列和
colSums(M)
# 行均值
rowMeans(M)
# 列均值
colMeans(M)
```
取子集操作依旧是适用的,逗号 `,` 用于分割不同的维度:
```{r}
# 第 1 行第 1 列的元素
M[1, 1]
# 第 1 行
M[1, ]
# 第 1 列
M[, 1]
# 前 2 行
M[1:2, ]
# 前 2 列
M[, 1:2]
```
当取单行时,由于维度信息默认丢失,返回的是一维向量,我们可以显式指定保留矩阵形式,如:
```{r}
M[, 1, drop = FALSE]
```
逻辑索引也可以使用:
```{r}
M[rowMeans(M) > 5, ]
```
### 数据框
数据框(`data.frame`)是 R 中非常独特的一种数据结构,它可以非常好存储和展示常见的表格数据。从外形上看,它与矩阵非常相似,但与矩阵不同的是,数据框的列可以是不同的数据类型。
例如,创建一个数据框存储性别,年龄和身高数据。
```{r}
df <- data.frame(
sex = c("F", "M", "M", "F"),
age = c(17, 29, 20, 33),
heights = c(1.66, 1.84, 1.83, 1.56)
)
df
```
`str()` 非常方便用于观察复杂数据类型的结构:
```{r}
str(df)
```
默认,数据框中字符列会被自动转换为因子类型,我们可以通过设定修改它。
```{r}
df <- data.frame(
sex = c("F", "M", "M", "F"),
age = c(17, 29, 20, 33),
heights = c(1.66, 1.84, 1.83, 1.56),
stringsAsFactors = FALSE
)
df
str(df)
```
很多适用于矩阵的操作同样适用于数据框。
例如,获取维度信息:
```{r}
dim(df)
# 行数
nrow(df)
# 列数
ncol(df)
```
例如,获取和设定行、列名:
```{r}
rownames(df)
colnames(df)
rownames(df) <- paste0("Stu", 1:4)
# 将列名大写
colnames(df) <- toupper(colnames(df))
df
```
数据框支持多种取子集的操作,包括整数索引、逻辑索引、行列名。
先看整数索引:
```{r}
df[1:2, 1:2]
```
再看逻辑索引:
```{r}
df[c(TRUE, TRUE, FALSE, FALSE), c(TRUE, TRUE, FALSE)]
# 等价于
df[rownames(df) %in% c("Stu1", "Stu2"), colnames(df) %in% c("SEX", "AGE")]
```
这里 `%in%` 运算符是成员判断操作,如 `'a' %in% c('a', 'b')` 是判断 `'a'` 是否在字符串向量 `c('a', 'b')` 中。第二种写法看起来比较繁琐,但实际工作中比较常用。
我们还可以直接使用名字:
```{r}
df[c("Stu1", "Stu2"), c("SEX", "AGE")]
```
单独提取某一列生成一个向量是一个常用操作,读者可以使用两种操作符,包括 `[[]]` 和 `$`。
例如提取 `SEX` 列:
```{r}
df[[1]]
df[["SEX"]]
df$SEX
```
需要注意 `[[]]` 与 `[]` 的区别,后者依旧返回一个数据框:
```{r}
df['SEX']
```
另外,取子集操作可以使用 R 提供的 `subset()` 函数:
```{r}
# 取行
subset(df, subset = rownames(df) %in% c("Stu1", "Stu2"))
# 取列
subset(df, select = colnames(df) == "SEX")
# 同时筛选行和列
subset(df, subset = rownames(df) %in% c("Stu1", "Stu2"),
select = colnames(df) == "SEX")
```
数据框如果想要修改或更新某列,像向量一样重新赋值即可:
```{r}
df$AGE <- 20
df
```
### 列表
列表可以表示**非常非常非常复杂**的数据结构。数据框可以看作列表所有列元素长度相同的特例。
创建一个列表如下:
```{r}
l <- list(
sex = c("F", "M"),
age = c(17, 29, 20),
heights = c(1.66, 1.84, 1.83, 1.56)
)
l
```
从输出上我们就可以知道如何提取不同的信息:
```{r}
l$sex
l$heights
```
列表只有 `names` 属性,没有行列名属性:
```{r}
names(l)
```
类似于数据框,`[[]]` 取子集得到一个列表元素,而 `[]` 得到一个子列表。
```{r}
l['sex']
l[['sex']]
```
列表是支持嵌套的,下面我们将两个列表 `l` 放到一起:
```{r}
l2 <- l
l2$l1 <- l
l2
```
## 控制结构
在处理数据分析任务时,我们很少能够简单依赖命令的顺序执行就完成任务。为了处理程序的复杂逻辑以及减少代码量,我们需要学习条件与循环控制的使用。
### 条件控制
#### if 语句
if 语句是最常用的条件结构,它由 if 关键字、条件判断语句和代码块组成:
```{r, message=T}
age <- 20
if (age > 18) {
# 如果条件判断结果为 TRUE
# 该代码块中的语句会执行
message("你是个成年人啦!")
}
```
条件判断语句结果必须返回一个逻辑值,即 `TRUE` 或 `FALSE`。如果返回为 `TRUE`,随后以 `{}` 包裹的代码块会被执行。如果我们要处理为 `FALSE` 的情况,增加一个可选的 else 语句块。
```{r, message=T}
age <- 16
if (age > 18) {
# 为 TRUE 时执行
message("你是个成年人啦!")
} else {
# 为 FALSE 时执行
message("你还是个小孩子哟!")
}
```
代码块中可以包含任意代码,所以 if-else 语句是支持内部嵌套的,结构如下:
```{r, eval=FALSE}
if () {
if () {
} else {
}
} else {
}
```
如果需要处理的情况是多种,if-else 语句可以连用。例如:
```{r, message=TRUE}
age <- 17
if (age > 18) {
message("你是个成年人啦!")
} else if (age < 17) {
message("你还是个小孩子哟!")
} else {
message("恭喜你,快要成年了!")
}
```
#### switch 语句
swtich 语句在 R 中存在,但读者会极少见到和使用它。结构如下:
```{r, eval=FALSE}
switch(EXPR, ...)
```
这里 `EXPR` 指代表达式,而 `...` 说明可以输入任意参数。
这里只举一个简单的例子:
```{r, message=TRUE}
ch <- c("b")
cat(ch,":", switch(EXPR = ch, a = 1, b = 2:3), "\n")
```
switch 与函数式编程结合更具不凡的威力,其他场景下我极少见到该语句被使用。因此,我建议初学者了解即可,不必掌握。当然,读者如果遇到非常适合的场景也不妨试一试它,应该是可以让代码更为精炼有效的。
#### 提示信息
编写程序时,通过输出一些提示信息可以更好地显示程序的运行状态是否如我们所预期,这是一个初学者需要掌握的一个技巧,能有效避免错误和帮助调试错误。
R 可以通过 `print()`、`message()`、`cat()`、`warning()` 和 `stop()` 输出提示信息,只有 `stop()` 会让程序终止。
读者通过下面的输出比较前几者的差别:
```{r, message=TRUE, warning=TRUE}
print("Running...")
message("Running...")
cat("Running...\n")
warning("Running...")
```
`cat()` 与 `message()` 看起来差别不大,但 `cat()` 无法被禁止输出,默认没有换行。另外 `message()` 和 `warning()` 的信息是可以被抑制掉的,如下:
```{r, message=TRUE, warning=TRUE}
message("Running...")
suppressMessages(message("Running..."))
warning("Running...")
suppressWarnings(warning("Running..."))
```
我们再来了解下 `stop()`,它会直接让程序终止掉,这可以有效避免正确的代码跑错误的数据。
例如,计算均值需要一个数值型数据,但我们却传递了一个字符串:
```{r, error=TRUE}
heights_str <- as.character(heights)
if (!is.numeric(heights_str)) {
stop("无法对字符串计算!")
} else {
# 下面的代码不会被运行
mu <- mean(heights_str)
}
```
一般情况下,我推荐读者按需使用 `message()`/`print()`、`warning()` 和 `stop()` 这几个函数,它们体现信息的 3 个不同级别:
- `message()`/`print()` 提供普通的输出信息。
- `warning()` 提供需要注意的警告信息。
- `stop()` 提供令程序停止运行的信息。
### 循环控制
当我们需要重复某一个(堆)操作时,就需要用到循环的力量了。R 中的循环语句效率历来被人诟病,但实际上已经大有改进。循环语句相比后面提到的 `apply` 家族函数具有更高的可读性,且容易理解和调试,因此我个人推荐初学者使用。如果本小节提到的几个循环控制语句确实影响到读者程序的效率,再找其他办法也不迟。
> 在此强调一下,无论是程序的编写还是科研分析工作,**完成**永远比**高效**重要。
#### for 语句
for 语句需要配合迭代变量、in 关键字一起使用,结构如下:
```{r, eval=FALSE}
for (i in obj) {
# 这里输入任意条语句
}
```
这里 `i` 指代迭代变量,它可以是索引,也可以是子数据集。`obj` 指代一个可迭代对象。
针对循环打印变量 `heights` 的信息,可以有以下 2 种方式:
```{r}
# 第一种方式
# 直接循环迭代对象本身
for (i in heights) {
print(i)
}
# 第二种方式
# 通过索引进行迭代
for (i in 1:length(heights)) {
print(heights[i])
}
```
第二种方式写法看起来更为复杂,但如果针对一些复杂的程序,它则显得更加逻辑分明。
初学者容易犯的一个错误是将 in 后面的可迭代对象写成一个标量,如下:
```{r, error=TRUE}
for (i in length(heights)) {
print(heights[i])
}
```
需要注意下面两者的区别:
```{r}
length(heights)
1:length(heights)
```
一种更好的写法是使用 `seq_along(heights)` 替代 `1:length(heights)`:
```{r}
for (i in seq_along(heights)) {
print(heights[i])
}
```
`seq_along()` 会自动返回可迭代对象的索引序列:
```{r}
seq_along(heights)
```
#### while 语句
for 语句已经能满足一般场景的使用,while 语句则特别适合于算法的设计中:
- 不知道要运行多少次循环。
- 知道要退出循环的条件。
下面举一个简单的例子:
```{r}
v <- 10
while(v > 2) {
print(v)
v <- v - 1.1
}
```
#### repeat 语句与循环退出
repeat 语句我从来没有使用过,它类似与 C 语言中的 do-while 语句,即先运行一段程序,然后看一看是否需要退出去。
它的结构如下:
```{r, eval=FALSE}
repeat EXPR
```
EXPR 指代一个语句块。为了退出 repeat 循环,我们需要借助 break 语句的力量。
下面是一个简单例子:
```{r}
i <- 1
repeat{
print(i)
i <- i*2
if (i > 100) break
}
```
break 语句执行后将跳出当前的循环,另有 next 语句,它可以跳过后续代码的运行进入下一次循环。
基于上面的例子我们再构造一个示例:
```{r}
i <- 1
repeat{
print(i)
i <- i*2
if (i > 200) break()
if (i > 100) next()
print("Can you see me?")
}
```
当 `i > 100` 后,最后一条输出语句就不再运行。
## 函数与函数式编程
**函数是代码模板**。
前面我们使用符号(Symbol)来对数据抽象形成我们所谓的变量,变量名解释了所指向数据的内含但遮掩了底层的结构。类似地,我们也利用符号来对代码块所运行的操作集合进行抽象,并将其称为**函数**。
- 变量 <- 数据。
- 函数 <- 操作。
这样,函数就使得一组操作可以像使用变量那样重复使用了。
### 创建和使用函数
我们通过自定义一个计算均值的函数来查看函数是如何创建的:
```{r}
customMean <- function(x) { # x 是输入参数
# 以下是操作集合,即代码块
s <- i <- 0
for (j in x) {
s <- s + j
i <- i + 1