Subseting Matrix
[列,欄] 或 [列名,欄名]
預設結果為vector。
> x <- matrix(1:6, 2, 3)
> dimnames(x)<- list(c("1st", "2nd") ,c("C1", "C2" , "C3") )
> x[1, ]
C1 C2 C3
1 3 5
> x["1st",]
C1 C2 C3
1 3 5
> x[1, , drop=FALSE]
C1 C2 C3
1st 1 3 5
不可用 $欄名 ,$列名
Subseting Data.frame
[列,欄] , ["列名","欄名"] , $欄名 ,$列名,
預設結果為 vector。
以下都是 [1] 5 6
> x2<- data.frame(x) #**轉成 tabular **
x2[,3]
x2[,"C3"]
x2$C3
簡寫版 [ 欄 ] 或 [ "欄名" ]
結果是 data.frame
> x2[3]
> x2["C3"]
C3
1st 5
2nd 6
但是, [[ 欄 ]] 或 [[ "欄名" ]] 就可以轉成 vector
x2[[3]]
x2[["C3"]]
Subseting List
[ 序位 ] 或 [ "名稱" ]
結果是 list
$foo
[1] 1 2 3 4
x <- list(foo = 1:4, bar = 0.6)
attributes(x)
class(x)
x[1]
x["foo"]
[[ 序位 ]] 或 [[ "名稱" ]] 或 $名稱
結果都是vector
[1] 1 2 3 4
x$foo
x[[1]]
x[["foo"]]
簡寫版,給開頭名稱就可 x[["f", exact=FALSE]]
[[ 第 n 元素 ]] [第 i 個]
結果都是vector
> x[[1]][2]
[1] 2
所有元素的第 i 個,要寫function
> secondElement <- function(x){x[1]}
> sapply(x,secondElement)
foo bar baz
"1" "0.6" "hello"
由 Data.frame 轉成 List
按月就有一個元素,元素裡是dataframe
library(datasets)
head(airquality)
s <- split(airquality, airquality$Month)
s[[1]][1] 結果是dataframe
s[[1]][[1]] 結果是 vector
Subseting
jsonData$name=="datasharing"
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [25] FALSE FALSE FALSE FALSE FALSE FALSE
jsonData[jsonData$name=="datasharing", ]$createdat
[[1]]
[1] "2013-11-07T13:25:07Z"
jsonData[with(jsonData, name=="datasharing" ), "createdat" ]
[[1]]
[1] "2013-11-07T13:25:07Z"
jsonData[with(jsonData, name=="datasharing" ), 45 ]
[[1]]
[1] "2013-11-07T13:25:07Z"
Removing NA Values
is.na() 用於單個變項
nrow(airquality) # 153
air2<-airquality[!is.na(airquality[[1]]),]
nrow(air2) # 116 筆 第1欄無NA
complete.cases() 用於整個資料檔
air3<-airquality[complete.cases(airquality),]
nrow(air3) # 111筆 完整的資料
多個資料檔同時check,要注意資料量相同
Ozone<-airquality[[1]]
Solar.R<-airquality[[2]]
Wind<-airquality[[3]]
sum( is.na(Ozone) | is.na(Solar.R) | is.na(Wind) )
[1] 3檔案中,共 42 筆有任一NA, 即 111筆完整資料
good<-complete.cases(Ozone,Solar.R,Wind)
sum(good)
[1] 111 筆完整資料
sum(!good)
[1] 42 筆有任一NA
簡例
指標的平均值,按月份
以Tapply,每月 1 個指標,結果為array
tapply(airquality[,"Ozone"], airquality$Month, function(x){mean(x, na.rm=TRUE)}
)
5 6 7 8 9
23.61538 29.44444 59.11538 59.96154 31.44828
以split 與 lapply,每個月可 N 個指標,結果為list
s <- split(airquality, airquality$Month)
lapply(s, function(x){
colMeans( x[, c("Ozone", "Solar.R", "Wind")], na.rm=TRUE )}
)
$`5`
Ozone Solar.R Wind
23.61538 181.29630 11.62258
$`6`
Ozone Solar.R Wind
29.44444 190.16667 10.26667