2015年3月4日 星期三

Subseting

Subseting Matrix

[列,欄] 或 [列名,欄名]
預設結果為vector。

> x <- matrix(1:6, 2, 3)
> dimnames(x)<-  list(c("1st", "2nd") ,c("C1", "C2" , "C3") )
> x[1, ]
C1 C2 C3 
 1  3  5 
> x["1st",]
C1 C2 C3 
 1  3  5 
> x[1, , drop=FALSE]
     C1 C2 C3
1st  1  3  5

不可用 $欄名 ,$列名


Subseting Data.frame

[列,欄] , ["列名","欄名"] , $欄名 ,$列名,
預設結果為 vector。 以下都是 [1] 5 6

> x2<- data.frame(x) #**轉成 tabular **
x2[,3]
x2[,"C3"]
x2$C3

簡寫版 [ 欄 ] 或 [ "欄名" ]
結果是 data.frame

> x2[3]
> x2["C3"]
     C3
1st  5
2nd  6

但是, [[ 欄 ]] 或 [[ "欄名" ]] 就可以轉成 vector

x2[[3]]
x2[["C3"]]

Subseting List

[ 序位 ] 或 [ "名稱" ]
結果是 list
$foo
[1] 1 2 3 4

x <- list(foo = 1:4, bar = 0.6) 
attributes(x)  
class(x)  
x[1]
x["foo"]

[[ 序位 ]] 或 [[ "名稱" ]] 或 $名稱
結果都是vector
[1] 1 2 3 4

x$foo
x[[1]]
x[["foo"]]

簡寫版,給開頭名稱就可 x[["f", exact=FALSE]]

[[ 第 n 元素 ]] [第 i 個]
結果都是vector

> x[[1]][2]
[1] 2

所有元素的第 i 個,要寫function
> secondElement <- function(x){x[1]} > sapply(x,secondElement) foo bar baz "1" "0.6" "hello"

由 Data.frame 轉成 List
按月就有一個元素,元素裡是dataframe

library(datasets)
head(airquality)
s <- split(airquality, airquality$Month) 

s[[1]][1] 結果是dataframe
s[[1]][[1]] 結果是 vector


Subseting

jsonData$name=="datasharing"

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [25] FALSE FALSE FALSE FALSE FALSE FALSE

jsonData[jsonData$name=="datasharing", ]$createdat
[[1]] [1] "2013-11-07T13:25:07Z"
jsonData[with(jsonData, name=="datasharing" ), "created
at" ]
[[1]] [1] "2013-11-07T13:25:07Z"

jsonData[with(jsonData, name=="datasharing" ), 45 ]
[[1]] [1] "2013-11-07T13:25:07Z"


Removing NA Values

is.na() 用於單個變項

nrow(airquality) # 153
air2<-airquality[!is.na(airquality[[1]]),]
nrow(air2) # 116 筆 第1欄無NA

complete.cases() 用於整個資料檔

air3<-airquality[complete.cases(airquality),]
nrow(air3) # 111筆 完整的資料

多個資料檔同時check,要注意資料量相同

Ozone<-airquality[[1]]
Solar.R<-airquality[[2]]
Wind<-airquality[[3]]
sum( is.na(Ozone) | is.na(Solar.R) | is.na(Wind) )
[1] 3檔案中,共 42 筆有任一NA, 即 111筆完整資料

good<-complete.cases(Ozone,Solar.R,Wind)
sum(good)
[1] 111 筆完整資料
sum(!good)
[1] 42 筆有任一NA



簡例

指標的平均值,按月份

以Tapply,每月 1 個指標,結果為array

tapply(airquality[,"Ozone"], airquality$Month, function(x){mean(x, na.rm=TRUE)}
     )   
 5        6        7        8        9   
23.61538 29.44444 59.11538 59.96154 31.44828

以split 與 lapply,每個月可 N 個指標,結果為list

s <- split(airquality, airquality$Month)   
lapply(s, function(x){
  colMeans( x[, c("Ozone", "Solar.R", "Wind")], na.rm=TRUE )} 
     )

$`5`
Ozone     Solar.R     Wind 
 23.61538 181.29630  11.62258   
$`6`
Ozone     Solar.R     Wind 
 29.44444 190.16667  10.26667