生活點滴: 3月 2015

Subseting Matrix

[列，欄] 或 [列名，欄名]
預設結果為vector。

> x <- matrix(1:6, 2, 3)
> dimnames(x)<-  list(c("1st", "2nd") ,c("C1", "C2" , "C3") )
> x[1, ]
C1 C2 C3 
 1  3  5 
> x["1st",]
C1 C2 C3 
 1  3  5 
> x[1, , drop=FALSE]
     C1 C2 C3
1st  1  3  5

不可用 $欄名，$列名

Subseting Data.frame

[列，欄] , ["列名"，"欄名"] , $欄名，$列名，
預設結果為 vector。以下都是 [1] 5 6

> x2<- data.frame(x) #**轉成 tabular **
x2[,3]
x2[,"C3"]
x2$C3

簡寫版 [ 欄 ] 或 [ "欄名" ]
結果是 data.frame

> x2[3]
> x2["C3"]
     C3
1st  5
2nd  6

但是， [[ 欄 ]] 或 [[ "欄名" ]] 就可以轉成 vector

x2[[3]]
x2[["C3"]]

Subseting List

[ 序位 ] 或 [ "名稱" ]
結果是 list
$foo
[1] 1 2 3 4

x <- list(foo = 1:4, bar = 0.6) 
attributes(x)  
class(x)  
x[1]
x["foo"]

[[ 序位 ]] 或 [[ "名稱" ]] 或 $名稱
結果都是vector
[1] 1 2 3 4

x$foo
x[[1]]
x[["foo"]]

簡寫版，給開頭名稱就可 x[["f", exact=FALSE]]

[[ 第 n 元素 ]] [第 i 個]
結果都是vector

> x[[1]][2]
[1] 2

所有元素的第 i 個，要寫function
> secondElement <- function(x){x[1]} > sapply(x,secondElement) foo bar baz "1" "0.6" "hello"

由 Data.frame 轉成 List
按月就有一個元素，元素裡是dataframe

library(datasets)
head(airquality)
s <- split(airquality, airquality$Month)

s[[1]][1] 結果是dataframe
s[[1]][[1]] 結果是 vector

Subseting

jsonData$name=="datasharing"

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [25] FALSE FALSE FALSE FALSE FALSE FALSE

jsonData[jsonData$name=="datasharing", ]$createdat
[[1]] [1] "2013-11-07T13:25:07Z"
jsonData[with(jsonData, name=="datasharing" ), "createdat" ]
[[1]] [1] "2013-11-07T13:25:07Z"

jsonData[with(jsonData, name=="datasharing" ), 45 ]
[[1]] [1] "2013-11-07T13:25:07Z"

Removing NA Values

is.na() 用於單個變項

nrow(airquality) # 153
air2<-airquality[!is.na(airquality[[1]]),]
nrow(air2) # 116 筆 第1欄無NA

complete.cases() 用於整個資料檔

air3<-airquality[complete.cases(airquality),]
nrow(air3) # 111筆 完整的資料

多個資料檔同時check，要注意資料量相同

Ozone<-airquality[[1]]
Solar.R<-airquality[[2]]
Wind<-airquality[[3]]
sum( is.na(Ozone) | is.na(Solar.R) | is.na(Wind) )
[1] 3檔案中，共 42 筆有任一NA, 即 111筆完整資料

good<-complete.cases(Ozone,Solar.R,Wind)
sum(good)
[1] 111 筆完整資料
sum(!good)
[1] 42 筆有任一NA

簡例

指標的平均值，按月份

以Tapply，每月 1 個指標，結果為array

tapply(airquality[,"Ozone"], airquality$Month, function(x){mean(x, na.rm=TRUE)}
     )   
 5        6        7        8        9   
23.61538 29.44444 59.11538 59.96154 31.44828

以split 與 lapply，每個月可 N 個指標，結果為list

s <- split(airquality, airquality$Month)   
lapply(s, function(x){
  colMeans( x[, c("Ozone", "Solar.R", "Wind")], na.rm=TRUE )} 
     )

$`5`
Ozone     Solar.R     Wind 
 23.61538 181.29630  11.62258   
$`6`
Ozone     Solar.R     Wind 
 29.44444 190.16667  10.26667

生活點滴

2015年3月4日星期三

Subseting

Subseting Matrix

Subseting Data.frame

Subseting List

Subseting

Removing NA Values

簡例

指標的平均值，按月份

網誌存檔

2015年3月4日 星期三

Subseting

Subseting Matrix

Subseting Data.frame

Subseting List

Subseting

Removing NA Values

簡例

指標的平均值，按月份

2015年3月4日星期三