设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 大数据 > 正文

数据处理之——data.table

发布时间:2021-01-27 13:25 所属栏目:125 来源:网络整理
导读:data.table 简介 关于 R 中的数据处理,我们接着介绍 data.table 包。上期我们介绍的 dplyr 有类似于sql的一套数据处理的语法,而 data.table 则有着它自己的一套语法,它能处理几乎所有 dplyr 可以处理的数据,而且代码量更少,效率更高,特别是在处理大至G

data.table简介

关于R中的数据处理,我们接着介绍data.table包。上期我们介绍的dplyr有类似于sql的一套数据处理的语法,而data.table则有着它自己的一套语法,它能处理几乎所有dplyr可以处理的数据,而且代码量更少,效率更高,特别是在处理大至GB级别的数据时,它比dplyr以及python的pandas处理数据都要快。参见https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping。


示例数据

我们继续沿用dplyr中使用到的示例数据集pgdat,这样可以方便做对比,如果你想要获取该数据集的源代码,可以通过点击微信公众号学习课堂中的案例数据得到。

pgdat <- as.data.table(pgdat)
pgdat
# ? ? ?rk player wl ? ? ? ? ? ? match gs min ? fgp fgm fga ? ?p3p p3m p3a
# ? 1: ?1 ? 库里 胜 ? 灰熊104-125勇士 ?1 ?30 62.5% ?15 ?24 ?52.6% ?10 ?19
# ? 2: ?2 ? 库里 胜 ? ? 马刺86-92勇士 ?1 ?35 59.1% ?13 ?22 ?44.4% ? 4 ? 9
# ? 3: ?3 ? 库里 胜 ? ?灰熊99-100勇士 ?1 ?34 31.8% ? 7 ?22 ?21.4% ? 3 ?14
# ? 4: ?4 ? 库里 胜 ? 马刺101-112勇士 ?1 ?36 57.9% ?11 ?19 ?42.9% ? 3 ? 7
# ? 5: ?5 ? 库里 负 森林狼124-117勇士 ?1 ?43 28.0% ? 7 ?25 ?28.6% ? 4 ?14
# ?--- ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 415: 49 ? 欧文 胜 ? ?魔术79-104骑士 ?1 ?21 33.3% ? 4 ?12 ? 0.0% ? 0 ? 4
# 416: 50 ? 欧文 胜 ? ?太阳97-101骑士 ?1 ?24 43.8% ? 7 ?16 ?28.6% ? 2 ? 7
# 417: 51 ? 欧文 负 ? ? 勇士89-83骑士 ?1 ?26 26.7% ? 4 ?15 ? 0.0% ? 0 ? 6
# 418: 52 ? 欧文 胜 ? 尼克斯84-91骑士 ?1 ?19 14.3% ? 1 ? 7 ? 0.0% ? 0 ? 1
# 419: 53 ? 欧文 胜 ? ?76人86-108骑士 ?1 ?17 41.7% ? 5 ?12 100.0% ? 2 ? 2
# ? ? ? ? ftp ftm fta reb oreb dreb ast stl blk tov pf pts
# ? 1: 100.0% ? 6 ? 6 ? 4 ? ?1 ? ?3 ? 6 ? 2 ? 0 ? 2 ?2 ?46
# ? 2: 100.0% ? 7 ? 7 ? 5 ? ?0 ? ?5 ? 5 ? 2 ? 0 ? 4 ?4 ?37
# ? 3: ? ? ? ? ?0 ? 0 ? 9 ? ?0 ? ?9 ? 8 ? 1 ? 0 ? 2 ?1 ?17
# ? 4: 100.0% ? 2 ? 2 ? 5 ? ?0 ? ?5 ? 9 ? 2 ? 0 ? 3 ?2 ?27
# ? 5: 100.0% ? 3 ? 3 ? 6 ? ?2 ? ?4 ?15 ? 3 ? 0 ? 3 ?4 ?21
# ?--- ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 415: ?71.4% ? 5 ? 7 ? 2 ? ?1 ? ?1 ? 5 ? 0 ? 0 ? 1 ?1 ?13
# 416: 100.0% ? 6 ? 6 ? 1 ? ?0 ? ?1 ? 2 ? 1 ? 0 ? 1 ?0 ?22
# 417: 100.0% ? 5 ? 5 ? 3 ? ?3 ? ?0 ? 2 ? 1 ? 0 ? 2 ?1 ?13
# 418: 100.0% ? 3 ? 3 ? 1 ? ?1 ? ?0 ? 4 ? 0 ? 0 ? 2 ?2 ? 5
# 419: ? ? ? ? ?0 ? 0 ? 1 ? ?0 ? ?1 ? 4 ? 2 ? 0 ? 1 ?1 ?12

1. 基本概念

a) data.table是什么?

我们知道R中的数据框data.frame,而data.table可以看做是一个增强版的data.frame。创建一个data.table对象可以使用fread函数以读入文件的形式生成,也可以直接采用data.table函数生成。

DT = data.tableID c("b","a",68);">"c"),
? ? ? ? ? ? ? ?a = 1:6,b 712,0);">c=1318DT
# ? ?ID a ?b ?c
# 1: ?b 1 ?7 13
# 2: ?b 2 ?8 14
# 3: ?b 3 ?9 15
# 4: ?a 4 10 16
# 5: ?a 5 11 17
# 6: ?c 6 12 18
classDT$ID)
# [1] "character"

as.data.table可以将data.frame转化为data.table

data.table与data.frame的区别:
  • data.frames不同,在生成data.table的时候character类型的数据绝对不会默认地转换成factors类型,这样的好处就是你不用再在语句中每次都添加stringsAsFactors = FALSE了;

  • 打印数据时在行号后面加了一个冒号:用以区分行号与第一列数据;

  • 当数据行数超过options()参数设置datatable.print.nrows的值时,仅仅只会打印该数据集的前5行以及最后5行的数据;

# 查看默认参数设置
getOption"datatable.print.nrows"# [1] 100
  • (编辑:ASP站长网)

网友评论
推荐文章
    热点阅读