第16期 R语言数据处理核心!管道符用法详解
2024年11月2日大约 2 分钟
第16期 R语言学习tidyverse包不可避免的就是管道符的大量使用。让结构更加优雅,同时也让流程脉络更加清晰
1 图示
管道符及数据处理
2 管道符介绍及用法说明
管道 %>% 来自于 Stefan Milton Bache 开发的 magrittr 包。因为 tidyverse 中的包会自动加载 %>%,所以通常你无须显式地加载 magrittr。加载tidyverse后即可直接使用
管道符的作用是省去中间步骤,将前一步的结果,作为后一步的输入(第一个参数是data,tidyverse的框架下大部分都可以满足要求)。保证了数据的一致和思路的清晰。使得整合式数据处理成为可能
不使用管道符
- 代码中充斥着大量不必要的变量。
- 你必须在每一行代码中小心翼翼地修改变量后缀
使用管道符
- 减少了中间变量
- 避免因为代码行数过多,出现运行间断。数据多次进行重复处理的情况
3 管道符的在tidyverse下的具体实现
代码说明
- 只提供展示,不提供原数据,具体数据为个人之前使用过的
- 只展示管道符可以实现的功能和流程,具体函数说明需要个人积累
- 功能仅摘取我一次完整数据处理过程中展示的脉络功能,其它更多操作未涉及
数据导入及变量选择
使用mutate批量转换变量的数据类型
使用正则表达式批量进行变量重命名
图示的是删除变量中括号内的内容
使用rename进行变量重命名
使用mutate进行变量的重编码
使用pivot系列函数实现结构重组(重要的整洁化)
使用group_by+summarise实现分组汇总
结合baseR语法,进行数据的展示
结合ggplot2语法,进行可视化
使用join系函数进行数据框的匹配
实现批量建模,参考后续purrr包用法
数据的导出
bruceR包函数导出