what is 整洁数据?
简而言之,本模块中高强度使用的 iris,mtcars,state.x77 (toy datasets)一般都是整洁数据。整洁数据的定义见此处。
整洁的数据总是相似的,而不整洁的数据各有各的不整洁。——托尔斯泰
而真实的数据都需要进行清洗,才能转换为整洁数据。
一个整洁数据有三大原则:
- 每个变量占一列
- 每个观测占一行
- 每个单元格是一个值
在绘制词云图的时候,出现第一行被视作列名的情况,这是一种不整洁的表现
长数据与宽数据
长数据与宽数据根据表格的性状来区分,如果表格很长,则是长数据;如果表格很宽,就是宽数据。
数据的长宽与是否整洁没有直接关系,但一般的,长数据是整洁数据。
简单分辨:如果列(变量)间相关,如 week1,week2,…,则是宽数据;如果列(变量)间无关,或者说呈name-value对的形式,如 cyl, mpg 等,则是长数据
宽数据,变量都是考试成绩,人类读起来方便
| 学生姓名 | 期中考试 | 期末考试 |
|---|---|---|
| 小明 | 85 | 92 |
| 小红 | 90 | 88 |
| 小刚 | 78 | 82 |
长数据,变量间无关(标签-值),出现很大重复标签,可以使用 group_by() 函数运算 |
| 学生姓名 | 考试场次 (Variable) | 分数 (Value) |
|---|---|---|
| 小明 | 期中考试 | 85 |
| 小明 | 期末考试 | 92 |
| 小红 | 期中考试 | 90 |
| 小红 | 期末考试 | 88 |
| 小刚 | 期中考试 | 78 |
| 小刚 | 期末考试 | 82 |