what is 整洁数据?

简而言之,本模块中高强度使用的 irismtcarsstate.x77 (toy datasets)一般都是整洁数据。整洁数据的定义见此处

整洁的数据总是相似的,而不整洁的数据各有各的不整洁。——托尔斯泰

而真实的数据都需要进行清洗,才能转换为整洁数据。

一个整洁数据有三大原则

  1. 每个变量占一列
  2. 每个观测占一行
  3. 每个单元格是一个值

在绘制词云图的时候,出现第一行被视作列名的情况,这是一种不整洁的表现

长数据与宽数据

长数据与宽数据根据表格的性状来区分,如果表格很长,则是长数据;如果表格很宽,就是宽数据。

数据的长宽与是否整洁没有直接关系,但一般的,长数据是整洁数据。

简单分辨:如果列(变量)间相关,如 week1,week2,…,则是宽数据;如果列(变量)间无关,或者说呈name-value对的形式,如 cyl, mpg 等,则是长数据

宽数据,变量都是考试成绩,人类读起来方便

学生姓名期中考试期末考试
小明8592
小红9088
小刚7882
长数据,变量间无关(标签-值),出现很大重复标签,可以使用 group_by() 函数运算
学生姓名考试场次 (Variable)分数 (Value)
小明期中考试85
小明期末考试92
小红期中考试90
小红期末考试88
小刚期中考试78
小刚期末考试82