整洁数据

简而言之，本模块中高强度使用的 iris，mtcars，state.x77 （toy datasets）一般都是整洁数据。整洁数据的定义见此处。

整洁的数据总是相似的，而不整洁的数据各有各的不整洁。——托尔斯泰

而真实的数据都需要进行清洗，才能转换为整洁数据。

一个整洁数据有三大原则：

每个变量占一列

每个观测占一行

每个单元格是一个值

在绘制词云图的时候，出现第一行被视作列名的情况，这是一种不整洁的表现

长数据与宽数据根据表格的性状来区分，如果表格很长，则是长数据；如果表格很宽，就是宽数据。

数据的长宽与是否整洁没有直接关系，但一般的，长数据是整洁数据。

简单分辨：如果列（变量）间相关，如 week1，week2，…，则是宽数据；如果列（变量）间无关，或者说呈name-value对的形式，如 cyl, mpg 等，则是长数据

宽数据，变量都是考试成绩，人类读起来方便

学生姓名	期中考试	期末考试
小明	85	92
小红	90	88
小刚	78	82
长数据，变量间无关（标签-值），出现很大重复标签，可以使用 `group_by()` 函数运算

Sapere Aude