Summary

因子(factor)是一种特殊的一维向量,主要用于分组

因子的概念

因子(factor) 是一种专门用于处理分类数据的特殊数据类型,它将离散的文本数据映射为数字编码,同时保留原始的类别信息,比如

  • male, female
  • treated, placebo
  • etc.

对 R 解释器来说,因子是整数编码,而对于人来说,因子是字符标签。这便于理解,又节约内存

水平

和在生物统计学中学到的一样,一个因子下可有众多水平(levels)

字符向量转化为因子时,R 会识别字符向量中的独特元素并生成数个水平。水平定义了因子可以取哪些值,是因子的本质

标签

标签与水平必须一一对应,它是便于人类理解的字符串,是水平的 alias

标签只改变显示,不改变实际数据

因子的操作