Summary
因子(factor)是一种特殊的一维向量,主要用于分组。
因子的概念
因子(factor) 是一种专门用于处理分类数据的特殊数据类型,它将离散的文本数据映射为数字编码,同时保留原始的类别信息,比如
- male, female
- treated, placebo
- etc.
对 R 解释器来说,因子是整数编码,而对于人来说,因子是字符标签。这便于理解,又节约内存
水平
和在生物统计学中学到的一样,一个因子下可有众多水平(levels)
将字符向量转化为因子时,R 会识别字符向量中的独特元素并生成数个水平。水平定义了因子可以取哪些值,是因子的本质
标签
标签与水平必须一一对应,它是便于人类理解的字符串,是水平的 alias
标签只改变显示,不改变实际数据