关键字:R; 缺失值替换; collostruction analysis; linguistics
背景:
开题pilot study想用 collostruction analysis(或distinctive collexeme analysis,DCA,本质为Fisher exact test)看看to-infinitival complement在两种英语变体(American English和Singapore English)和哪些matrix verbs联系紧密,遂用ICE-USA和ICE-Singapore作为原始语料,以#lancbox为工具检索抽取所需语料,并使用R做统计分析。
问题描述:
提取所需数据后,将数据放在excel中做调整,并保存为xlsx,用R中的openxlsx读出数据,cbind()
其中两列到新变量a
,此时这两列数据就变成了factor类型。如法炮制变量b
后merge()
到变量c
,想用c[is.na(c)] <- 0
替换掉空缺值时报错如下:
Warning message:
In `[<-.factor`(`*tmp*`, thisvar, value = 0) :
invalid factor level, NA generated
原因及解释:
从网上查找后初步得出原因,是由于在