使用 OpenXml 打开 Word 文档时出现 “The surrogate pair is invalid. Missing a low surrogate character.” 错误的解决方案
问题原因
在使用 C# 中的 OpenXml 框架操作 Word 文档时,有时会遇到错误消息 “The surrogate pair is invalid. Missing a low surrogate character.”,这通常是由于在文档中存在不合法的 Unicode 代理项导致的。
解决方案
解决这个问题的最好方法是检查文档的所有内容,找到包含不合法代理项的字符,并将其替换或者删除。使用 C# 的 System.Text.RegularExpressions.Regex 类中的 Replace 方法,过滤掉所有的不合法代理项。
private string? invalidText(string? input)
{
if (string.IsNullOrEmpty(input))
{
return input;
}
return System.Text.RegularExpressions.Regex.Replace(input, @"[^\u0009\u000a\u000d\u0020-\uD7FF\uE000-\uFFFD]", "");
}
这样就可以避免在操作 Word 文档时出现不合法代理项导致的错误。请注意,这种方法只是一种解决问题的方法,如果你在处理 Word 文档时出现了多次这种错误,你应该尽可能地找到并修复文档中的所有不合法代理项,以避免出现此类错误。