近期打算重新用c+lua实现以前用python写的一个简单的spider,所有规则尽可能都用lua实现,当然了,比如ocr的部份还是转调C的实现,由于对lua的不熟,花了几天,断断续续才整理出一个清理HTML等代码的函数:
----------------------------------------------------------------
function clearHTML(html)
html = string.gsub(html, '<script[%a%A]->[%a%A]-</script>', '')
html = string.gsub(html, '<style[%a%A]->[%a%A]-</style>', '')
html = string.gsub(html, '<[%a%A]->', '')
--删除空行
html = string.gsub(html, '\n\r', '\n')
html = string.gsub(html, '%s+\n', '\n')
html = string.gsub(html, '\n+', '\n')
html = string.gsub(html, '\n%s+', '\n')
--删除前后空格
html = string.gsub(html, '^%s+', '')
html = string.gsub(html, '%s+$', '')
return html
end
----------------------------------------------------------------