Linux获取网页源码的几种方法 linux爬虫程序

最新推荐文章于 2021-05-13 09:48:20 发布

beck_zhou

最新推荐文章于 2021-05-13 09:48:20 发布

阅读量1.1w

点赞数 1

分类专栏： C/C++（win32和linux）算法研究(数据挖掘、机器学习、自然语言、深度学习、搜索引擎) 转型——创业/经济/金融/投资/理财文章标签： linux string socket system url struct

本文链接：https://blog.csdn.net/zhoubl668/article/details/7416746

版权

第一个为利用linux下的工具来获取网页源码，我用的是Wget，也可以使用Curl，curl的话更加的灵活，可以设置很多参数

C++代码

//通过Wget来获取网页
string GetHtmlByWget(string url)
{
//获取待下载网页文件名
string fileName = url.substr((int)url.find_last_of("/") + 1);
if(fileName != "")
{
string strCom = "wget -q "; //wget命令，-q表示不显示下载信息
strCom.append(url);
system(strCom.c_str()); //执行wget
ifstream fin(fileName.c_str());
if(!fin)
{
return "";
}
string strHtml = "";
char chTemp[1024] = "";
//读取网页文件到内存中
while(fin.getline(chTemp , 1024))
{
strHtml.append(string(chTemp));
strcpy(chTemp , "");
}
fin.close();
strCom = "rm -f "; //删除文件命令,-f表示直接删除不做任何提示
strCom.append(fileName);
system(strCom.c_str()); //删除刚才下载下来的文件
return strHtml; //返回网页源码
}
else
{
return "";
}
}

//通过Wget来获取网页
string GetHtmlByWget(string url)
{
    //获取待下载网页文件名
    string fileName = url.substr((int)url.find_last_of("/") + 1);
    if(fileName != "")
    {

最低0.47元/天解锁文章

beck_zhou

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
4
评论
Linux获取网页源码的几种方法 linux爬虫程序

第一个为利用linux下的工具来获取网页源码，我用的是Wget，也可以使用Curl，curl的话更加的灵活，可以设置很多参数 C++代码 //通过Wget来获取网页 string GetHtmlByWget(string url) { //获取待下载网页文件名 string fileName = url.substr((int)url.
复制链接

扫一扫

专栏目录