第一个为利用linux下的工具来获取网页源码,我用的是Wget,也可以使用Curl,curl的话更加的灵活,可以设置很多参数
- //通过Wget来获取网页
- string GetHtmlByWget(string url)
- {
- //获取待下载网页文件名
- string fileName = url.substr((int)url.find_last_of("/") + 1);
- if(fileName != "")
- {
- string strCom = "wget -q "; //wget命令,-q表示不显示下载信息
- strCom.append(url);
- system(strCom.c_str()); //执行wget
- ifstream fin(fileName.c_str());
- if(!fin)
- {
- return "";
- }
- string strHtml = "";
- char chTemp[1024] = "";
- //读取网页文件到内存中
- while(fin.getline(chTemp , 1024))
- {
- strHtml.append(string(chTemp));
- strcpy(chTemp , "");
- }
- fin.close();
- strCom = "rm -f "; //删除文件命令,-f表示直接删除不做任何提示
- strCom.append(fileName);
- system(strCom.c_str()); //删除刚才下载下来的文件
- return strHtml; //返回网页源码
- }
- else
- {
- return "";
- }
- }
//通过Wget来获取网页 string GetHtmlByWget(string url) { //获取待下载网页文件名 string fileName = url.substr((int)url.find_last_of("/") + 1); if(fileName != "") {