分享Python采集的77个PHP整站程序源码

记忆的小河

已于 2023-04-20 13:34:54 修改

阅读量160

点赞数

文章标签： php 数据库开发语言

于 2023-04-20 13:32:50 首次发布

本文链接：https://blog.csdn.net/zdh13370188237/article/details/130264418

版权

Python采集的77个PHP整站程序源码下载链接：百度网盘请输入提取码
提取码：pdwa

ULCms(Unlimited Cms) V1.0 RC Build 20080926

DiY-Page 自定制系统 V5.3 公测版

与非IT

Phpcms网站管理系统 2007 SP6 繁体中文UTF-8版 Build 20080805

SupeSite 6.0之Qinzhou.Cc模板

LazyCMS内容管理系统 V1.1.0.0702

织梦内容管理系统DedeCms Sp1 V5.1 Build 080623 UTF-8

BBBC-CMS V1.0

VeryCMS V3.3 简体中文 UFT-8

Photo CMS 图站程序 V1.0 BIG5 繁体中文

Photo CMS 图站程序 V1.0 GBK 简体中文

Wap建站系统

奥运主题网站--热奥运全站

智拓-企业快速建站系统(简体中文标准版)

曼波整站系统(Mambors) V5.5.0

十五工作室

中草药名方大全(8019条数据)

虚拟股市完美版 V6.0

Joomla! By YeYo V1.0.15 简体中文版

TantCms V0.3

import os
import shutil

import requests
from bs4 import BeautifulSoup

from framework.base.BaseFrame import BaseFrame
from sprider.access.SpriderAccess import SpriderAccess
from sprider.plugin.SpriderTools import SpriderTools
from sprider.plugin.UserAgent import UserAgent


class CNSourceCoder:
    base_url = "http://www.downcode.com"

    max_pager = 10  # 每页的数量 影响再次采集的起始位置.
    word_image_count = 5  # word插入图片数量 同时也是明细采集图片和描述的数量

    page_end_number = 0
    word_content_list = []
    haved_sprider_count = 0  # 已经采集的数量
    sprider_detail_index = 0  # 明细方法采集的数量 累加

Drupal V6.0 多国语言版

AdamCMS V1.1.1

Try2php整站系统(Try2php CMS) V1.05

帝国CMS网站管理系统(Empire CMS) V4.7 UTF8

(TSYS For PHP)颍上政务信息网网站群系统

Wap Portal Server V1.21 (PHP+MYSQL的WAP整站)

PHPWMS Ver 1.0 Bata 01版SP2（增加网站通知）

NiceWords智能建站系统

WonKoo_SUN漂亮的企业网站管理系统

天天学习网程序+数据整站

PHP圈子程序 V2.1

333

民间偏方 Ver 2.1

小蜜蜂商务网站门户系统(BBWPS) V2.1 Build 0926

思维(CMSware)内容管理系统 V2.85 Utf8简体中文版(PHP4)

思维(CMSware)内容管理系统 V2.85 Utf8繁体中文版(PHP5)

鸿天全站HUGESKY CMS V7.1.1.1

上海交通大学校友会网站管理系统

E学分类程序

拓网短网址系统 V1.0

恒准电脑网站

DiY-Page自定制门户系统 V4.0.0 BIG5繁体中文版

DiY-Page自定制门户系统 V4.0.0 UTF-8繁体中文版

DiY-Page自定制门户系统 V4.0.0 UTF-8简体中文版

WebMagik V1.3 RC2

# 查找指定文件夹下所有相同名称的文件
def search_file(dirPath, fileName):
    dirs = os.listdir(dirPath)  # 查找该层文件夹下所有的文件及文件夹，返回列表
    for currentFile in dirs:  # 遍历列表
        absPath = dirPath + '/' + currentFile

        if os.path.isdir(absPath):  # 如果是目录则递归，继续查找该目录下的文件
            search_file(absPath, fileName)
        elif currentFile == fileName:
            print(absPath)  # 文件存在，则打印该文件的绝对路径
            os.remove(absPath)

Site2U网站管理系统 V1.1

MyTopix V1.30 多国语言版

重庆促销网 V1.0

电脑公司自助装机系统

Duoxun! V3.0

Zb5 V0.0.5 Beta 简体中文版

Subdreamer Pro V2.4 多国语言版

OneAdmin Pro V4.1 商业汉化版

情感家园站企业程序(Qgweb) V5.0 多语言多风格版

为了工作室后台管理系统WEILE CMS V2.0

DataLife Engine V5.2 Nulled元旦汉化版

Dm72网站管理系统

TinaCMS 迷你CMS系统 BBcode版

Adlogger V1.23 中文汉化版

Phpcms网站管理系统 V3.0 繁体中文BIG5版

PHPWeb企业建站系统 V4.1

中国分类信息网


    def sprider(self,sprider_name,sprider_count,start_number,
                pager_number,sprider_type,is_show_browse,root_path,
                first_column_name,second_column_name,is_record_db):
        """
        http://www.downcode.com/sort/j_1_2_1.shtml
        :param sprider_name:
        :return:
        """
        self.first_folder_name=sprider_type.upper()
        self.base_path=root_path
        self.first_column_name = first_column_name
        self.second_column_name = second_column_name
        self.sprider_start_count=start_number
        self.is_record_db=is_record_db
        BaseFrame().debug("开始采集[源码下载站]" + self.first_folder_name + "源码...")
        BaseFrame().right("本次采集参数：sprider_count(采集数量):" + str(sprider_count) + "")
        BaseFrame().right("本次采集参数：sprider_name(采集名称):" + sprider_name + "")
        sprider_url = self.base_url + "/{0}/{1}_1.shtml".format(self.first_column_name, self.second_column_name)# 根据栏目构建URL
        BaseFrame().debug("本次采集参数：sprider_url:" + sprider_url)

        self.second_folder_name = str(sprider_count) + "个" + sprider_name  # 二级目录也是wordTitle
        self.merchant = int(self.sprider_start_count) // int(self.max_pager) + 1  # 起始页码用于效率采集
        self.file_path = self.base_path + os.sep + self.first_folder_name + os.sep + self.second_folder_name
        BaseFrame().right("本次采集参数：file_path=" + self.file_path + "")
        # 浏览器的下载路径
        self.down_path = self.base_path + os.sep + self.first_folder_name+ os.sep + self.second_folder_name+ "\\Temp\\"
        BaseFrame().right("本次采集参数：down_path=" + self.down_path + "")
        # First/PPT/88个动态PPT模板/动态PPT模板
        self.save_path = self.base_path + os.sep + self.first_folder_name + os.sep + self.second_folder_name + os.sep + sprider_name
        BaseFrame().right("本次采集参数：save_path=" + self.save_path + "")


        if os.path.exists(self.down_path) is True:
            shutil.rmtree(self.down_path)
        if os.path.exists(self.down_path) is False:
            os.makedirs(self.down_path)

        if os.path.exists(self.save_path) is True:
            shutil.rmtree(self.save_path)
        if os.path.exists(self.save_path) is False:
            os.makedirs(self.save_path)
        response = requests.get(sprider_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
        response.encoding = 'gb2312'
        soup = BeautifulSoup(response.text, "html5lib")
        #print(soup)
        element_list = soup.find_all('div', attrs={"class": 'j_text_sort_a'})
        page_end_number = 1
        page_end_url = ""
        page_end_title = soup.find("a", attrs={"title": '最后页'})
        page_end_url = page_end_title.get("href")
        if page_end_url is None or page_end_url == "":
            page_end_number = 1
        else:
            page_end_number = (page_end_url.split(".shtml")[0].split("_")[3])

        self.page_count = self.merchant

        while self.page_count <= int(page_end_number):  # 翻完停止
            try:
                if self.page_count == 1:
                    self.sprider_detail(element_list, page_end_number,sprider_count)
                    pass
                else:
                    if int(self.haved_sprider_count) == int(sprider_count):
                        BaseFrame().debug("sprider采集到达数量采集停止...")
                        BaseFrame().debug("开始写文章...")
                        SpriderTools.builder_word(self.second_folder_name,
                                                  self.word_content_list,
                                                  self.file_path,
                                                  self.word_image_count,
                                                  self.first_folder_name)
                        SpriderTools.copy_file(self.word_content_list,
                                               self.save_path,
                                               self.second_folder_name,
                                               self.file_path)
                        SpriderTools.gen_passandtxt(self.second_folder_name, self.word_content_list, self.file_path)
                        BaseFrame().debug("文件编写完毕，请到对应的磁盘查看word文件和下载文件！")
                        break
                    next_url = self.base_url + "/{0}/{1}_{2}.shtml".format(self.first_column_name,
                                                                           self.second_column_name,
                                                                           self.page_count)

                    response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
                    response.encoding = 'gb2312'
                    soup = BeautifulSoup(response.text, "html5lib")
                    element_list = soup.find_all('div', attrs={"class": 'j_text_sort_a'})
                    self.sprider_detail(element_list, page_end_number,sprider_count)
                    pass
                self.page_count = self.page_count + 1  # 页码增加1
            except Exception as e:
                BaseFrame().error("sprider()执行过程出现错误:" + str(e))

Pligg V7.2 Bate 153 汉化版

情感站企业程序 V4.0 Beta

创佳迷你全站系统 V1.0

Php网摘程序

随易典全站系统 V3.01

凌云居同学网全站系统V1.0

凌云居网络全站系统V1.0

天下站长网ＣＭＳ

LimboCMS V1.0.4 中文版(Pkupi)

天下站长网整1.3

《168整站V3.1版》

天下站长网整站系统1.0