网页爬虫获取课程信息

最新推荐文章于 2024-01-05 20:51:33 发布

AC_Arthur

最新推荐文章于 2024-01-05 20:51:33 发布

阅读量1.4k

点赞数 1

分类专栏： Python项目实战开发文章标签：爬虫

本文链接：https://blog.csdn.net/weizhuwyzc000/article/details/62226809

版权

Python项目实战开发专栏收录该内容

2 篇文章 9 订阅

订阅专栏

Github链接：点击打开链接

用Python学习制作一个简单的网页爬虫：

1. 安装pycharm

是一个非常好用的IDE~，安装地址在：点击打开链接

2.学习一些常用的正则表达式符号和方法。

3.运用正则表达式，观察网页源代码，并提取想要的信息。

4.安装requests插件

本来一直顺风顺水，但是用到这个套件时提示我python没有安装，我费劲千辛万苦，终于在命令行里安装好了，很简单。
先进入C:\Python27\Scripts，里面有一个easy_install.exe，我们在这里就可以用命令：pipinstall requests来安装啦。

requests提供了网络链接的相关库。

5.观察源代码和审查元素获取信息

查看源代码：ctrl + U

审查元素：shift + ctrl + I

6.利用sub函数实现翻页

7.向网页提交数据：

get从服务器上获取数据

post向服务器传递数据并获取返回值。

核心方法：requests.post

核心步骤：构造表单、提交表单、获取返回信息

8.学会如何应对反爬虫机制：

有些网站会对访问他的程序进行检查，所以我们可以修改http头的文件，让对方网站误以为是一个浏览器在访问他而不是一个爬虫。我们可以把User-Agent放进去:

ha = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
html = requests.get('https://www.baidu.com/', headers = ha);
html.encoding = 'utf-8'
print html.text;

然后我们就可以写出一个简单的网络爬虫啦：

# -*-coding:utf-8-*-

import re
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class spider(object):
    def __init__(self):
        print "start spider"
    def changepage(self, url, total_page):
        now_page = int(re.search('pageNum=(\d+)', url, re.S).group(1))
        page_group = []
        for i in range(now_page, total_page+1):
            link = re.sub('pageNum=\d+', 'pageNum=%s'%i, url, re.S);
            page_group.append(link);
        return page_group;

    def getsource(self,url):
        html = requests.get(url)
        return html.text;

    def geteveryclass(self, source):
        everyclass = re.findall('<li id="(.*?)</li>', source, re.S);
        return everyclass;
    def getinfo(self, eachclass):
        info = {}
        info['title'] = re.search('title="(.*?)" alt', eachclass, re.S).group(1);
        info['content'] = re.search('<p style="height: 0px; opacity: 0; display: none;">(.*?)</p>', eachclass, re.S).group(1);
        timeandlevel = re.findall('<em>(.*?)</em>', eachclass, re.S);
        info['classtime'] = timeandlevel[0];
        info['classlevel'] = timeandlevel[1];
        info['learnnum'] = re.search('"learn-number">(.*?)</em>', eachclass, re.S).group(1);
        return info;
    def saveinfo(self, classinfo):
        f = open('info.txt', 'a');
        for each in classinfo:
            f.writelines('title:' + each['title'] + '\n');
            f.writelines('content:' + each['content'] + '\n');
            f.write('classtime:' + each['classtime'] + '\n');
            f.writelines('classlevel:' + each['classlevel'] + '\n');
            f.writelines('learnnum:' + each['learnnum'] + '\n');
            f.writelines('************************************\n\n');
        f.close();

if __name__ == '__main__':
    classinfo = []
    url = 'https://www.jikexueyuan.com/course/?pageNum=1'
    jikespider = spider();
    all_links = jikespider.changepage(url, 20)
    # print all_links
    for link in all_links:
        print u'正在处理页面：' + link
        html = jikespider.getsource(link);
        everyclass = jikespider.geteveryclass(html);
        for each in everyclass:
            info = jikespider.getinfo(each);
            #print each;
            classinfo.append(info);

    jikespider.saveinfo(classinfo);

AC_Arthur

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网页爬虫获取课程信息

Github链接：点击打开链接用Python学习制作一个简单的网页爬虫：1. 安装pycharm是一个非常好用的IDE~，安装地址在：点击打开链接2.学习一些常用的正则表达式符号和方法。3.运用正则表达式，观察网页源代码，并提取想要的信息。4.安装requests插件本来一直顺风顺水，但是用到这个套件时提示我python没有安装，我费劲千辛万苦，终于在命令
复制链接

扫一扫

专栏目录