写一个简单的python爬虫程序,爬取imdb资料库,将爬取到的电影信息,存储到一个excel表格中
因为imdb资料库电影网没有反扒措施,直接爬取即可
代码如下:
import requests
from lxml import etree
import pandas as pd
import numpy as np
# 第一页:'http://www.imdb.cn/IMDB250/'
# 第一页:'http://www.imdb.cn/imdb250/2'
# 第三页:'http://www.imdb.cn/imdb250/3'
class IMDB:
def __init__(self,move_name_list,move_score_list,move_bieming_list,move_ywm_list,move_dir_list,move_time_list):
self.move_name_list = move_name_list
self.move_score_list = move_score_list
self.move_bieming_list = move_bieming_list
self.move_ywm_list = move_ywm_list
self.move_dir_list = move_dir_list
self.move_time_list = move_time_list
self.spider()
def shuzu(self,content):
'''
将列表转化为二维数组
:param content: 列表
:return: 二维数组
'''