豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理

最新推荐文章于 2024-06-24 14:52:41 发布

Leviathan_Four

最新推荐文章于 2024-06-24 14:52:41 发布

阅读量662

点赞数 1

分类专栏： Python 爬虫文章标签： csv os python 爬虫

本文链接：https://blog.csdn.net/weixin_45755831/article/details/110670748

版权

Python 爬虫专栏收录该内容

3 篇文章 4 订阅

订阅专栏

二、豆瓣电影数据的整理

下一部分的爬取需要借助上一节爬取的数据，也就是电影的id号，根据id号来爬取具体的电影数据。需要对爬取的数据进行处理，成为更有利于我们使用的数据。如下图所示：

豆瓣index

这里把代码贴出来就不进行解释了。数据和代码放到一个目录下（data下是我们上一节爬取的数据，get_index_id_name.py是整理程序）：

运行路径

import os
import csv

def readAllFiles(filePath):
    id = []
    name = []
    fileList = os.listdir(filePath)
    for file in fileList:
        path = os.path.join(filePath, file)
        if os.path.isfile(path):
            with open(path, 'r') as f:
                reader = csv.reader(f)
                for i in reader:
                    if str(i[4]) != "NONE" and str(i[4]) != 'id':
                        id.append(i[4])
                        name.append(i[7])
    return name, id
#这里的路径是你当前目录下的路径，看下图解释
movie_name, movie_id = readAllFiles("data")

with open('index.csv', 'w', encoding='utf-8-sig', newline='') as f:
    f1 = csv.writer(f)
    for i in range(len(movie_name)):
        f1.writerow([movie_id[i], movie_name[i]])

谢谢大家的阅读！

Leviathan_Four

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理

豆瓣电影信息爬取豆瓣影评爬取长评短评一、豆瓣电影基本信息爬取首先我们需要找到爬取的对象，我所选择的方式是按照分类爬取。![https://movie.douban.com/chart](https://img-blog.csdnimg.cn/20201204183638434.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpb
复制链接

扫一扫

专栏目录