使用python爬取中国电影票房数据并写入csv文件

环境

PyCharm 2021.1.2 x64
爬取的目标网页

一、代码

import requests
from bs4 import BeautifulSoup
url = "http://58921.com/alltime/wangpiao"#目标网页
response = requests.get(url)
#print(response.text)
response.encoding = "utf-8"
text = response.text
bs = BeautifulSoup(text,'lxml')
#print(bs)
table = bs.find('table',attrs={'class':'center_table table table-bordered table-condensed'})
#print(table)
thead = table.find('thead')
#print(thead)
tbody = table.find('tbody')
#print(tbody)
f = open('中国电影票房.csv',mode="w",encoding="UTF-8")
ths = thead.find_all('th')
#print(ths),
trs = tbody.find_all('tr')
for th in ths:
    if th==0:
        break
    f.write(th.text)
    f.write(",")
f.write("\n")#换行写
for tr in trs:
    if tr==0:
        break
    tds = tr.find_all("td")
    for td in tds:
        if td==0:#最后一个也被写后退出
            break
        f.write(td.text)
        f.write(",")#换列写
    f.write("\n")#换行写

二、结果

在这里插入图片描述

需要说明的问题

C3没有数据
原因是在网页原代码中这一数据是通过img标签(png格式图片)来显示的,不是网页文本显示的,我的想法是利用python文字识别技术来识别这张图片(识别中文需格外下载中文语言包),之后再写入csv文件。
目前还在努力实现中…

  • 2
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
当然可以!以下是一个简单的示例代码,使用Python中的requests和BeautifulSoup库来爬取网页内容并将其写入CSV文件中: ```python import csv import requests from bs4 import BeautifulSoup def crawl_website(url): # 发起GET请求 response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 找到需要的数据 data = [] # 假设你要爬取的网页上有一个表格,每行有两列数据 table = soup.find('table') # 假设表格在HTML中的标签是<table> rows = table.find_all('tr') # 假设每行在HTML中的标签是<tr> for row in rows: cols = row.find_all('td') # 假设每列在HTML中的标签是<td> if len(cols) == 2: # 假设每行都有两列数据 data.append([cols[0].text.strip(), cols[1].text.strip()]) # 将每一行的两列数据添加到data列表中 return data def write_to_csv(data, filename): # 将数据写入CSV文件 with open(filename, 'w', newline='') as file: writer = csv.writer(file) writer.writerow(['Column 1', 'Column 2']) # 写入表头 writer.writerows(data) # 写入数据 # 使用示例 url = 'https://example.com' # 替换为你要爬取的网页URL data = crawl_website(url) write_to_csv(data, 'output.csv') # 替换为你想要保存的CSV文件路径 ``` 请注意,上述示例代码是一个基本的框架,你需要根据你要爬取的具体网页的HTML结构来进行适当的修改。另外,请遵守网站的爬取规则和法律法规,确保你的爬虫行为合法合规。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eeeasyFan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值