爬虫——数据处理

## 把所有文档中的元素载入一个列表,行数据为一个元素
import re

def txt_reading1(txt):                   # txt为带读取文件地址

    with open(txt,'r') as f:
        line = f.readlines()            # 完成列表载入,但是每个项后会存在 '\n'

    g=len(line)
    h=[]
    for i in range(g):
        j=line[i]
        j=j.strip()
        h.append(j)                     # 完成所有元素末尾 '\n' 的消除
    
    return h


stageandsorce=txt_reading1('/Users/LAAAAA~/Desktop/Python程序/filmstage.txt')                    #读取并拆分sorce与stage
lenstageandsorce=len(stageandsorce)
stage=[]
sorce=[]
for a in range(1,lenstageandsorce,2):
    stage.append(stageandsorce[a-1])
    sorce.append(stageandsorce[a])


def text_save(filename, data):#filename为写入文件路径,data为要写入数据列表.
    
    file = open(filename,'a')
    for i in range(len(data)):
        s = str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同,可以选择
        s = s.replace("'",'').replace(',','') +'\n'   #去除单引号,逗号,每行末尾追加换行符
        file.write(s)
    file.close()
    print("保存文件成功") 


#############################                   完成stage种类计算
ff=[]
stage1=[]
for a in range(int(lenstageandsorce/2)):
    ff=stage[a]
    try:
        ff=ff.split(' ')
        stage1.extend(ff)
    except:
        stage1.extend(ff)


assd1=[]
bb=len(stage1)
while True:
    try :
        assd=stage1[0]
        assd1.append(assd)
        for b in range(bb-1,-1,-1):
            if stage1[b] == assd :
                stage1.pop(b)
                bb=len(stage1)
    except :
        break
#############################                   完成stage种类计算

d={}
for a in range(len(assd1)):               #建立所有可选项项字典
    d[assd1[a]]=0


for a in range(int(lenstageandsorce/2)):           #完成数据统计
    ff=stage[a]
    try :
        ff=ff.split(' ')
        for hhhh in range(len(ff)):
            d[ff[hhhh]]=d[ff[hhhh]]+0.5-float(sorce[a])
    except:
        d[ff[0]]=d[ff[0]]+0.5-float(sorce[a])

totalsorce=0
maxsorce=0
maxname=''
for key in d.keys():
    totalsorce=totalsorce+d[key]
    if maxsorce <= d[key] :
        maxsorce=d[key]
        maxname=key
baifenbi=maxsorce/totalsorce



aaaaaaaaa=['总共统计项:',len(sorce),'最喜欢的类型为:',maxname,'对其评分为:',maxsorce,'占总分的:',baifenbi]
print(aaaaaaaaa)
text_save('/Users/LAAAAA~/Desktop/Python程序/shujuchuli.txt',aaaaaaaaa)

在这里插入图片描述
这条处理程序,主要是根据之前爬虫的存档结果设计,程序中有很大一段是为了把数据处理成所需要个格式。数据结果主要是通过基础统计的方法完成。同时为了事数据能更加真实的还原用户想法,这里为每一个用户信息进行加权处理。同时由于豆瓣网的个人评分系统是以星数进行结算,所以在去之上向上放宽0.5分左右,但同时把这一问题加权到最后的处理结果当中,统计得到最终结果。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
采集城市公交、地铁站点和线路数据可以帮助我们更好地了解城市公共交通系统的运作情况,为城市交通规划和出行提供参考。下面是一个基于Python的爬虫示例,可以用来采集城市公交、地铁站点和线路数据。 1. 确定爬取的网站 首先需要确定你想要采集的城市公交、地铁站点和线路数据所在的网站。常见的网站有: - 公交线路查询网站,如高德地图、百度地图等; - 公交、地铁运营公司的官方网站; - 公交、地铁相关的开放数据平台,如城市公共交通数据开放平台等。 2. 分析网站结构 在确定了采集的网站后,需要分析网站的结构,了解需要爬取的数据所在的页面、标签和属性等信息。可以使用开发者工具来帮助分析网站结构。 3. 使用Python爬虫代码采集数据 在分析了网站结构后,可以使用Python编写爬虫代码来采集数据。其中需要用到的模块包括: - requests:用于发送HTTP请求,获取网页内容; - BeautifulSoup4:用于解析HTML页面,提取所需数据; - pandas:用于数据处理和存储。 下面是一个示例代码,可以爬取高德地图上北京市公交线路数据: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 获取公交线路列表页面 url = 'https://ditu.amap.com/bus/beijing' r = requests.get(url) # 解析HTML页面,获取所有公交线路名称及其链接 soup = BeautifulSoup(r.text, 'html.parser') lines = soup.find_all('a', {'class': 'bus-tit'}) # 遍历每个公交线路,获取站点信息 data = [] for line in lines: line_name = line.text line_url = 'https:' + line['href'] r = requests.get(line_url) soup = BeautifulSoup(r.text, 'html.parser') stations = soup.find_all('div', {'class': 'station-name'}) station_names = [s.text for s in stations] data.append({'line': line_name, 'stations': station_names}) # 将数据保存为CSV文件 df = pd.DataFrame(data) df.to_csv('bus_lines.csv', index=False) ``` 运行以上Python代码后,将会在当前文件夹下生成一个名为bus_lines.csv的CSV文件,其中包含了所有北京市公交线路及其站点信息。 以上示例代码仅为一个简单的示例,实际应用中可能需要更复杂的爬虫代码来处理数据。同时,需要注意合法使用爬虫,遵守相关法律法规。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值