网络爬虫数据处理

  1. import requests
    from bs4 import BeautifulSoup
    import pandas as pd

为解决的问题,循环没起作用

data = []
wb_data = requests.get('http://www.kugou.com/yy/rank/home/1-8888.html')
soup = BeautifulSoup(wb_data.text,'lxml')
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist li')
times = soup.select('span.pc_temp_tips_r>span')
for rank,title,time in zip(ranks,titles,times):
    a = {
        'rank':rank.get_text().strip(),
        'singer':title.get_text().split('-')[0].split('\n')[-1],
        'song':title.get_text().split('-')[1].split('\n')[0],
        'time':time.get_text().strip()
    } 
    data.append(a) 
data
  1. from pandas import DataFrame
    df = DataFrame(data)
    data

  2. import pymysql
    import pandas as pd
    from pandas import DataFrame
    from pandas import Series

  3. 数据库手动更改编码格式

conn = pymysql.connect(
    host = 'localhost',
    user = 'root',
    password = '986532aa',
    db = 'pystudy',
    port = 3306,
    charset = 'utf8'
)
cursor= conn.cursor()
rows = cursor.execute('select * from ch4ex9')
rows
cursor = conn.cursor()
creat = '''
    CREATE TABLE text3(
        rank int,
        singer char(8),
        song char(8),
        time char(8)
    )engine innodb default charset = utf8;'''
cursor.execute(creat)
conn.commit()
df.to_sql(name='text3',con= 'mysql+pymysql://root:986532aa@localhost:3306/pystudy?charset=utf8',if_exists='replace',index=False)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值