- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 基于Python的100+高质量爬虫开源项目(持续更新中)
以下是项目所使用的框架,不同的项目所使用的框架或许有不同,但都万差不离:Scrapy:一个快速的高级Web爬虫框架,可用于从网站中提取结构化数据。BeautifulSoup:一个用于从HTML和XML文件中提取数据的Python库。PySpider:一个轻量级,跨平台并基于事件的Python爬虫框架。Tweepy:一个用于访问Twitter API的Python库,可用于采集Twitter数据。Selenium:一个用于自动化Web浏览器的Python库,可用于模拟用户在网站上的操作。
2023-09-22 16:27:41 2740 21
学习资料【大数据+机器学习】数据集人口数据
renkou_density.csv
province 省份
city 城市
city_id 城市id
year_1999-2015 1999年-2015年人口密度
2023-12-15
学习资料【大数据+机器学习】数据集电商商品
jd_goods.csv
shop_id 商品ID
title 商品名称
keyword 商品类型
link 商品链接
price 商品价格
shop 店铺
commit 评论数量
img 商品图片
jd_goods_commit.csv
shop_id 商品id
content 评论内容
creationTime 评论时间
nickname 昵称
score 评分
2023-12-15
学习资料【大数据+机器学习】电影类 数据集
douban.csv
icon 封面
name 名称
year 上映日期
link 链接
times 时长
country 国家
director 导演
scriptwriter 编剧
types 类型
score 评分
evaluate_num 收藏数
comment_num 评论数
box_office 票房
douban_comment.csv
username 用户
comment 评论
area 地区
movieId 电影id
time 评论时间
2023-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人