python 爬虫3 新浪微博 爬虫 实战

本文介绍了一个使用Python进行的新浪微博爬虫项目,该项目已上传至GitHub。通过登录个人账号获取微博和好友列表,进而深度遍历并抓取相关数据。数据存储采用MySQL,并计划引入MongoDB。此外,还分享了如何调整MySQL配置以允许远程访问,并讨论了数据库编码和插入操作的注意事项。
摘要由CSDN通过智能技术生成

这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:

有兴趣的可以follow一下,或者点个赞咯


我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)

大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。

然后根据朋友列表然后在爬取对方的微博列表和朋友列表。这样不断的深度挖掘和遍历的过程

过程中我采用了mysql 数据库进行存储,后面会加入mongodb 数据库进行存储。


先补充一点linux的知识:系统里那些文件夹都按照什么功能分类的:


/bin 
  bin是binary的缩写。这个目录沿袭了UNIX系统的结构,存放着使用者最经常使用的命令。例如cp、ls、cat,等等。 
/boot 
  这里存放的是启动Linux时使用的一些核心文件。 
/dev 
  dev是device(设备)的缩写。这个目录下是所有Linux的外部设备,其功能类似DOS下的.sys和Win下的.vxd。在Linux中设备和文件是用同种方法访问的。例如:/dev/hda代表第一个物理IDE硬盘。 
/etc 
  这个目录用来存放系统管理所需要的配置文件和子目录。 
/home 
  用户的主目录,比如说有个用户叫wang,那他的主目录就是/home/wang也可以用~wang表示。 
/lib 
  这个目录里存放着系统最基本的动态链接共享库,其作用类似于Windows里的.dll文件。几乎所有的应用程序都须要用到这些共享库。 
/lost+found 
这个目录平时是空的,当系统不正常关机后,这里就成了一些无家可归的文件的避难所。对了,有点类似于DOS下的.chk文件。 
/mnt 
 这个目录是空的,系统提供这个目录是让用户临时挂载别的文件系统。 
/proc 
  这个目录是一个虚拟的目录,它是系统内存的映射,我们可以通过直接访问这个目录来获取系统信息。也就是说,这个目录的内容不在硬盘上而是在内存里。 
/root 
  系统管理员(也叫超级用户)的主目录。作为系统的拥有者,总要有些特权啊!比如单独拥有一个目录。 
/sbin 
  s就是Super User的意思,也就是说这里存放的是系统管理员使用的管理程序。
/tmp 
  这个目录不用说,一定是用来存放一些临时文件的地方了。 
/usr 
  这是最庞大的目录,我们要用到的应用程序和文件几乎都存放在这个目录下。其中包含以下子目录; 
/usr/X11R6 
  存放X-Window的目录; 
/usr/bin 
  存放着许多应用程序; 
/usr/sbin 
  给超级用户使用的一些管理程序就放在这里; 
/usr/doc 
  这是Linux文档的大本营; 
/usr/include 
  Linux下开发和编译应用程序需要的头文件,在这里查找; 
/usr/lib 
  存放一些常用的动态链接共享库和静态档案库; 
/usr/local 
 这是提供给一般用户的/usr目录,在这里安装软件最适合; 
/usr/man 
  man在Linux中是帮助的同义词,这里就是帮助文档的存放目录; 
/usr/src 
  Linux开放的源代码就存在这个目录,爱好者们别放过哦! 
/var 
  这个目录中存放着那些不断在扩充着的东西,为了保持/usr的相对稳定,那些经常被修改的目录可以放在这个目录下,实际上许多系统管理员都是这样干的。顺带说一下系统的日志文件就在/var/log目录中。

爬取微博规则

整个过程我想要爬取两个方面的内容。

一个是微博内容

另一个是朋友(他关注的人,主动,兴趣强烈)关系而不是(关注他的人,粉丝,被动,干扰太多)

爬取下来的话我也打算存在两个地方,一个是mysql 关系数据库里,另一个是以文本文件的形式存到系统

mysql 用的是之前hadoop 系统 里namenode 节点 里的mysql ,ip是192.168.1.113

因为默认mysql 安装时,是绑定本地ip的,就是只限定本地访问,单机访问

所以要更改配置

sudo nano /etc/mysql/my.cnf找到bind-address = 127.0.0.1
注释掉这行,如:#bind-address = 127.0.0.1

允许任意IP访问;
这样注释以后,本地访问就不能省略了 必

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值