这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:
有兴趣的可以follow一下,或者点个赞咯
我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)
大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。
然后根据朋友列表然后在爬取对方的微博列表和朋友列表。这样不断的深度挖掘和遍历的过程
过程中我采用了mysql 数据库进行存储,后面会加入mongodb 数据库进行存储。
先补充一点linux的知识:系统里那些文件夹都按照什么功能分类的:
/bin
bin是binary的缩写。这个目录沿袭了UNIX系统的结构,存放着使用者最经常使用的命令。例如cp、ls、cat,等等。
/boot
这里存放的是启动Linux时使用的一些核心文件。
/dev
dev是device(设备)的缩写。这个目录下是所有Linux的外部设备,其功能类似DOS下的.sys和Win下的.vxd。在Linux中设备和文件是用同种方法访问的。例如:/dev/hda代表第一个物理IDE硬盘。
/etc
这个目录用来存放系统管理所需要的配置文件和子目录。
/home
用户的主目录,比如说有个用户叫wang,那他的主目录就是/home/wang也可以用~wang表示。
/lib
这个目录里存放着系统最基本的动态链接共享库,其作用类似于Windows里的.dll文件。几乎所有的应用程序都须要用到这些共享库。
/lost+found
这个目录平时是空的,当系统不正常关机后,这里就成了一些无家可归的文件的避难所。对了,有点类似于DOS下的.chk文件。
/mnt
这个目录是空的,系统提供这个目录是让用户临时挂载别的文件系统。
/proc
这个目录是一个虚拟的目录,它是系统内存的映射,我们可以通过直接访问这个目录来获取系统信息。也就是说,这个目录的内容不在硬盘上而是在内存里。
/root
系统管理员(也叫超级用户)的主目录。作为系统的拥有者,总要有些特权啊!比如单独拥有一个目录。
/sbin
s就是Super User的意思,也就是说这里存放的是系统管理员使用的管理程序。
/tmp
这个目录不用说,一定是用来存放一些临时文件的地方了。
/usr
这是最庞大的目录,我们要用到的应用程序和文件几乎都存放在这个目录下。其中包含以下子目录;
/usr/X11R6
存放X-Window的目录;
/usr/bin
存放着许多应用程序;
/usr/sbin
给超级用户使用的一些管理程序就放在这里;
/usr/doc
这是Linux文档的大本营;
/usr/include
Linux下开发和编译应用程序需要的头文件,在这里查找;
/usr/lib
存放一些常用的动态链接共享库和静态档案库;
/usr/local
这是提供给一般用户的/usr目录,在这里安装软件最适合;
/usr/man
man在Linux中是帮助的同义词,这里就是帮助文档的存放目录;
/usr/src
Linux开放的源代码就存在这个目录,爱好者们别放过哦!
/var
这个目录中存放着那些不断在扩充着的东西,为了保持/usr的相对稳定,那些经常被修改的目录可以放在这个目录下,实际上许多系统管理员都是这样干的。顺带说一下系统的日志文件就在/var/log目录中。
爬取微博规则
整个过程我想要爬取两个方面的内容。
一个是微博内容
另一个是朋友(他关注的人,主动,兴趣强烈)关系而不是(关注他的人,粉丝,被动,干扰太多)
爬取下来的话我也打算存在两个地方,一个是mysql 关系数据库里,另一个是以文本文件的形式存到系统
mysql 用的是之前hadoop 系统 里namenode 节点 里的mysql ,ip是192.168.1.113
因为默认mysql 安装时,是绑定本地ip的,就是只限定本地访问,单机访问
所以要更改配置
sudo nano /etc/mysql/my.cnf找到bind-address = 127.0.0.1
注释掉这行,如:#bind-address = 127.0.0.1
允许任意IP访问;
这样注释以后,本地访问就不能省略了 必