从零开始的Node.js新闻爬虫实验项目
Aquarius_祈
这个作者很懒,什么都没留下…
展开
-
爬虫笔记:编码格式正确,却出现乱码:gzip
有的时候用爬虫爬一个网页下来发现是乱码,上网站f12一看: <meta http-equiv="Content-Type" content="text/html" charset="utf-8"> 没错呀,是utf-8,然而爬下来,乱码惨不忍睹: 这时候很有可能是网站开启了gzip压缩,只要在option里加上这一项: var options = { gzip: true, // ...其他 } 就可以顺利爬取下来了: 而gzip是什么呢? gzip最初是用在UNIX系统原创 2020-07-03 12:49:07 · 899 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(六)构建网站访问mysql查询数据
使用js查询mysql数据库中的数据 首先引用了上一篇中的mysql.js脚本,用于访问数据库 然后使用SQL语句查询数据 select title,author,publish_date from fetches where title like '%投资%' 即为从fetches表中找出title含有‘投资’的数据,并查询其title,author,publish_data数据。 var m...原创 2020-04-20 17:38:34 · 389 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(五)将爬虫爬取的数据存入Mysql中
Mysql是一个使用广泛,功能强大,性能开销低的数据库系统,这里用mysql取代文件直接存储数据,能提高存储和读取的效率。 创建Mysql数据表 安装过程略,这里创建了一个名为crawl的数据库,并创建了一个fetches表, 并且统一了爬取信息类别的命名。 CREATE TABLE `fetches` ( `id_fetches` int(11) NOT NULL AUTO_INCREME...原创 2020-04-05 15:09:00 · 454 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(四)东方财富网、网易新闻、Pixiv的爬取思路
这是计划的第3步 有了前篇雪球网新闻的爬取代码,可以同样的爬取其他各类网站 1)东方财富网 1、一级页面 在这里,选择信息较为集中,内容丰富的“右边部分”开始分析。 观察到每一条消息均在各自的 li 项下的 a 中,于是主体部分非常好写 var item = $('.nlist', 'div').find('li').children('a') item.map(...原创 2020-04-06 17:45:22 · 1150 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(三)一个示例网站的爬取
这是计划的第1~2步 对比了各要求爬取的网站之后,先选择HTML结构简单的的雪球网进行尝试。 1)分析HTML结构 F12打开Chrome的控制台,可以看见其HTML源码; 其结构比较简单:首先,观察到每则新闻都在各自的class=AnonymousHome_home__timeline__item_3vU下,各种信息都以文本方式存储在结构中。 2)一级网址信息爬取 先试试能否爬取标题, con...原创 2020-03-11 11:26:06 · 635 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(二)简析所需要的工具
这是计划的第0步, 由于没有js基础,所以js语法的学习和模块的研究一并进行了 Request模块 安装 在nodejs安装路径下的命令提示符中 npm install request 资料 文档:https://github.com/request/request 翻译:http://mrdede.com/?p=3147 文档较长,并非完全阅读,留作参考使用,后同 功能 发送G...原创 2020-03-09 22:40:32 · 358 阅读 · 0 评论 -
从零开始的Node.js新闻爬虫实验项目(一)背景与计划
这是一个仅有C/C++基础的本科学生的web编程第一次实验项目; 换言之,就是标题中的从零开始了。 话不多说,直接开始: 要求 1、选取新闻网站3-5个(新浪新闻、网易新闻、雪球经济、东方财富、腾讯体育、虎扑体育) 2、针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息 3、存储在数据库中 4、建立网站对爬取内容的分项全文搜索 5、给出所查关键词的事...原创 2020-03-09 15:31:38 · 605 阅读 · 0 评论