自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 【程序人生】机灵鹤六月份的月度总结

转眼间,已经是六月的尾巴,我的第一份工作也刚好满3个月整了。今年虽然梦幻开局,虽然经过了超长的寒假待机,经历了居家隔离闷到爆炸,经历了孤身一人来到一个陌生的城市,一个人找房子,搬家,上班,经历了工作中被 C++ 各种花式吊打......但是还好,一切都有一个不错的结果。房子顺利租到了,离公司不远,住着不算宽敞但也挺自在;工作也找到了,在一个很厉害的项目组,有一帮很厉害的同事;经过了前期 C++ 的毒打之后,我也逐渐可以上手项目了;工资够花,除了给家里打一些之外,还能买点自己喜欢的东西;博客也重新..

2020-06-30 21:23:01 470 2

原创 【Python 骚操作】使用 Gitbook + Typora 打造一个属于自己的电子书网站
原力计划

前段时间,我在互联网冲浪时候,发现了一个写作的工具组合 Gitbook + Typora,堪称神器。安利到 Blink 和朋友圈之后,有一朋友表示很感兴趣,希望我简单出一个教程,介绍一下这套工具怎么使用。好吧,安排!0x00 效果展示Gitbook + Typora ,我称之为 “神器”,不仅是因为他可以用来写文章,更在于它可以将你写的 Markdown 文章直接转换成 pdf,转成各种常用格式,甚至可以转换成网页直接发布到网上。正好我的个人网站备案审核通过了,就利用 Gitbook.

2020-06-26 16:56:13 526

原创 Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书
原力计划

接上回,《Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据》。我们爬取到了数千篇的旅游攻略文章的数据。但是事情还没有结束,对于大部分的人来讲,最希望得到的东西应该不是这种干巴巴的 Excel 数据,而是这种图文并茂的文章吧!其实之前我们爬过很多类似的网站,比如 《人民日报新闻爬虫》,《知乎问题回答爬虫》,都是爬取大段的文章。不过区别在于,那些爬虫的关注点在于文字,主要用来做分词,语义情感等方面的分析,不需要人工阅读,所以直接将图片,超链接,排版格式等东西舍弃,仅..

2020-06-21 00:10:16 487

原创 【Pyppeteer】如何避开网站的反爬检测

【问题描述】有些网站的反爬机制是很强的,不仅网络请求中的参数经过 JS 加密,甚至还针对一些常用的爬虫工具,如 Selenium 作了屏蔽。比如前段时间我爬取的卫健委官网,反爬机制就相当变态(传送门:Python网络爬虫实战:卫健委官网数据的爬取)。本文教你如何设置 Pyppeteer 来完美地避开这些反爬机制的检测。【解决方法】方法一:在导入 launch 之前 把 --enable-automation 禁用 防止监测webdriverfrom pyppeteer imp.

2020-06-18 21:39:37 838

原创 【Pyppeteer】如何进行超时时时间设置
原力计划

【问题描述】在爬取网页的过程中,不可避免会有一部分链接失效,或者各种原因导致服务器响应慢,甚至不响应。这里有一个“超时时间” 的参数设置,就是如果服务器在指定时间内没有响应的话,程序直接停止等待响应,抛出异常。Pyppeteer 默认的超时时间是 30 秒。很多时候,30秒其实有点太长,或者太短了,我们希望可以根据项目实际情况,自己设置超时时间。【解决方法】我在网上找了一些方法,也做了一些测试。不知道是不是我的方法有问题,目前只有 方法三和 方法四 测试成功。这里将我...

2020-06-18 20:59:38 260

原创 【Pyppeteer】爬取多个网页时,如何只创建一个浏览器窗口,打开多个页签

【问题描述】使用Pyppeteer 工具写爬虫时,我们一般可以用这样的方式来爬取网页。import asynciofrom pyppeteer import launch url = 'http://www.baidu.com' async def fetchUrl(url): browser = await launch({'headless': False,'dumpio':True, 'autoClose':True}) page = await browser..

2020-06-18 14:01:12 445

原创 Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了
原力计划

好久不见!今天我们来爬取 去哪儿网站的旅游攻略数据。0x00 找一个合理的作案动机作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过?本来是没有这些问题的,该吃吃该睡睡,打打游戏敲敲代码,也挺自在。只是后来毕业,来到一个新的城市,赚的钱除了吃住还有富余,总觉得如果不趁着周末和假期出去好好逛逛这个城市,就等于白来一趟,那就太亏了。话虽如此,旅游岂是说走就走的。好几次我下定决心出门,结果在小区门口的十字路口,看着车来车往陷入沉思:我特么去哪儿玩...

2020-06-11 21:25:00 1007

去哪儿网站旅游攻略文章测试数据.rar

《Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书》 https://smartcrane.blog.csdn.net/article/details/106875103 文中爬虫代码配套测试数据

2020-06-21

文字转语音大师

基于百度 AI 的 TTS 接口,使用 Unity 3D 开发。 使用时双击 “语音大师.exe”打开即可使用。 左侧对话框中输入需要发音的文字,点击试听或者生成音频,可以进行文字转语音,点击打开文件夹,可以打开生成的音频所在文件夹。 目前不支持 RDN,SPD,VOL 参数的修改,不支持自定义选择音频保存路径。

2019-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除