自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python爬虫实例:爬取 viveport 上 1406 款VR游戏信息

这次我们准备爬取 HTC VIVE 的VR内容平台——Viveport,上面有 1406 款优质的 VR 游戏/应用,本次我们的目标就是把这些游戏的详细信息爬取下来。首先我们去该网站看一下(https://www.viveport.com),网站的主页长这样。VIVEPORT 网站主页 点击 VIVEPORT 一栏,左侧选择 “全部” ,我们可以发现 1406 款游戏全部在这里(我们...

2018-10-28 15:59:24 4874

原创 Python爬虫实例: 爬取“最好大学网”大学排名

实例2 爬取大学排名上海交通大学设计了一个“最好大学网”,上面列出了当前的大学排名。我们要设计爬虫程序,爬取大学排名信息。爬虫功能要求:输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)工具:python3、requests、beautifulsoup程序设计思路:研究大学排名网站网页URL 设计fetchUrl函数,尝试获取页面; 设计parse...

2018-10-25 17:52:59 8462

原创 【程序人生】 第一届国际虚拟现实技术及应用创新大赛

上周末去青岛参加VR大赛,于我而言,获奖倒是其次,更重要的在于学习交流,通过这个机会可以了解来自全国各地的其他团队所作的研究,一方面可以拓展我们的思路,另一方面,也可以让我们认识到自己跟强队之间的差距。这次比赛高校组共61支队伍,分三个会场答辩(由于比赛过程中不允许同会场的小组旁听,所以好几个感兴趣的项目都无缘听到,但好在宣传海报中有关于项目的简单介绍,后续优秀的参赛作品视频好像也会挂在网上)...

2018-10-24 23:45:54 4848

原创 网络爬虫笔记【8】 应用 BeautifulSoup 库解析网页内容

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的 parser 实现文档导航、查找、修改文档的 parser tree。Beautiful Soup 会帮你节省数小时甚至数天的工作时间.使用 lxml parser 解析 HTML 并提取内容首先看一个简单应用 BeautifulSoup 解析网页的例子。例子中,Beautiful...

2018-10-24 16:40:45 5006

原创 网络爬虫笔记【7】 利用 XPATH 实现 XML 和 HTML 文本信息提取

XML(Extensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据。详细信息可参考 http://www.w3school.com.cn/xml。HTML指的是超文本标记语言 (Hyper Text Markup Language),是WWW上用于编写网页的主要工具,详细信息请参考 http://www.w3school.com.cn/htmlXML和H...

2018-10-23 15:19:23 5514

原创 网络爬虫笔记【6】 Python 中的正则表达式模块与应用

python3 内置的 re 模块,包含了正则表达式的操作集。 re 模块的一般使用步骤如下:编译正则表达式,即使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象。 对目标字符串进行匹配,即通过 Pattern 对象提供的一些列方法对文本进行匹配查找,获得匹配结果(Match 对象) 提取结果信息,即使用 Match 对象提供的属性和方法获得信息,还可以...

2018-10-23 11:51:45 5351

原创 网络爬虫笔记【5】 信息解析与提取和正则表达式

前面我们学了爬虫,可以成功的爬取整个网页的内容,但是通常而言,网页中差不多 90% 的内容对于我们来说都是没有用的。所以后面我们会去学习如何从爬到的数据中,准确地找到我们所需要的数据,掌握信息解析和提取的方法。一、信息解析与提取的一般方法(思路)1. 完整解析信息的标记形式,再提取关键信息- 需要标记解析器- 优点是解析准确- 缺点是解析过程繁琐/速度慢2. 不解析全文,直接搜索信息...

2018-10-21 21:14:34 5104

原创 网络爬虫笔记【4】 掌握获取 Ajax 异步加载网页内容的方法

AJAX(Asynchronous Javascript and XML,异步的 Javascript 和 XML)。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页的内容。我们以 豆瓣电影 为例,打开网页之后,按 F12 ,在 Network 中监控一下这个页面。通过测试可以发现,每点击一次“加载更多”按钮,便会多一个响应:https://movie.d...

2018-10-19 22:11:17 5412

原创 网络爬虫笔记 :一个简单的爬虫框架

学了两节课的 Python 爬虫,也算是入门了吧。敲了两天的案例代码之后,我突然发现,这些代码虽然功能不同,写法各异,但是终归是有章可循的,整体框架是一致的。所以我自己整理了一个简单的爬虫框架,适合初学者学习时参考。import urllib.requestimport urllib.parseimport urllib.errordef loadPage(url): ''' ...

2018-10-19 16:13:19 5100

原创 网络爬虫笔记【3】 使用代理防止本机 IP 被封

使用代理是对抗反爬虫机制的常用做法。很多网站会检测某一段时间某个外来 IP 地址对服务器的访问次数等信息。如果访问次数或方式不符合安全策略,就会禁止该外来 IP 对服务器的访问。所以,爬虫设计者可以用一些代理服务器,使自己真实 IP 地址被隐藏,免于被禁止。urllib 中使用 ProxyHandler 来设置代理服务器的使用网络上通常有两类代理:免费代理、收费代理。免费代理可以通过百度/...

2018-10-18 20:55:36 6352

原创 网络爬虫笔记【2】 如何通过 HTTP 认证

登陆网页前遇到的要求输入用户名和密码的程序,通常称为身份认证程序。HTTP 认证可以保护一个作用域(成为一个 realm)内的资源不受非法访问。当一个请求要求取得受保护的资源时,网页服务器回应一个 401 Unauthorized error 错误码。这个回应包含了一个指定验证方法和领域的 WWW-Authenticate 头信息。把这个领域想象成一个存储着用户名和密码的数据库,它将被用来标识受保...

2018-10-18 20:52:29 5341 1

原创 Python爬虫实例:从百度贴吧下载多页话题内容

上周网络爬虫课程中,留了一个实践:从百度贴吧下载多页话题内容。我完成的是从贴吧中一个帖子中爬取多页内容,与老师题目要求的从贴吧中爬取多页话题还是有一定区别的,况且,在老师讲评之后,我瞬间就发现了自己跟老师代码之间的差距了,我在代码书写上还是存在很多不规范不严谨的地方,而且也没有体现出面向对象的思想,所以,重新将这个题目做一遍,学习一下大佬是怎么写的。 实例:从百度贴吧下载多页话题内容先...

2018-10-17 21:31:51 4961

原创 基于百度AI的文字转语音助手(Unity版)开发进度

前段时间一直忙别的事儿去了,这个项目压了好久。挖坑篇请见:( http://www.smartcrane.club/2018/09/11/TTS.html ) 当时做了一个“极简版”的(其实是在百度API的Demo的基础上改了改而已),只有一个按钮,把语音合成和保存的功能都挤到一个函数里实现了。反正是自己用,也没那么讲究了,功能过的去就好了。但是用着用着,问题就出来了,这玩意儿...

2018-10-17 14:50:34 6435 4

原创 爬虫学习笔记【1】 使用 urllib 获取 www 资源

1. 掌握普通网页的获取方法查看 urllib.request 的基本信息urllib.request 中最常用的方法是 urlopen() ,它也是我们使用 urllib 获取普通网页的基本方法。 在应用之前,我们先看一下 urllib 的源代码,这是从事IT软件类技术工作要养成的职业习惯。 由于 urllib 是 python3 内置库,所以无需安装。 源代码的路径可以在 import...

2018-10-12 21:44:53 5328 1

原创 VR 火灾逃生体验系统可以怎么完善?

首先,将VR用作教学训练的价值在于实践模拟,而不是传授理论或概念,更难得的是VR有极高的容错率,它允许不断试错,鼓励从错误中获取经验。目前我们的《高层火灾逃生体验》系统,虽说是“系统”,但是仅仅能勉强算是 DEMO 版,其中只是强制性的按照设定的流程体验,用户没有太多的自主选择,因为每次出现在用户面前的,都是唯一的选项,选择则继续,不选则卡在这一步。虽然这样设计带来一个好处是,用户随时可以...

2018-10-10 21:46:32 5492

去哪儿网站旅游攻略文章测试数据.rar

《Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书》 https://smartcrane.blog.csdn.net/article/details/106875103 文中爬虫代码配套测试数据

2020-06-21

文字转语音大师

基于百度 AI 的 TTS 接口,使用 Unity 3D 开发。 使用时双击 “语音大师.exe”打开即可使用。 左侧对话框中输入需要发音的文字,点击试听或者生成音频,可以进行文字转语音,点击打开文件夹,可以打开生成的音频所在文件夹。 目前不支持 RDN,SPD,VOL 参数的修改,不支持自定义选择音频保存路径。

2019-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除