自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

月小水长

微信公众号:月小水长(ID:inspurer)

  • 博客(118)
  • 资源 (11)
  • 收藏
  • 关注

原创 Android ANR 日志导出及分析

adb shelllsexit然后尝试尝试导出,发现权限不足,这是因为需要手机 root。退而求其次,使用bugreport最终在导出一个 zip 压缩文件,解压后 anr 在下述路径中其中的 anr 日志文件没有后缀名,其实是普通文本文件,可以用记事本打开。

2024-04-23 22:08:45 177 1

原创 Android Studio 通过 WIFI 调试手机 app

其中 xxxx 就是手机被分配的局域网 ip,可以系统设置 --> 关于手机 --> 状态消息(信息)里看到。其中端口号 5555 也可以指定其他值,该命令将会重启手机上的 adbd,该步成功的话无输出。第一种方法:只需要断开其他 usb 或者 wifi 连上的设备,只保留我们的目标设备手机即可。,则是由于连上了多个设备( usb 连上的设备 + wifi 连上的设备),(最好只看到一个连上的设置,如果有多个,可能有麻烦,解决办法见后文)首先第一步,PC 和手机都需要连在同一个局域网 WIFI。

2024-04-02 21:56:19 633

原创 Ubuntu 上 Pyexecjs报错 execjs._exceptions.ProgramError: SyntaxError: Unexpected token ?

这是因为 nodejs 版本太低了。

2024-03-05 17:10:55 453

原创 携程上海酒店数据采集及可视化

价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。最后,把酒店价格可视化地展示在上海地图上。

2024-01-12 09:54:55 676 2

原创 百度统计代码安装出现「referrer被禁用」或者「代码未生效」解决办法

今天安装官方指定的流程和位置安装百度统计代码时,出现了**「referrer被禁用」**,于是上网一搜,几乎绝大部分搜索结果都是让我在 head 标签内加下面一行代码。,这一搜,由于引发这个未生效的原因有很多种,我渐行渐远了,后来直接把这行代码删了,就安装成功了,笑死。于是我索性把下面这行替换成上面那行,结果就出现了。

2023-07-06 11:02:28 1150

原创 在线配置生成动态排序柱状图工具上线

自定义数据,自定义图标,超强在线动态排序柱状图生成工具。

2022-10-17 12:42:18 990 1

原创 中国-省-市三级地图及世界地图在线编辑可视化工具上线

中国、省、地级市三级联动地图,可钻入钻出,可以选择全国地图、任意省份地图、任意地级市等层次地图进行编辑可视化

2022-10-12 14:54:12 5755 1

原创 streamlit 自定义跑马灯组件

streamlit 自定义 component 实现跑马灯,已发布 pypi

2022-10-10 00:59:09 807

原创 streamlit 集成百度统计或谷歌分析的三种方法

streamlit 是当前炙手可热的快速搭建机器学习和数据分析工具站点的 Python web 框架,今天来探讨下有关 streamlit 网站统计相关的问题。给 streamlit 统计 PV 大概有三种方法。笔者环境:ubuntu 18.04 + Python 3.8.10 + streamlit 1.1.3.0第一种是使用 streamlit.components.v1 注入 js 代码,例如这种方法简单,但是对应多页面应用就比较麻烦了,每个 python 脚本都要复制一份同样的内容(may

2022-10-05 23:01:03 681

原创 2022 年 8 月初北上广深杭热门签到打卡点微博数据集

北上广深杭热门的微博打卡点约 20w 数据集,时间跨度为 2022 年元旦至 8 月 9 日。

2022-08-12 22:40:56 713 4

原创 0.43 版本frp 穿透后 404,内网访问正常

内网访问正常,使用新版 0.43 frp 穿透后 404

2022-06-02 21:06:10 1332 1

原创 2022 年最新微博签到数据集

微博签到数据集,目前全网搜到的多为较老的 800w 数据集或已下线的接口,没有多大参考价值。所以自研了一个系统,可以抓取全国任意城市的微博签到数据,单城市签到微博去重最多可达 100w+,字段包括经纬度、签到地点、微博链接、博主链接、内容、图片链接(图片可下载)、发布时间、转评赞数等数十个字段。下面是深圳 2022 年 4 月底最新微博签到数据集:共计 50w,csv 文件 330M。除了深圳,全国其他任意城市也可,如果一个城市需要更多数据,则需要定时增量抓取,北上广深杭一线城市达到 100w 数据

2022-05-09 11:52:49 4746 17

原创 RecyclerView 设置 maxHeight 无效的解决办法

遇到了这个如题所示问题,网上搜的都是自定义一个 MaxHeightRecyclerView 继承自 RecyclerView,然后重绘它的 onMeasure 方法,大概如下: @Override protected void onMeasure(int widthMeasureSpec, int heightMeasureSpec) { if (mHeightMax > 0) { heightMeasureSpec = MeasureSpec.

2022-04-21 11:27:36 4080 5

原创 Django 站点图标设置本地生效,远程服务器部署不生效解决

遇到这种情况多半是用了path('favicon.ico', serve, {'path': 'img/fav.ico'}),这样本地生效,远程不生效。解决办法是在 base.html 中 header 间添加一行<link rel="shortcut icon" href="{% static 'img/fav.ico' %}">

2022-02-19 23:51:11 728

原创 开源:用户微博备份助手浏览器扩展

扩展介绍得空写了个微博用户备份助手,它是一款浏览器扩展(插件)。它的作用是备份用户自己或者任意微博用户的微博数据,并将结果保存到本地的 lxsx 文件。使用指南1、确保在浏览器登录了 weibo.cn2、在 weibo.cn 或者 weibo.com 站点内的微博用户主页上点击扩展图标,会显示如上图,自动解析数字 uid,然后点击开始抓取按钮即可;如果自动解析失败,可手动输入然后抓取;如果自定义微博主页用户的数字 uid 获取方式为:在它的主页上任意一条微博上的用户名右键在新标签页打开,浏览器

2022-02-16 18:57:10 1054

原创 开源 | 写了个微博去广告、屏蔽拉黑插件

去广告,屏蔽关键词,拉黑用户,组织乱序微博按照时间线排列等多功能,并且开源。

2022-01-27 18:07:07 1270

原创 【开源】浏览器书签层级可视化

无论层次多深的书签,一点直达,解决痛点。

2021-12-30 08:30:00 723

原创 geopy 库 ConfigurationError 错误

错误详情geopy.exc.ConfigurationError: Using Nominatim with default or sample `user_agent` "geopy/2.2.0" is strongly discouraged, as it violates Nominatim's ToS https://operations.osmfoundation.org/policies/nominatim/ and may possibly cause 403 and 429 HTTP e

2021-12-21 17:15:10 2069 2

原创 微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢

S11 结束了,EDG 牛逼就完事了。作为 Meiko 十年老粉,我看到他发了这样一条微博:所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。然后就是抽取分析统计了,核

2021-11-13 16:54:22 836

原创 微博位置爬虫发布

微博数据分析经常需要和地理位置相关联,比如查看某一话题下发博人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的微博位置爬虫则是直接以位置为切入点爬取微博,只需要输入一个地名,就能抓取在该地点发过的微博具体信息,表结构类似话题爬虫。这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理即可。闲话不多说,首先在 公众号 月小水长 后台回复 微博

2021-09-17 10:43:43 1602

原创 不写一行,自动生成爬虫代码

从今天开始,开一个专栏,编程每日一问,如其名,旨在分享探讨编程中那些实用的技巧或知识,多短小精悍。今天的话题是,如果不写一行代码,完成一份最小可运行性的爬虫代码。直接举 com 微博评论爬虫这个例子,打开下面这个网网址https://weibo.com/1192329374/Knsnj9B3D按照以下步骤来在 Network 栏目 Filter 处输入 ’build’ 过滤请求,找到评论获取的那个接口在接口上右键,Copy --> Copy as cURL(bash);(cur

2021-09-04 11:04:19 802

原创 开源一个豆瓣用户广播爬虫

应不住读者的请求,打算新开一个豆瓣系列的爬虫,主要是为了爬取豆瓣的小组和用户信息,并且全部开源出来。今天这篇主要是分享豆瓣用户广播爬虫,可能还是有不少同学对豆瓣广播不熟悉的,看下图就很清楚,豆瓣的广播有点类似于 QQ 空间的说说,但是多了一些豆瓣自己的元素,比如,”在看“、”在读“,”听过“ 这些 Action。抓取的主要内容是广播里的听说读看这四部分(不包括转发的内容),但是听这一个又包括在听,想听,听过等,所有种类比较多,同时字段又不规则,所以本次保存的文件形式不再是 csv,而是 json;我个

2021-08-25 10:39:36 547

原创 2021 新版微博转发爬虫发布

今日发布的微博转发爬虫,是之前从没有发布过的微博爬虫,一样是付费内容,主要实现概述如下:根据指定的微博 mid 爬取该微博的转发信息。爬取该微博的转发微博的转发信息;甚至转发地转发地转发,可以无限地套娃…爬取并保存的,字段信息如下:字段名解释mid纯数字形式的微博唯一标识,可与字母+数字形式 id 互转publish_time发布时间user_name微博作者名user_link微博作者链接content内容weibo_link微博链

2021-07-17 18:36:19 1109

原创 2021 年 7 月最新微博话题爬虫发布

写在前面时光飞逝,距离微博爬虫这个项目及系列文章 微博超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版微博爬虫的代码;包括话题、评论、用户三个部分。今天要发布的就是新版****微博话题爬虫。微博话题爬虫相

2021-07-09 09:33:33 803

原创 20 w 新闻数据集分享

新闻系列的分享进入尾声了,在开启这个系列前,我说过一个目标是,让 nlper 有足够多的新闻语料数据集去训练。不知不觉中,新闻聚合网站(https://xt98.tech:9494) 自从 2021/03/28 上线以来,已经稳定运行 3 个月整了,这三个月来,澎湃新闻爬虫、腾讯新闻爬虫每天都在不辞辛劳地抓取数据并保存在阿里云服务器上,最近由于阿里云服务器快到期了,原本不到 200 一年的服务器今年续费价格快 2000 了,不打算续费了,所以想把这些保存的数据免费分享出来,算是对一直默默关注我的粉丝的小福

2021-07-09 09:24:57 3214 1

原创 新闻平台聚合之纽约时报爬虫发布

idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

2021-03-28 14:05:13 1560 4

原创 新闻平台聚合之新浪新闻爬虫发布

idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

2021-03-12 22:34:44 662

原创 新闻平台聚合之腾讯新闻爬虫发布

idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

2021-03-11 23:05:21 678 5

原创 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布

idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。这个 proje

2021-01-01 13:11:08 2060 3

原创 百度新闻爬虫

这是本项目的开篇,在这个小项目中,将要基于爬虫和GUI编程写一个写个小工具,目的是不用打开浏览器,也能搜到一些关键信息,并将这些信息持久化保存下来,读者可以对这些数据进行分析,比如舆情分析,或作为 NLP 的语料输入。众所周知,搜索引擎的一个核心技术就是爬虫技术,各大搜索引擎的爬虫将个网站的快照索引起来 ,用户搜索时,输入关键词并回车后,基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户,今天分享的这个爬虫,是爬取百度爬虫爬取的内容,听起来,有点像俄罗斯套娃。其实你现在能够在网站看到的这篇文章,

2020-11-29 16:43:26 5517 4

原创 我用 Python 写了个基金涨跌通知助手

2020 年,世界风云变化,基金也是。我们都知道股票或者债券,它们都属于直接投资,而基金是间接投资,我们把钱投在基金里,相当于把这些钱交给专业基金公司的专业经理人,这些经理人再去投资股票或者债券。理论上比我们自己直接投资更靠谱些,但是天总是有不测风云。这篇文章不讨论基金策略,而是讨论查看基金涨跌的策略,相信很多人看基金都是通过手机,但是基金的涨跌扣人心弦,隔几分钟我就忍不住打开手机查看基金实时净值,在某些公司,这样是会被扣工资的。于是乎,花了一晚上写了个基金提示小助手,并部署上了阿里云服务器,关注的

2020-09-02 22:41:29 2811 1

原创 像学 SQL 那样学 pandas

作为 pandas 教程的第四篇,本篇将对比 SQL 语言,学习 pandas 中各种类 SQL 操作,文章篇幅较长,可以先收藏后食用,但不可以收藏后积灰~为了方便,依然以下面这个 DataFrame 为例,其变量名为 df,设有一同样结构的 SQL 表,表名为 tb:and、or、not 和集合资格测试 in1、and需求:选择成绩大于 90 分的男生的成绩单sql 写法:select * from tb where sex="male" and grade>90pandas 写法:

2020-06-26 14:05:27 355

原创 数据分析利器 pandas 系列教程(三):读写文件三十六计

前面我们学完了 pandas 中最重要的两个数学结构:Series 和 DataFrame,今天来侃侃 pandas 读写文件的那些 tricks,我有十足的信心,大家看了定会有所收获。读写 csv 的正确姿势假如要保存下面这个 DataFrame保存到 csv 中,我常用的一行代码是:df.to_csv('exam_result.csv', index=False, encoding='utf-8-sig')第一个参数是保存的文件名,第二个参数是不保存 index 索引,第三个参数是指定保

2020-06-22 12:52:52 337

原创 B 站视频下载器(BV号、dash、音视频分离)

我为什么要写 B 站视频爬虫这几天沉迷于 B 站的某些剪辑,洗脑循环中,如 up 主 上天下 的《白蛇:缘起》无对白版片尾曲《前世今生》完整版4分06秒 演唱:龚笑笑,链接如下https://www.bilibili.com/video/BV1Qb411q7Xu面对这样一个深得我心的视频,我脑海里瞬间冒出了下载到本地这个需求,一来方便离线播放,二来可以进行再创作(当然会注明出处~),于...

2020-04-13 12:41:23 4244

原创 数据分析利器 pandas 系列教程(二):从强大的 DataFrame

在上一篇文章 数据分析利器 pandas 系列教程(一):从 Series 说起 中:详细介绍了 pandas 基础数据结构 Series,今天说说另一种数据结构 DataFrame。dataframe 是表格型的数据结构,由一组有序的列组成,可以看成是由 Series 组成的字典,举个例子:/namesexcoursegrade0Bobmalemath99...

2020-02-07 18:55:20 710

原创 数据分析利器 pandas 系列教程(一):从 Series 说起

从今天开始连载数据分析利器 pandas 的系列文章,推荐 Pycharm 集成 Python3.6+;无论你是零基础小白,还是已经上手过 pandas,你都可以在本次系列中学到一些干货。摘自百度百科:pandas 是基于 numpy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas 提供了大量...

2020-02-03 09:58:44 739

原创 复盘开发教务系统小程序的全流程

作为一个饱经期末周折磨的当代大学生,经常要去学校教务系统的看一下有没有出新成绩,我还好,不用怎么担心挂科,在老师不为难我的情况下,让我考 60 分和考 90 分一样困难;但是如果没在电脑前,用手机端打开教务系统的网页,输入账号密码验证码,然后切换 tab 页查看成绩还有有点不耐烦,作为一个业余的小程序开发者,很快就有了做一个教务系统小程序的 idea,经过长期的前期调研和两天的快速开发,终于在去年...

2020-01-12 20:20:07 2208 7

原创 公众号小游戏分享裂变的开发实操

创作灵感昨天在朋友圈看到这样一则分享:好奇心驱使着我扫了图中的二维码(已打码),发现是引导关注公众号的,我一点关注后,会话界面就出来了这个 预测 2020 会发生在被扫码者身上的几件事 的小游戏的链接:我继续点击这个链接,然后就生成了属于我自己的预测图:然后我又可以分享出去,让我的朋友圈好友去扫,他们又分享,这样一传十、一传百,不知不觉又被隔了一波韭菜:创作效果作为一个技术人,...

2019-12-06 20:48:05 1056

原创 Django2.2 自定义错误界面填坑记

问题背景当Django找不到与请求匹配的URL时,或者当抛出一个异常时,将调用一个错误处理视图。错误视图包括400、403、404和500,分别表示请求错误、拒绝服务、页面不存在和服务器错误。它们分别位于:handler400 —— django.conf.urls.handler400。handler403 —— django.conf.urls.handler403。handler40...

2019-11-03 22:58:33 905

原创 用户、话题、评论一网打尽,分享一个最强微博爬虫

实现的功能微博向来是一个极好的吃瓜圣地,为了获取微博上行行色色的数据,微博相关的爬虫也是层出不穷,因为无论是运营者还是数据分析从业者都或多或少需要微博数据,我的许多朋友也不例外,经过断断续续的努力,我完成了一个可能是史上最强大的微博爬虫的编写。该爬虫的功能主要分为三部分,第一个主打功能是爬取指定用户的所有微博(可以通过热键 Ctrl + P 快速打开),这个用户可以按照昵称搜索,可以选择是否只...

2019-10-11 19:29:00 4587 13

2020 英雄联盟全球总决赛 SN vs DWG 约 50000 条弹幕文本

2020 英雄联盟全球总决赛 SN vs DWG 约 50000 条弹幕文本 资源为 CSV 文件,包含弹幕时刻和文本

2023-10-30

Yelp 爬虫,洛杉矶 500 家饭店数据样例

Yelp是美国最大点评网站,类似国内的大众点评。 抓取了 500 条洛杉矶的饭店数据,包含店名、详情页链接、评分、点评数、电话等字段。

2023-10-30

大研古镇景点话题数据集

国内关于【大研古镇】这个旅游景点的关键词话题数据集,共计 5500 条,包含十五个字段。

2023-04-22

CBDB 数据集 blog-main 表简体中文版

CBDB 单价版数据集是繁体的,将主表 blog_main 进行了简体化,共计 56w 余条

2023-04-21

ChatGPT 话题数据集(英文)

关于 ChatGPT 这个话题 2022.11.30 至 2023.04.15 的 tw 热门讨论数据集,英文,包含几十个字段,共计 3500 条。

2023-04-21

百度贴吧图片自动下载

百度贴吧指定贴吧图片自动下载,并保存到 imgs 文件夹下的以贴吧名为文件夹名的文件夹。

2019-06-11

opencv图片裁剪python代码

利用opencv做的一个利用鼠标交互裁剪图片的软件,其中图片可从文件资源管理选择器自由选择。

2018-12-11

U盘快捷方式查杀工具

一种流行快捷方式病毒的查杀工具,只需双击运行就能恢复被隐藏的文档

2018-06-15

Python GUI之模拟Tim登录界面

基于python3.5.1,wxPython的模拟登录Tim代码,实现部分登录逻辑

2018-05-30

中南大学强智教务系统成绩爬虫

中南大学教务管理系统的成绩爬虫,可以查看、轮询教务系统成绩,不必时时刻刻点开教务系统查看新成绩

2018-05-29

fastjson使用实例

fastjson在阿里巴巴大规模使用,在数万台服务器上部署,fastjson在业界被广泛接受。在2012年被开源中国评选为最受欢迎的国产开源软件之一。

2018-02-23

alibaba团队fastjson最新架包

阿里巴巴团队倾力打造的一款开源库,fastjson库自发布以来从未被其他JSON开源库超越。

2018-02-23

安卓超级日记本

一个集成了科大讯飞语音识别和分享功能的日记本

2017-08-01

数据结构之无向图最全函数实现C语言版

包含了无向图的几乎所有的操作函数

2017-07-29

C语言实现音乐播放器

C语言播放器

2017-07-10

C语言实现矩阵的乘加求逆运算

C语言求逆

2017-07-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除