
文档自动化
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
【Python 自动化】自媒体剪辑第一版·思路简述与技术方案
大家都知道我主业是个运维开发(或者算法工程师),每天时间不多,但我又想做自媒体。然后呢,我就想了个方案,每天起来之后写个短视频的脚本,包含一系列图片和文字,然后上班的时候给它提交到流水线上跑,下班之前就能拿到视频,然后往各大平台上一传,是不是挺美滋滋的。我和我之前的合伙人一说,他就觉得做短视频没啥用,不过还是按我说的做,出了一个脚本,我一看什么玩意儿,根本就没办法跑起来。无奈之下,我重新写了现在我要展示的这个版本。后来这个合伙人就装逼失败跑路了,大快人心。原创 2023-09-02 02:05:34 · 1610 阅读 · 0 评论 -
【Python自动化】多线程BFS站点结构爬虫代码,支持中断恢复,带注释
【代码】【Python自动化】多线程BFS站点结构爬虫代码,支持中断恢复,带注释。原创 2023-07-28 00:26:57 · 367 阅读 · 2 评论 -
readability-lxml 源码解析(四):总结
确定的关键词用于加减权重,可能的关键词用于筛选。例如,可能的正面关键词的标签会保留,而可能的负面关键词标签一定会移除。(3)元素和容器的距离,Readability 限制为 2,也就是取正文元素的父节点和祖父节点。但是,在找不到候选标签的情况下,会不移除可能负面关键词再试一次。比如给确定和可能的关键词指定不同的权重,避免移除某个关键词造成的二次返工。(5)从公式中可以看出 Readability 还考虑了文本长度,逗号个数和链接密度,用于区分导航和正文。(1)正文元素,就是只在正文中可能出现的元素,比如。原创 2023-07-11 11:11:44 · 406 阅读 · 0 评论 -
readability-lxml 源码解析(三):`readability.py`
【代码】readability-lxml 源码解析(三):`readability.py`原创 2023-07-10 19:12:57 · 337 阅读 · 0 评论 -
readability-lxml 源码解析(二):`htmls.py`
【代码】readability-lxml 源码解析(二):`htmls.py`原创 2023-07-10 17:54:23 · 5751 阅读 · 0 评论 -
readability-lxml 源码解析(一)
【代码】readability-lxml 源码解析(一)原创 2023-07-10 17:47:46 · 238 阅读 · 0 评论 -
Turndown 源码分析:五、节点相关`root-node.js`和`node.js`
【代码】Turndown 源码分析:五、节点相关`root-node.js`和`node.js`原创 2023-06-19 17:44:45 · 311 阅读 · 0 评论 -
Turndown 源码分析:二、规则`commonmark-ruiles.js` REV1
【代码】Turndown 源码分析:二、规则`commonmark-ruiles.js` REV1。原创 2023-06-19 16:05:47 · 280 阅读 · 0 评论 -
Turndown 源码分析:三、规则集`rules.js` REV1
【代码】Turndown 源码分析:三、规则集`rules.js` REV1。原创 2023-06-19 14:57:18 · 274 阅读 · 0 评论 -
Turndown 源码分析:四、`turndown.js`
【代码】Turndown 源码分析:四、`turndown.js`原创 2023-06-19 14:33:56 · 358 阅读 · 0 评论 -
Turndown 源码解析:三、规则集
遍历给定规则列表,使用每个规则匹配给定节点,如果匹配则返回当前规则,否则返回空值。在规则表前端插入指定规则,遍历的顺序是从前向后,所以新插入的规则会优先匹配。在移除列表中插入给定的过滤器。移除列表的作用就是保证某个元素被移除。保留列表的作用就是,原封不动保留匹配元素的。规则集包含一系列规则,其构造器通过传入的。),判断给定规则是否匹配给定节点。在保留列表中插入指定的过滤器。寻找第一个匹配给定节点的规则。配置对象获取规则列表并置于。考虑三种不同类型的规则(原创 2023-04-26 17:25:22 · 812 阅读 · 1 评论 -
Turndown 源码解析:二、规则
规则集包含一系列规则,决定各种标签如何反编译。字段用于判断节点是否适用单条规则。如果它是字符串,则判断;如果它是字符串数组,则判断;如果它是函数,则判断。字段是个函数,接受单个节点,该节点的内部 Markdown,以及配置项,返回节点的外部 Markdown。规则集rules是一个对象,属性名是规则名称,值是对应的规则对象。原创 2023-04-25 17:15:12 · 799 阅读 · 0 评论 -
Turndown 源码解析:一、辅助函数
的补丁。的补丁。原创 2023-04-25 16:13:10 · 633 阅读 · 0 评论