【死磕Shell脚本】
文章平均质量分 68
1、Shell在文件处理有非常厉害的用途,可谓“短小精悍”。
2、本专栏结合作者在项目实战中用到的文件操作的问题,用利器Shell脚本一 一解决,并做了详细的过程描述。
3、用较少的代码行,极大的提高了工作效率。可谓:“小脚本、大用途”。
铭毅天下
《一本书讲透 Elasticsearch》作者,Elastic认证专家、Elastic中国官方合作培训讲师、阿里云MVP、Elastic中文社区2018年、2023年杰出贡献者、CSDN2013年、2016年博客征文特等奖得主、博客全网累计阅读1000万+、已带领国内外近200人+通过Elastic认证专家考试。
展开
-
《懒人Shell脚本》之十——统计多重路径下的不同扩展名文件及个数
1、统计实现find -type f | sed -e 's/.*\.//' | sort | uniq -c | sort -n > rst.txt2、脚本分解1) find -type fregular file , 查找正规的文件 返回:./bak_network/道x网站/bak_第8章.md b block (buffered) special c character (unbuffe原创 2017-09-05 23:40:04 · 1993 阅读 · 0 评论 -
《懒人Shell脚本》之九——批量格式转换脚本实现
1、需求:文档格式转换批量脚本实现。技术点1:文档分散在同一路径下。 技术点2:显示转换进度。 技术点3:每个转换输出到文档同名的指定文件夹下。 前提:单个格式转换已经验证ok。2、脚本实现[root@0ec6 testxx]# cat bulk_converts.sh#!/bin/shCONTENT_FILE=./rst.txticnt=0itotalCnt=`cat ./rst.tx原创 2017-07-09 14:32:04 · 2969 阅读 · 0 评论 -
《懒人Shell脚本》之一——遍历文件并格式化输出文件
【背景】 1.项目开发中,急需要根据资源路径res下的文件,生成如下三种格式的文件。 格式一:#define IDR_CEF_0001 101#define IDR_CEF_0002 102...#define IDR_CEF_0122 222格式二: {“about.html”, IDR_CEF_0001}, {“addProbe.html”, IDR原创 2015-11-14 12:10:44 · 5800 阅读 · 1 评论 -
《懒人Shell脚本》之二——语料库的格式化输出
1、引言在进行自然语言处理(NLP)处理的时候,基本的操作无外乎分词、分类、聚类、命名实体识别、规则过滤、摘要提取、关键字提取、词性标注、拼音标注等。 分类通用的做法就是根据提供的语言库自学习识别成对应的分类。现有的复旦大学提供的语料库有20种分类。(参考:http://www.nlpir.org/?action-viewnews-itemid-103),网上也有提供更多种分类的。 分词网上比原创 2016-03-04 22:56:07 · 3423 阅读 · 0 评论 -
《懒人Shell脚本》之三——微博分类信息获取与格式化
1、需求: 获取微博网站ctg1_4188#”>http://d.weibo.com/102803_ctg1_4188-_ctg1_4188# 社会类媒体的名称信息。 构造成json格式,用于echart格式化显示。 2、分析&实现步骤 第一步:截获 地址: http://d.weibo.com/?topnav=1&mod=logo&wvr=6 获取关键名称及链接(下面5行代码原创 2016-08-07 15:33:40 · 1933 阅读 · 0 评论 -
《懒人Shell脚本》之四——日志条数动态实时统计
1、需求点1)输入:日志实时更新:当前日志表以秒级更新日志,每秒有多条日志更新。格式如下:2016-08-11 11:02:092016-08-11 11:02:092016-08-11 11:02:092016-08-11 11:02:092016-08-11 11:02:102016-08-11 11:02:102016-08-11 11:02:102016-08-11 11:02原创 2016-08-12 08:41:24 · 5065 阅读 · 0 评论 -
《懒人Shell脚本》之五——一键修改分布式系统配置文件
0. 背景分布式部署程序的时候,近20台机器部署了同样的环境进行数据采集。 当更换程序时,能否修改好一套,其他机器只需要一步scp,一步执行脚本。 一键修改配置,正是本文的目的。1. 实现要求1、修改*.sh的可执行权限; 2、自动获取表名称的前两个字符,相应所有文件名称统一修改; 3、修改配置文件中的mysql表名、mysql地址; 4、从其他已有填好的配置中读取并修改java程序执行的原创 2016-10-25 20:41:14 · 3504 阅读 · 0 评论 -
《懒人Shell脚本》之六——一键构造待采集批量sql语句
1、需求采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中。 2、实现步骤步骤1:人工实现Excel表格配置。定义好唯一索引,如第一列的序号。好处: 1)序号可以成为mysql中的索引。 2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式) 这点,非常重要。 关于索引,实践表明,对于每个网站入口唯一值原创 2016-11-19 22:43:20 · 3135 阅读 · 1 评论 -
《懒人Shell脚本》之七——格式化处理数据存入数据库实现
0、引言实际应用开发中遇到:将非格式化的文件数据存储到数据库中。对于传统的格式化的数据:ini/json/xml我们都有现成的类库去实现。而对于如下非格式化的数据呢?以下是我的思考与实现。数据截取片段如下所示:[root@localhost 2017]# head -n 10 input.txt[url]http://epaper.tianjinwe.com/mrxb/mrxb/2013-02/21原创 2017-02-22 22:34:59 · 4635 阅读 · 2 评论 -
《懒人Shell脚本》之八——定期备份Mysql数据库表的实现
0.背景实际开发环境中,前端程序需要在给定时间段内,将数据更新/插入到mysql指定的库表中。随着数据量的增多,基础库表基数的增长,每更新一次都会有5s左右的卡顿。 改进方案一:批量更新,累计数10条或者100条进行一次更新入库操作; 改进方案二:将当前日期前1个月之前的数据进行备份操作,并删除当前库表中1个月前的数据。经测定,该方法一定程度提高了访问效率。根因:基础表基数少,查询效率相对提高。原创 2017-03-04 21:10:57 · 4119 阅读 · 1 评论