05 shell编程之正则表达式

Wesley13
• 阅读 509

正则表达式&&文本处理利器

学习目标:

l  掌握正则表达式的运用

l  掌握sed、awk文本处理工具的使用

目录结构:

 05 shell编程之正则表达式

正则表达式

正则表达式概述

l  正则表达式:使用单个字符串来描述,匹配一系列符合某个句法规则的字符串

l  由普通字符与特殊字符组成

l  一般用在脚本编程,文本编辑器中,如php、Python、shell等,简写为regex、regexp、RE

l  用来检索、替换符合模式的文本,具有强大的文本匹配功能

l  能够在文本海洋中快速高效地处理文本

l  正则表达式层次

基础正则表达式

拓展正则表达式

l  Linux中文本处理工具

grep

sed

awk

正则表达式元字符

l  基础正则表达式是常用的正则表达式部分

l  除了普通字符外,常见到以下元字符

\:转义字符,使符号就是符号,不存在其他含义。\!,\n等

^:匹配字符串开始的位置

       例:^a, ^the, ^#

$:匹配字符串结束的位置

       例:word$

.:匹配除\n之外的任意的一个字符

       例:go.d , g..d

*:匹配前面子表达式0次或者多次

       例:goo*d,go*d

[list]:匹配list列表中的一个字符

       例:go[ola]d , [abc], [a-z], [a-z0-9]

[^list]:匹配任意不在list列表中的一个字符

       例:[^a-z], [^0-9], [^A-Z0-9]

\{n,m\}:匹配前面的子表达式n到m次,有\{n\}, \{n,\}, \{n,m\}三种格式

       例:go\{2\}d, go\{2,3\}d, go\{2,\}

扩展正则表达式元字符

l  扩展正则表达式是对基础正则表达式的扩充深化

l  扩展元字符

+:匹配前面子表达式1次以上

       例:go+d, 将匹配至少一个o

?:匹配前面子表达式0次或者1次

       例:go?d, 将匹配gd或者god

():将括号中的字符串作为一个整体

       例:(xyz)+, 将匹配xyz整体1次以上,如xyzxyz

|:以或的方式匹配字条串

       例1:good|food,将匹配good或者food

       例2:g(oo|la)d,将匹配good或者glad

Sed工具实践

sed工具概述

l  sed是文本处理工具,读取文本内容,根据指定的条件进行处理,如删除,替换,添加等

l  可在无交互的情况下实现相当复杂的文本处理操作

l  被广泛应用于shell脚本,以完成自动化处理任务

l  Sed依赖于正则表达式

Sed用法举例

l  替换举例

sed ‘s/xml/XML/’ bfile  //将每行中的第一个xml替换为XML

sed ‘s/xml//g’ bfile  //将文件中所有xml删除

sed ‘3,5s/xml/XML/g’ bfile  //将第3-5行中的所有xml都替换为XML

sed ‘/xml/s/com/COM/g’ bfile  //将包含xml的所有行中的com都替换为COM

l  多次执行编辑命令

sed -e ‘3,5p’ -e ‘3,5s/xml/XML/g’ bfile  //可将多个编辑命令保存到文件中,通过-f指定文件,以完成多个处理操作

这只是sed和正则表达式的结合使用的部分案例

有关sed的具体使用详见https://www.cnblogs.com/zwgblog/p/6013975.html

awk工具实践

awk工具介绍

l  awk也是一个功能强大的编辑工具,与sed一样,可在无交互的情况下实现相当复杂的文本操作

l  命令格式

awk 选项 ‘模式或条件{编辑指令}’ 文件1 文件2

awk -f 脚本文件 文件1 文件2

l  工作原理

逐行读取文本,默认以空格为分隔符进行分割,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令

l  awk 内置变量

FS:指定每行文本的分隔符,缺省为空格或制表位

NF:当前处理的行的字段个数

NR:当前处理的行的行号(序数)

$0:当前处理的行的整行内容

$n:当前处理行的第n个字段(第n列)

awk工具举例

l  打印文本内容

awk ‘NR==1,NR==3{print}’ bfile  //输出第一至第三行内容

awk ‘NR==1|NR==3{print}’ bfile  //输出第一行,第三行内容

awk ‘/^root/{print}’ /etc/passwd  //输出以root开头的行

l  按字段输出文本

awk ‘{print $1,$3}’ bfile  //输出每行中的第1,第3个字段

awk -F “:” ‘{print$1,$7}’ /etc/shadow  //输出密码为空的用户的shadow记录

同理awk的具体介绍详见http://blog.chinaunix.net/uid-23302288-id-3785105.html

至此shell编程的基本知识都已经了解完毕了,详见博主主页 http://www.cnblogs.com/tzlsj。shell编程博大精深,擅长处理各种文件,与Linux的一切皆文件的特点十分契合。

现在了解的shell知识点犹如四则运算法则,看似很简单,实则各种组合变化。接下来我会给大家找一些好玩的小脚本,进行shell的实际运用和巩固强化。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
2年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
2年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
4个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这