代码审计之正则表达式学习
  n2tShmr9xLBC 2023年11月01日 32 0

前言

代码审计是检查源代码中的安全缺陷,检查程序源代码是否存在安全隐患,或者有编码不规范的地方,通过自动化工具或者人工审查的方式,对程序源代码逐条进行检查和分析,发现这些源代码缺陷引发的安全漏洞,并提供代码修订措施和建议。
而代码审计就不得不讲到正则表达式,此博客整理了php中的一些常规的正则表达式

正则表达式整理

general token 通用令牌
 \n 匹配换行符
\r 匹配回车
\t 匹配tab键
\0 匹配空字符
common token 命令令牌
[abc] 匹配a或者b或者c
[^abc] 匹配除了a,b,c以外的字符
[a-z] 匹配从a-z的字符
[^a-z] 匹配除了a-z以外的字符
[a-zA-Z] 匹配a-z之间或A-Z之间的字符
. 匹配除换行符以外的任何字符(或包含带有/s标志的行终止符
a|b  匹配a或b其中一个字符
\s 匹配任何空格、制表符或换行符
\S 匹配除空格、制表符或换行符以外的任何内容
\d 匹配数字0-9
\d+ 匹配1个数字或多个数字
\D 匹配除了数字0-9以外的任何字符
\D+ 匹配除了数字0-9以外的任意一个字符或多个字符
\w 匹配a-z之间和A-Z之间和0-9之间的字符,相当于[a-zA-Z0-9]
\W 匹配除了a-z之间和A-Z之间和0-9之间的字符,相当于[^a-zA-Z0-9]
(?:xxx) 匹配xxx字符一次
(?# xxx) 不匹配xxx
(?> xxx) 匹配组中可能最长的子字符串,不允许以后回溯以重新评估组。它不是一个捕获组。
(xxx) 匹配xxx字符一次且将xxx与其他字符隔开独立运行
(xxx)+ 匹配1次或多次xxx 且将xxx与其他字符隔开独立运行
ab? -> ? 匹配ab一次或者不匹配 如果没有ab就匹配第一个字符 a 一次或者不匹配
ba* -> * 匹配 ba无限次或一个b+无限个a或无限个b一个a或只能第一个字符无限,但不能第二个字符单独无限次
a+ -> + 匹配一个a或无限个a
a{3}} 只匹配有三个a的字符,{3}代表有三次或三个
a{3,} 匹配至少3个a以及以上的字符
a{3,6} 匹配三个a和6个a之间 包括3个a 和 6个a 
^ 是匹配开始的标志符
$ 是匹配正则的结束符
\b 可以在\b前后添加字符[],如 d\b 就是匹配 d空格 的形式 \b是作为一个隐式占位符存在  如:\b\w, \w\b,\b\w\w\b
\B 可以在\B前后添加[a-zA-Z0-9]或[^a-zA-Z0-9] 如 \Br   \B\w \w\B  \B\W \W\B
其他标识符
\G 一个起点的标志符与^差不多
\A 仅匹配字符串的开头,不同于^,这不受影响
\Z 匹配字符串的结尾或字符串末尾的行终止符之前的位置(如果有),不同于$不受影响
\z 仅匹配字符串的结尾,与$不同,不受多行影响,并且与\Z相反,在字符串末尾的尾随换行符之前不匹配
\X 匹配任何有效的Unicode序列,包括换行符。相当于(?s:.)
\C 匹配输入的第一个单元字符串(出现的第一串字符串)的第一个字符 任意字符
\R 匹配任何Unicode换行符序列。等效于(?>\r\n|\n|\x0b|\f|\r |\x85)
\N 匹配任何不是换行符的字符,与\n相反。不受单行标志的影响
\v 匹配unicode垂直空白,PCRE引擎将其视为字符类:[\x{2028}\n\r\n{000B}\f\x 2029}\x 0085}]z
\V 匹配\v不匹配的任何内容
\h 匹配空格、制表符、不间断/数学/表意空格等。适用于Unicode。相当于[\t\x{00A0}\x{1680}\ x{180E}\x 2000}\x2001}\x2002}\x2003}\x2004}\x2005}\xmlclose等
\H 匹配非水平空格的任何字符\h
\K 将正则表达式中的给定位置设置为匹配的新开始。\K之前的任何内容都不会作为完全匹配的一部分返回 /[\d]+\k[\d,]+
\pS 匹配任何数学符号、货币符号、丁巴、方框图字符等
\k{name} \k<name> \k'name' 匹配名为“name”的捕获组匹配并捕获的相同文本。替代符号为\k<name>和\k'name'。对.NET有效
\gn \g{n} \g{-n} \g<n> \g<+n> n是数字 匹配第n组捕获的文本。如果需要,n可以包含多个数字
\xYY 将8位字符与给定的十六进制值匹配
\X{YYYY} 将16位字符与给定的十六进制值匹配
\ddd 将8位字符与给定的八进制值匹配
\cY 匹配通常与Control+A到Control+Z:\x01到\x1A关联的ASCII字符。

推荐一个正则表达式匹配测试网站 https://regex101.com/

下面两实例来自于菜鸟教程
通过实例了解正则表达式,以下是我自己的见解

第一个例题:
<?php
/*
 * (?: )*  是 无限匹配
 * \D+ 是匹配任意非数字(asdaasdas)
 * <\d+> 是1个或者多个数字(76874856)
 * | 是 或者的意思
 * [!?] 是匹配 字符中有没有!或者?
 */
preg_match('/(?:\D+|<\d+>)*[!?]/', '165dasda465!');

if (preg_last_error() == PREG_BACKTRACK_LIMIT_ERROR) {
    print 'Backtrack limit was exhausted!';
}else{
    echo "666"."<br>";
}
////运行结果
//666
?>

首先preg_match()是一个正则匹配的函数,可以过滤字符串
preg_match()函数中第一个参数是用于匹配第二个参数中的字符串的
1.正则表达式中一开始的 / 和结束的 / 是正则的一个表达式书写格式 可以是 /xxx/i /xxxx/g等等

2.其次,这个正则分成两部分,第一捕获组(第一个匹配组)是(?: \D+|<\d+>) ,其中的(?: )意思是匹配\D+|<\d+>一次的意思,而(?:)后面多加了*代表的是无限匹配\D+|<\d+>无限次直至匹配成功,或匹配所有情况最后失败

3.紧接着就是\D+,这里先讲\d。\d是匹配0-9其中一个数字而\D是匹配非0-9的字符,在表达式中,两个都有+号,+号代表的是1或者无限个的意思,那么当在\D和\d中添加+号,\d+表示0-9的数字里可以1个数字组成或无限个数字组成,如123456,\D+表示非0-9数字的字符可以是1个或者无限个组成,如ajals!#!,然后他们中间有个 | 意思是或者的意思

4.[!?] 其中[]是将表达式框起来选择执行的,很显然里面只有 !? ,[]的作用是匹配的时候对 ! ? 二选一进行匹配,相当于 (! | ?)

5.整体上来看的意思就是,匹配 非数字的字符1个或者无限个 或 匹配 数字字符1个或无限个 且这一整个是匹配无限次,然后匹配无限次的同时要匹配!或者?在末尾,如ashasl! asdasda? 46546asd? 6856dasa! 563! 4684864?等等,所以题目中165dasda465!是可以匹配成功的,preg_last_error()是出现匹配报错的时候才会跟PREG_BACKTRACK_LIMIT_ERROR相等,匹配成功了最后就输出 666

第二个例题:

<?php
$subject = array('1', 'a', '2', 'b', '3', 'A', 'B', '4'); 
$pattern = array('/\d/', '/[a-z]/', '/[1a]/'); 
$replace = array('A:$0', 'B:$0', 'C:$0'); 
 
echo "preg_filter 返回值:\n";
print_r(preg_filter($pattern, $replace, $subject)); 
 
echo "preg_replace 返回值:\n";
print_r(preg_replace($pattern, $replace, $subject)); 
?>

//执行结果
preg_filter 返回值:
Array
(
    [0] => A:C:1
    [1] => B:C:a
    [2] => A:2
    [3] => B:b
    [4] => A:3
    [7] => A:4
)
preg_replace 返回值:
Array
(
    [0] => A:C:1
    [1] => B:C:a
    [2] => A:2
    [3] => B:b
    [4] => A:3
    [5] => A
    [6] => B
    [7] => A:4
)

preg_filter与preg_replace都是用来过滤匹配代替字符的,本质区别是preg_repalce不管有没有代替都会把所有输出出来,preg_filter不会,就如上面,[5][6]都没输出。他们都有三个参数,第一个参数\(pattern使用一个模式的意思,也是要匹配的正则,第二个参数\)replace是要替换的字符,第三个参数$subject是要被拿去匹配的字符,而且 第二个参数与第三个参数绑定在一起,如果出现匹配到 \d 就会输出 A:$0 ,$0是原数组的元素索引,比如第一个匹配到\d就会输出 A:1

根据上面的逻辑,我们推出,\d -> A:$0 [a-z] -> B:$0 [1a] -> C:$0
紧接着我们要处理就是了解每个正则表达式什么意思。

\d 表示0-9其中匹配一个数字,[a-z] 表示26个字母匹配一个 [1a] 表示 1 或者a匹配1个或者都匹配到

解析 \(subject = array('1', 'a', '2', 'b', '3', 'A', 'B', '4'); \)pattern = array('/\d/', '/[a-z]/', '/[1a]/');
$replace = array('A:$0', 'B:$0', 'C:\(0'); 首先第一个字符 1 匹配\)pattern数组中的正则第一个和第三个 所以当匹配到\d [1a] 会把 1 前面代替为A:C:$0 此时$0=1 => A:C:1,以此类推,第二个字符a匹配到[a-z] [1a]根据执行逻辑,得到B:C:a,剩下的都是同理,因为在对A B (也就是[5][6])时,没有匹配到,preg_filter函数会不输出,所以看不到。最终得到执行结果。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  5NWiQFAVeqgX   2024年05月17日   33   0   0 网络安全
  pTtIhLb24H2d   2024年05月17日   35   0   0 网络安全
  OKgNPeBk991j   2024年05月18日   47   0   0 网络安全
  rKgO6TN7xbYO   2024年05月17日   39   0   0 网络安全
  5NWiQFAVeqgX   2024年05月17日   53   0   0 网络安全
  5NWiQFAVeqgX   2024年05月17日   36   0   0 网络安全
  YOkriIV1Am1d   2024年05月20日   39   0   0 网络安全
  owpmXY9hzjPv   2024年05月20日   38   0   0 网络安全
  owpmXY9hzjPv   2024年05月20日   42   0   0 网络安全
  owpmXY9hzjPv   2024年05月20日   34   0   0 网络安全
n2tShmr9xLBC