1
0
mirror of https://github.com/apachecn/lmpythw-zh.git synced 2025-05-28 12:02:19 +00:00
lmpythw-zh/ex31.md
wizardforcel 94467e1586 ex31
2017-08-12 17:05:59 +08:00

105 lines
4.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 练习 31正则表达式
> 原文:[Exercise 31: Regular Expressions](https://learncodethehardway.org/more-python-book/ex31.html)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
正则表达式RegEx是一种简洁的方式用于确定字符序列应如何在字符串中匹配。通常大家都认为它们是“可怕”的但是正如你所知道的任何包含在恐惧中的东西通常都不是这样。正则表达式的事实是它们是大约八个符号的集合告诉计算机如何匹配模式串。简单来说他们很容易理解。人们遇到困难的地方是尝试使用难以置信的复杂的正则表达式其中解析器实际上会更好。一旦你明白了这八个符号和正则表达式的限制你就会看到它们根本不可怕。
我打算让你记忆更多东西,使你的的大脑为讨论做好准备。
> `^`
> **锚定字符串开头**。只有字符串刚好位于开头,它才会匹配。
> `$`
> **锚定字符串末尾**。只有字符串到达了末尾,它才会匹配。
> `.`
> **任何单个字符**。接受任何单个字符的输入。
> `?`
> 正则表达式的**之前的部分是可选的**,所以`A?`的意思是可选的字符`A`。
> `*`
> 之前的部分是零个或多个(**任意个**)。选取正则表达式的之前的部分,重复接受或者跳过它。`A*`会接受`"AAAAAAA"`或者`"BQEFT"`,因为它里面有零个`A`。
> `+`
> 之前的部分是一个或多个(**至少一个**)。和`*`类似,但是只接受一个或多个这种字符。`A+`会匹配`"AAAAAAA"`,但不是`"BQEFT"`。
> `[X-Y]`
> `X`到`Y`的**字符范围**,接受任何范围中列出的字符串。`[A-Z]`表示所有大写英文字母。许多常见字符范围拥有`\`快捷方式,你可以使用它来代替。
> `()`
> **捕获**这个正则表达式的部分,便于稍后使用。许多正则表达式库将其用于替换、提取或修改文本。捕获会选取正则表达式的`()`中的部分,并保存它便于以后使用。之后许多库可以让你引用这些捕获。如果你使用`([A-Z]+)`,它会捕获一个或多个大写英文单词。
Python 的[`re`库](https://docs.python.org/3/library/re.html)列出了一些更多的符号,但大多都是这八个的一些修饰符,或者不在正则表达式库中经常发现的额外功能。你将快速记住这八个来起步,重点是粗体的部分(锚定末尾,之前部分可选),以便你可以快速回忆它们并解释他们的作用。
记住这些符号后,请查看以下正则表达式并将其翻译成中文,并使用 Python `re`库来尝试列出的字符串,或你可以想到的任何其他字符串。
> `".*BC?$"`
> `helloBC`, `helloB`, `helloA`, `helloBCX`
> `"[A-Za-z][0-9]+"`
> `A1232344`, `abc1234`, `12345`, `b493034`
> `"^[0-9]?a*b?.$"`
> `0aaaax`, `aaab9`, `9x`, `88aabb`, `9zzzz`
> `"A+B+C+[xyz]*"`
> `AAAABBCCCCCCxyxyz`, `ABBBBCCCxxxx`, `ABABABxxxx`
一旦你翻译了它们使用Python `re`模块,尝试在 Shell 中尝试它们,如下:
```py
>>> import re
>>> m = re.match(r".*BC?$", "helloB").span()
>>> re.match(r".*BC?$", "helloB").span()
(0, 6)
>>> re.match(r"[A-Za-z][0-9]+", "A1232344").span()
(0, 8)
>>> re.match(r"[A-Za-z][0-9]+", "abc1234").span()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'span'
>>> re.match(r"[A-Za-z][0-9]+", "1234").span()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'span'
>>> re.match(r"[A-Za-z][0-9]+", "b493034").span()
(0, 7)
>>>
```
对于任何不匹配,你会得到`AttributeError: 'NoneType'`,因为当你的正则表达式不匹配时,`re.match`函数返回`None`
## 挑战练习
挑战是尝试使用你的 FSM 模块来实现一个简单的正则表达式,至少执行三个操作。这将是一个困难的挑战,但使用 Python `re`库来帮助你规划和测试此正则表达式的实现。然后,一旦你知道如何实现它,永远不要这样做了。人生苦短,不要做计算机已经擅长的事情。
## 研究性学习
+ 扩展你的记忆,来包括 Python `re`库文档中的所有可能的符号。
+ 如果你想要匹配一个`*`字符,那么你可以用`\*`来转义它。大多数其他符号也有类似的东西。
+ 确保你知道如何使用`re.ASCII`,因为某些解析的需求需要它。
## 深入学习
看看[`regex`库](https://pypi.python.org/pypi/regex/),如果你需要 Unicode 支持,那么这个更好。