正则表达式和Unicode
我有一个正则表达式,用来提取姓氏:
姓氏=r'(?u).+(\w+)'
但是,当我将它应用于此Unicode字符串时,我只得到前3
姓氏字母:
名称='Anton\xc3\xadn Dvo\xc5\x99\xc3\xa1k'
SURNAME_RE=重新编译(SURNAME)
M=surname_re.earch(姓名)
M.Groups()
('DVO\xc5',)
我想可能是编码有问题,但我不理解Unicode
好到足以知道如何正确地消化
那个姓氏。
--
杰弗里·巴里什