开发者电台是一个面向开发者全新的、现代化的技术交流平台，我们致力于为开发者打造一个优质的知识分享社区，让我们一起分享知识与见解，让更多的开发者从中受益。

正则表达式和Unicode

作者: admin
时间: 22/12/22 14:27:55
分类: Python

我有一个正则表达式，用来提取姓氏：
姓氏=r'(？u).+(\w+)'
但是，当我将它应用于此Unicode字符串时，我只得到前3
姓氏字母：
名称='Anton\xc3\xadn Dvo\xc5\x99\xc3\xa1k'
SURNAME_RE=重新编译(SURNAME)
M=surname_re.earch(姓名)
M.Groups()
('DVO\xc5'，)
我想可能是编码有问题，但我不理解Unicode
好到足以知道如何正确地消化
那个姓氏。
--
杰弗里·巴里什

# 回答1

杰弗里·巴里什写道：
这是一个字节字符串。您可以修改文本
名称=u'Anton\xedn Dvo\u0159\xe1k'
或使用适当的编码进行解码
名称='Anton\xc3\xadn Dvo\xc5\x99\xc3\xa1k'
Name=name.decode("utf-8")
(U'Dvo\u0159\xe1k'，)
DVOák
彼得

标签: python

添加新评论

上一篇: 回复：pyhton还是json，列表还是数组？
下一篇: tkFileDialog阻止了Tkinter条目

正则表达式和Unicode

添加新评论

最新文章

分类

最近回复

归档

其它