Posted on

Python|文本处理:用正则表达式替换掉汉字(非英文)中间的空格

网络上的一些文本,部分会有一些不必要的空格,如果想把空格全部替换掉,使用字符串string类的replace()方法即可,如:

str = str.replace(‘ ‘,”)

但如果是中英文混排的文本,如果想替换掉汉字中间的空格,而保留英文单词之间的空格,则问题的解决要复杂一些。需要用到正则表达式。

如有以下文档:

行(或段)的首尾、一些汉字之间有不必要的空格,需要替换掉。

用以下Python代码即可:

处理后的文本保存到了new,www.778772.com.txt文档:

当然,一些有规律的乱码也可以处理。

标签 表达式 空格 字符串 英文 汉字

发表评论

电子邮件地址不会被公开。 必填项已用*标注