最后更新:2013-11-19, Ver 2.4.11-1119
bwfr - 支持多国语言的字符串批量查找和替换 - 批量字符集编码转换
|
2013-11-19, Ver 2.4.11-1119
2009-12-13, Ver 2.4.8.1213
2009-03-12, Ver 2.4.7.0312
2008-09-09, Ver 2.4.6.0909
2008-09-08, Ver 2.4.5.0908
2008-09-07, Ver 2.4.4.0907
2008-09-06, Ver 2.4.3.0906
2008-08-16, Ver 2.4.1.713
|
bwfr 内部使用完全基于 UNICODE 的高效正则引擎,能够完成各种国际化条件的正则匹配。 以下举例说明:
关于 UNICODE 正则的操作效率,这个引擎比我能找到的所有开源的非 UNICODE 匹配引擎至少快一倍左右(因为所有字符类的匹配都是直接查表映射的,都是标准 O(1) 算法)。 不过这只是匹配引擎的效率,由于所有文件在“匹配->替换”前后都要做一次编码转换,所以典型应用下,wfr 效率比 fr 低一些。wfr 并不是 fr 的升级版,能够用 fr 搞定的任务不推荐用 wfr 完成。 |
wfr 支持分别指定三个参量的字符集编码:
例如:“wfr *.txt *.htm -r -argfile:patterns.txt -encarg:big5 -encin:gbk -encout:utf-8 -s” 把当前目录和所有子目录下的任何 txt 及 htm 文件中,满足 patterns.txt 内指定条件的内容全部替换;文件的编码为:gbk,patterns.txt使用 big5 编码,替换后将文件保存为 utf-8 编码。 咋一看指定参数编码好像没用,其实不然。例如在异种语言环境下(如在中文系统下操作韩文)的搜索替换;在DOS下使用wfr(DOS的系统默认代码页永远是ASCII)等场合,指定参数编码是很有意义的。 关于字符集转换功能库,如果当前系统搜索路径中存在 GUN 的 libiconv 库(iconv.dll),则优先使用 libiconv,否则使用操作系统自带的字符集转换 API。这样做的考虑如下:
|
C:\Documents and Settings\Administrator> #bwfr =============================================================================== wide find and replace Ver 2.4.7.0312 by BaiYang / 2004 - 2009, 免费软件 批量替换版 主页地址 - http://baiy.cn =============================================================================== 在文件或管道中批量搜索-替换字符串——支持多字符集编码 用法: bwfr [文件通配符1 文件通配符2 ...] {查找选项:查找内容} {-argfile:替换规则 文件} [其它选项] =============================================================================== 查找选项: -f: - 匹配精确串 -fic: - 匹配精确串(忽略大小写) -r: - 正则表达式匹配 -ric: - 正则表达式匹配(忽略大小写) -rnnl: - 跨行正则匹配 -rnnlic: - 跨行正则匹配(忽略大小写) =============================================================================== 参数文件选项: 您应当使用参数文件来指定 "查找/替换" 对。参数文件中的每一行代表一个查找替换对, 例如: 1->a 2->b 3->c 4->d ... -argfile:- 指定参数文件路径 -dlm: - 指定查找/替换对中,'查找' 部分和 '替换' 部分之间的分隔符。 默认:"->" 注意: 如果您正在使用正则匹配,那么您可以在“替换”部分中中使用子表达式代换 (\0 ~ \9) 注意:您可以在参数文件中使用系统环境变量,例如: Dir->%SystemRoot% 注意:您可以使用 '\r' 和 '\n' 来表示 '回车符' 和 '换行符',例如: 1->a\r\n 要输出 '\r' 和 '\n' 的字面值,可以使用 '\\r' 和 '\\n'。 =============================================================================== 字符编码选项: -encin: - 指定输入文本(文件或管道)的字符集编码。 默认值: 使用当前操作系统的默认代码页。 -encout: - 指定输出(结果)文本的字符集编码。 默认值: 与 "-encin" 指定的值相同。 -encarg: - 指定参数文件的内容使用何种字符集编码。 默认值: 使用当前操作系统的默认代码页。 -unisign - 如果输出指定为 UNICODE 宽字符编码 (如: UCS-2, UTF-8/16 等), 则在文 件头部加入 BOM 签名,这样支持 unicode 的文本编辑器将会自动识别该文 件的编码格式。 -listenc - 列出所有 bwfr 支持的字符集编码。 -listcmp - 列出 bwfr 认可的键入字符集编码转换规则表。 -force - 强制实施转换,忽略编码兼容性规则。 =============================================================================== 其它选项: -s - 包含子目录 -exp - 启用内存扩展算法,将会加倍程序的内存使用量,但是很多时候可以极大地 提高执行效率。现已默认开启。 -noexp - 禁用内存扩展算法。参考:-exp 选项。 -stdin - 从标准输入设备获得要查找的内容,并将结果从到标准输出设备(如果未指 定任何文件模板的话,则自动启用该选项) -stdout - 像平时一样, 从文件中获得输入, 但将结果送到标准输出(而不是写回文 件) -frc - 显示每个文件内发生的替换次数 -trc - 显示所有文件总共发生的替换次数 -errstop - 当遇到文件或子目录访问错误时,终止搜索任务。 默认: 遇到无法访问的子目录访跳过;遇到无法访问的文件时,打印错误 信息并继续 =============================================================================== POSIX 和 Perl 风格的正则表达式: - "find - replace" 完整支持 POSIX.2 扩展标准及 Perl 风格的正则表达式。 以下是支持的字符类及其对应关系: POSIX perl 描述 -------------------------------------------------------------------- [:alnum:] 字母和数字 [:alpha:] \a 字母 [:lower:] \l 小写字母 [:upper:] \u 大写字母 [:blank:] 空格和制表符 [:space:] \s 空白字符 [:cntrl:] 控制字符 [:digit:] \d 十进制数字 [:xdigit:] \x 十六进制数字 [:graph:] 可打印字符(不包括空白符) [:print:] \p 可打印字符(包括空白符) [:punct:] 标点符号 - 以下是一些 perl 的特殊字符类: perl POSIX等效 描述 -------------------------------------------------------------------- \o [0-7] 八进制数字 \O [^0-7] 非八进制数字 \w [[:alnum:]_] 单词组成 \W [^[:alnum:]_] 非单词组成 \A [^[:alpha:]] 非字母 \L [^[:lower:]] 非小写字母 \U [^[:upper:]] 非大写字母 \S [^[:space:]] 非空白符 \D [^[:digit:]] 非十进制数字 \X [^[:xdigit:]] 非十六进制数字 \P [^[:print:]] 非可打印字符 \< [^[:alpha:]_] 单词开始 \> [^[:alnum:]_] 单词结束 - 注意: posix 字符类是必须工作在集合中的(“[”和“]”内)。相反,perl 风格 的字符类是工作在集合运算之外的。 - 此外,为了便于在命令行输入一些特殊字符,特别定义了一下别名: perl风格 POSIX风格 描述 ----------------------------------------------------------------------- \" [:dq:] 双引号 \' [:sq:] 单引号 \t [:tb:] 制表符 \n [:nl:] 换行符 (0x0A) \r [:rt:] 回车符 (0x0D) \b [:bs:] 退格符 =============================================================================== TCL 8.2 兼容的高级正则表达式(ARE) - 为 -r:, -ric:, -rnnl:, -rnnlic: 等命令添加 '***:' 前缀即可开启高级正则表达 式功能。ARE 提供了比 POSIX ERE/BRE 更为强大的正则匹配语法,并且使用一套自定 义的字符类。有关 ARE 的详细信息,请访问: http://baiy.cn/utils/_regex_doc/index.htm - 启用 ARE 的 argfile 示例:(mypat.txt) ***:(#define.*?)MY_API -> HER_API ***:myfunc(\(.*?\)) -> herfunc ... 现在就可以使用 bwfr *.cpp -r -argfile:mypat.txt 命令完成 ARE 替换了 =============================================================================== 开关的前缀和后缀: * 所有命令行开关(选项)都是大小写无关的(如: "-fic:" 和 "-FIC:") * 开关的前缀可以是 "-" 或 "/"(如: "/s" 和 "-s") * 开关的后缀可以是 ":" 或 "="(如: "/f:", "/f=", "-f:" 和 "-f=" 等效) =============================================================================== 应用示例: bwfr *.txt *.htm -fic -argfile:patterns.txt |
C:\Documents and Settings\Administrator> #bwfr |
wfr 支持的字符集:使用 -listenc 参数可以查看 wfr 支持的字符集编码列表如下:
字符集编码使用名称或代码页指定均可,并且不区分大小写。
如果用户确实能保证正在进行有意义的转换,可以使用 “/force” 参数要求 wfr 忽略字符集编码兼容性检查。 |
安装步骤:
注意事项:
|
bwfr.rar(Windows/DOS)iconv.rar(可选) bwfr_linux_x86.zip (在 Ubuntu 8.04 上测试通过) bwfr_linux_x64.zip (在 Ubuntu 8.04 上测试通过) bwfr_freebsd_x64.zip(在 FreeBSD 7.0 上测试通过) bwfr_netbsd_x86.zip (在 NetBSD 5.0.1 上测试通过) bwfr_solaris_x86.zip(在 OpenSolaris 2009.06 上测试通过) |