手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

如何从美剧字幕中提取单词

时间:2024-10-11 22:02:29

1、首先观察源文件,查找规律我找到的规律是:英文字幕结束后跟着一个“换行符”(我提前把标点符号 删及连续多个多余的换行符除了),然后是中文字幕,然后再一个“换行符”如果我能够搜索 “任意英文字母”+“换行符”+任意0个或者多个字符+“换行符”,就可以定位文中的所有中文字幕,而且躲开英文字幕。

如何从美剧字幕中提取单词

2、下一步看如何实现上述想法。查看替换框内可以用哪些特殊字符注意:是否勾选“使用通配符”,可以使用的特殊字符是不一样的因为中文字幕长度不确定,所以我必须要用到“*”这个可以定位“0个或者多个任意字符”的功能,故要想实现上述构想,我只能勾选“使用通配符”

如何从美剧字幕中提取单词

3、但是勾选“使用通配符”后,特殊字符内没有“段落标志”选项,即无法使用^P来查找文中的换行符……进一步查找发现,在勾选“使用通配符”的情况下,可以使用^13来查找段落标志。

如何从美剧字幕中提取单词

4、构建搜索式在查找框内输入如下公式:[a-z]^13*^13上式中“[a-z]”表示查找a-z中任意一个字符(英文都跑不出这26个字母)“^13”表示换行符“*”表示0个或者多个任四歹吭毳意字符“^13”表示换行符完全满足以上组合次序要求的就是每一行中文字幕用“空白”进行替换即可删除所有中文字幕,但是有个后遗症:最后一个单词的最后一个字母会被删除……

如何从美剧字幕中提取单词

5、解决上述问题的办法比较笨了,用a替换 [a]^13*^13用b 替换 [b]^13*^13用c 替换 [c]^13*^13用d 替换 [d]^13*^13用e 替换 [e]^13*^13用f 替换 [f]^13*^13用g 替换 [g]^13*^13…………以此类推麻烦?可以用宏命令对上述重复性的步骤进行自动替换了

© 手抄报圈