Loading [Contrib]/a11y/accessibility-menu.js

移除字幕檔中的英文句子,保留其他語言的句子

如果一個字幕檔,包含類似這樣的內容:

1
00:00:11,761 --> 00:00:13,722
Welcome.
Bienvenidos y bienvenidas.

要把這樣的檔案中,編號的句子(例如上面的 1),以及英文的句子移除,可以用下列的 python 程式碼來處理。

def is_chinese(string):
for ch in string:
if u'\u4e00' <= ch <= u'\u9ffff':
return True
return False
with open('1.txt', mode='r') as in_file, \
open('1_zh.txt', mode='w') as out_file:
for line in in_file:
line = line.strip()
if line:
if (line[0].isnumeric()):
out_file.write(line + '\n')
elif (is_chinese(line)):
out_file.write(line + '\n\n')