欢迎访问云译网,为您提供全国翻译公司,打造专业的翻译服务平台!

发布资讯

您所在的位置 > 首页 > 翻译服务信息 > 正文

一份有关翻译文档预处理的经典案例

更新时间:2019-04-27 13:55:51

我的一个同学A语言功底好,在帝都的外企工作。闲暇做些儿童文学翻译,虽翻译稿酬不算高,但可以兼顾带女儿阅读,做得其乐融融。昨日跟我讨论一些问题,我猛然发现她的翻译技术应用还处在1990年代电脑刚刚进入家庭的时候。下面是我们的一些交谈。我会标上序号,在对话后面我会讨论其中涉及的问题。这可以看做是一份有关翻译文档预处理的经典案例了。

X(我)和A同学(我的朋友)之间的对话

A:中文字符数91000,去掉标点符号,差不多6万字?[1]

X:不会去掉那么多标点的。pdf原版也发来吧

A:PDF是编辑过后的第二个文件吗[2]

X:不是。就是出版社最初给你的文件呀

A:共三本书,每本都是一个独立的故事,除了人名,没有多少关联。我第一本翻完初稿了,第二本刚开头。

X:那就把第一本翻译的也给我,我提取一下人名。你处理的文件太不利于提高效率了……二册如果你还没开始,等我两天给你处理好再说吧。这种情况太耽误事儿啦

A:你处理了我也不会弄格式呀,再弄乱了岂不是更糟糕[3]……第二册我差不多翻完Chapter 8了……

X:没事儿。我要是明天有时间先帮你处理后面的。这种情况你交稿编辑也会提意见。

A:我是想着最后统一格式的[4]

X:受两茬罪。最初整理好了,整个翻译的时候都清爽……PDF的处理学问很多。我一般都会处理成类似原生Word(小说作者自己创作手稿)的样子。这样翻译起来就容易多了

A:我静等创作手稿哈

X:而且以后拿到编辑给的,还可以试试这个网站搜索,如有epub或mobi格式,可以一间转换为标准的Word。比pdf好用。

A:这些学问也就你知道了。[5]感觉我好像落后了一个世纪啊

X:这是我下载的epub电子书,苹果手机的ibooks可以直接打开。用Calibre免费软件可以直接转Word

A:我有calibre,还是你告诉我的。我用它把pdf转成epub,kindle上看[6]

X:临睡前发给你我转的Word看看……得是这种排版的,才有利于翻译

A:确实。哦,对了,我的第二本书,已经转成机翻版本了,我把第九章之后的发给你吧。[7]

1、在估算字数的时候,A同学过高估计了标点符号所占的字符数。这样可能导致对翻译任务的压力估计不足。而且,翻译过程中,不论是标点符号的选择使用,还是输入,并不比普通的汉字字符省多少时间,估算翻译压力的时候,最好还是不要考虑标点符号的因素。

2、在讨论文稿以及格式的时候,普通图书的译者至少要清楚PDF、DOC以及DOCX这几种扩展名所代表的文件格式分别是什么,有什么差异。现在一般出版社会给我们提供PDF格式的原书稿,但这绝非是对翻译友好的格式。PDF的转换有很多学问(见对话),而大量普通译者不了解其中的“最佳实践”,即便是知道可以用FineReader这样的OCR软件读取转换PDF为Word,也往往选择了对于翻译操作最不友好的“精确排版”格式,保留了PDF文件中的所有元素,如下图中的“首字符悬挂”排版格式,甚至包括InDesign排版文件所导出的PDF清样带有的版面对齐符号、页面切割符号以及排版信息等(一般位于页眉页脚之外)。而且,此时生成的Word文件,每遇到原版换页的时候,会额外添加分节符、分页符,导致文本断裂,影响翻译中的阅读,更会直接影响机器翻译预处理(如果用的话)。

3、A同学担心我调整了格式后,她技术不熟练会给搞得更糟。这是源自“最糟实践”的直觉体验。很多Word用户都知道,如果某个文档的版面混乱,在这个基础上强行调整,往往会越调越乱,A同学就是基于这种经验做出的判断。而实际情况是,在Word专家手里,遇到版面混乱的文件,正确的操作是先将其“打回原形”——消除不合理的复杂版面和格式信息,从最基础的文本开始。而且,即便是实现了与PDF高度相似的效果,专家和普通用户采用的手段也往往有天壤之别。普通用户是无所不用其极,用各种非常规非规范手段,只是为了让文档打印出来“像”某个样子;而在专家手里,是基于极简主义的原则,使用最少的规范版面控制手段,让文档自然“长”成某个样子——这种文档,其实最不怕折腾,用起来清爽,调整起来简单听话。

4、拿到编辑给的PDF文件,希望用最少的时间转换出Word格式,在这种文件上马上开工翻译——这是很多译者的选择。这种做法也是一种“最糟实践”。正如我在对话中说的,如果原始文档格式复杂,且有很多不合理之处,翻译过程中就不免深受其苦。而且,很多额外的版面因素,可能在文档中反复出现。预处理时如果采用合适的手段,能直接避免。而一旦生米做成熟饭,在Word文档中,恐怕就得采用纯手工的办法,一个一个删除,做起来令人生厌——我一贯的意见,有思想的大脑是不应该做重复性劳动的,机械性的劳动要交给电脑,我们在做翻译的时候,只做创造性的劳动。另外,想着“最后统一格式”,就等于受两茬罪,翻译的时候文档不规范,影响了阅读和编辑,最后还要回头重来编辑格式。从编辑工作强度上来看,要多花3~4倍的时间。

5、我提供了目前在接到图书翻译任务后的一种“最佳实践”:与其用编辑发来的PDF文件,不如去网上搜索一下,看能否下载到对应图书的epub或mobi文件。这两种标准的电子书格式文档,可以经由Calibre这款免费的电子书管理工具转换成“完美”的Word版。我试着搜索了一下,A同学在翻译的三本小说,有两本都能下载到完全一致的epub版本。导入Calibre,一键转换,总共只花了大约3分钟,就得到了两份规范的Word版本文档。

6、这里是又一个有关文档格式的小误解。epub格式是一种国际标准的电子书格式,苹果手机、平板电脑等上所带的iBooks(现在已经叫Books)了,支持打开它阅读。而mobi等,是亚马逊的Kindle电子书(实体书,以及安装在其他平板电脑等上面的APP)的格式。清楚了解最常见的电子书以及文本文档格式,有利于形成自己清晰的技术路线,知道遇到什么格式的文件该怎么处理,此外,也能帮助自己在跟编辑沟通的时候,索要所需格式的文件。

7、A同学交给我的“第二本书”,就是一个典型的基于混乱识别排版制作的预翻译文档。针对这个文档,我给出的解决方案是,复制全文,然后新建一个文件,将复制的内容以“纯文本”的格式粘贴进去。之所以这么做,是考虑到这是一本小说,里面没有复杂的格式,主要就是文本的呈现。既然如此,就可以先不管原来识别出的格式,而是将其“打回原形”,然后再考虑用“极简主义”的思想排版。新建并粘贴了纯文本内容之后,我做了以下几个调整:

第一个调整

每看到章节编号,就把光标放在该段落(或选中,新手总以为所有应用外观的操作都需要选中,其实应用段落样式的时候是不需要的,只要光标在当前段落即可),然后单击【开始——标题1】。原本的书章节编号和章节题目是分行(分段)的,如果要自动提取目录,可以将后面的文字调整到编号以后。这样全稿完成后,就可以自动提取目录。

这里要补充说一下,不少译者在翻译的时候,会先遇到目录。如果顺着文本的顺序做,就会在目录上耗费大量精力。尤其是,如果有分工,且多个译者协同不够密切,就会出现一个目录条目,多人翻译的情况,甚至出现翻译不一致的情况。其实目录是不用翻译的。学会了自动提取目录,我们就可以放心地从正文开始,在充分结合正文内容的基础上,合理地调整目录的翻译,等完成后,自动提取目录,就会生成和正文完全一致的目录。

第二个调整

第二个调整,是修改了“正文”和“标题一”的外观设定。我先是修改“正文”样式,将其调整为“宋体、小四号、两端对齐、首行缩进两个字符”(我用的是英文版Word,默认是左对齐)。修改的方法,是在Word“正文”样式名称上点右键,选择“修改”……。这样调整后,Word文件全局发生了变化,所有的文字都成了这样的外观——因为所有的文字都是采用了“正文”样式。样式,其实就是一种模子,修改模子的外观,就能改变所有采用该“模子”的段落的外观。这,就是极简化和标准化排版的精髓。

这样修改之后,标题一(其实应该称作“一级标题”;类似地,“标题二”就该是“二级标题”,依此类推。当初Word本地化的时候,如果用我提出的名词,估计会有比现在多得多的Word用户能理解样式是干什么用的)就变成了首行缩进两个字符。如果希望标题左对齐,就需要重新定义标题一的格式。办法与修改“正文”一样。

由于A同学已经在这个不规范的文档上做了一些翻译工作,全部推倒重来有些不便(若是我本人的项目,倒有可能这么做,就是把已经完成的章节做成“翻译记忆库”,舍弃其余的文档,回到原始文档,重新做最优化的转换,用CAT工具建立项目,读入记忆库部分,剩余部分在CAT优化的界面中翻译),所以,遗留了一些问题必须手工解决,比如硬生生的断行问题:

Mattwas treading water nearby,watch-ing me with concern.But Hank wasn’t callingto him.David was riding toward us on the huge wooden board,lying on his

stomach.He sat up and pulled at the board so it was nearly vertical.Thewhitewater surged past him and he stayed in place.

上面文字我加粗标出的部分,就是我所模拟的由于不规范的转换导致的强行断行(在转换的文档中也可能是分页,只不过由于我采用了纯文本粘贴的方式,分页也转变成了断行)。此时,遇到这种地方就只能手动接续了,而这,对于全书,可能意味着要按几百下删除键;但如果最初是用epub等电子书转的,或是用专门的软件从PDF转的,就基本上不会出现这种情况。两相对比,“最佳实践”和“最糟实践”的差异立刻就清晰地显示出来了。

最后的一点建议

从A同学发给我的文档,我发现她的翻译操作思路是这样的:在英文的Word文档中,在英文段落后面新加入一个段落,翻译输入中文。等全部完成后再手工删除英文,获得纯中文的译文。这种做法,看似通过某种省力的办法,实现了原文和译文相互对照跟随,便于翻译和审稿,但跟应用CAT相比,就无比费力了。

比如前几天在我们的工作坊上,就有一个老师说,她当年采用这样的办法翻译一本书,但完成后才发现,一段一段选择删除英文文本,原来也是很麻烦的——正如我所说,人最不喜欢机械性的劳动。她的一个学生说可以采用字符替换的办法,一下子抹除所有的英语。她轻信了这个学生,结果误删除了很多文字。由于她技术上不是那么熟悉,所以无法清晰描述再现当时的情形,我不好判断。只能大体考虑,她的译文中汉语段落里也会有英文字符,这些字符毫无疑问会被清理掉。如果考虑不周全,也可能把汉语文本中的阿拉伯数字清理掉。总之,据那位老师描述,她后期又花了极大的精力,才把漏掉的信息补全。据此,我怀疑她做清理的时候,没有做好备份,清理后贸然存盘,才导致必须做这样的补救工作。否则,废弃有问题的文件,回到原始文档重新想办法处理,都会简单很多——这也警示我们,在做任何“破坏性创新”的时候,要提前做好文档的备份。

此外,我发现A同学还犯了一个大忌。她虽然是在英文原稿上,逐段添加中文译文,但是又没有很好地遵循这个原则。遇到人物对白的时候,往往是你来我往说话只有一两行,她觉得太零碎,就让原文凑在一起,自己随意选择位置输入中文。这样一来,就破坏了规律性。发现了这个问题后,我赶紧给她留言:

翻译的时候注意,如果是英文后输入中文,形成诸如ABABAB这样的文本,就必须严格坚持规律性,每一个英文段落后都要输入中文,不能因为是对白,只有一行,就让原文凑在一起,自己随意选择位置输入中文。这样是不规则的文本,无法高效率去除某种语言的文字。只有严格坚持ABABAB这样的规律,才能编写自动化的流程清理掉原文。

缺乏规律性的英汉夹杂难以自动整理

而且,为了进一步确保清理的时候不会“误伤”,我让她每当中文开始的时候,输入两个斜线(//),权当是汉语段落首行的空格吧。全稿完成后,就可以编个自动流程(Word的“宏”),一键去除或是隐藏英文。关于这个双斜线(当然也可以是其他文中不会有的字符串)的奥妙,本文先不说是为了什么。了解Word宏以及灵活替换的同学,应该能够领悟吧。

热门资讯