Q. 将语料对齐为双语平行语料,什么方法比较好?

A. NLP,但不是大模型。比如基于词向量和BERT的Bertalign目前应该是效果最好的。大语言模型不行的主要原因在于上下文的限制。至于上世纪的那些基于词频统计或者其他语法信息的算法,现在基本上已经过时了(我试过用在Okapi套件中实现的算法,效果真的不行,远远不及基于深度学习的NLP)

Q. 从语料中提取领域特定的术语,编制术语表呢?

A. 生成式AI。关键点在于自动术语提取(ATE)受益于大模型在海量文本上训练出的先验知识。传统的NLP的词性分析方法确实有一点用,但是不多,误报率很高。至于再传统一点的纯统计方法就更不行。将文本分段之后,目前的这些主流大模型效果都可以,但都有误报和漏报,归根结底还是要自己手动调整,不过可以节约很多时间。

Q. 机器翻译

A. 生成式AI。一开始Transformer就是干这个的,自然不在话下。问题无非是和传统的机器翻译比较性价比。在目前大部分LLM厂商都有免费额度,还没到割韭菜环节的情况下,用LLM来搞翻译还是很舒服的。如果要和传统的CAT等翻译流水线结合,可以把TMX内存的双语平行语料放到RAG里。我目前自己用Dify搭的一个翻译Agent就是这么做的,每次翻译提取向量相似度最大的4条,外加手动词干分析(传统方法,用NLTK就行)匹配的词汇表,可以比较准确地完成翻译任务,缺点是会有少量延迟。

Q. 超长文章的分句?

A. 用传统CAT自带的方法就可以了,NLP也好LLM也好都没有实际上的提升,而且反而会破坏原文档的结构。反正就算分句切地比较粗粒度,交给大语言模型翻译的时候它对输入文本的长度也不是很敏感。