我的翻译相关NLP实践

Q. 将语料对齐为双语平行语料，什么方法比较好？

A. NLP，但不是大模型。比如基于词向量和BERT的Bertalign目前应该是效果最好的。大语言模型不行的主要原因在于上下文的限制。至于上世纪的那些基于词频统计或者其他语法信息的算法，现在基本上已经过时了（我试过用在Okapi套件中实现的算法，效果真的不行，远远不及基于深度学习的NLP）

Q. 从语料中提取领域特定的术语，编制术语表呢？

A. 生成式AI。关键点在于自动术语提取（ATE）受益于大模型在海量文本上训练出的先验知识。传统的NLP的词性分析方法确实有一点用，但是不多，误报率很高。至于再传统一点的纯统计方法就更不行。将文本分段之后，目前的这些主流大模型效果都可以，但都有误报和漏报，归根结底还是要自己手动调整，不过可以节约很多时间。

Q. 机器翻译

A. 生成式AI。一开始Transformer就是干这个的，自然不在话下。问题无非是和传统的机器翻译比较性价比。在目前大部分LLM厂商都有免费额度，还没到割韭菜环节的情况下，用LLM来搞翻译还是很舒服的。如果要和传统的CAT等翻译流水线结合，可以把TMX内存的双语平行语料放到RAG里。我目前自己用Dify搭的一个翻译Agent就是这么做的，每次翻译提取向量相似度最大的4条，外加手动词干分析（传统方法，用NLTK就行）匹配的词汇表，可以比较准确地完成翻译任务，缺点是会有少量延迟。

Q. 超长文章的分句？

A. 用传统CAT自带的方法就可以了，NLP也好LLM也好都没有实际上的提升，而且反而会破坏原文档的结构。反正就算分句切地比较粗粒度，交给大语言模型翻译的时候它对输入文本的长度也不是很敏感。

大语言模型测试：语料对齐

蔓生庭院

我的翻译相关NLP实践

关系图谱

蔓生庭院

我的翻译相关NLP实践

Related

关系图谱