对于大语言模型的一些试验:我为其输入了双语的语料,期望它能将其对齐为TMX文件。按照我的猜想,LLM在这种纯文字处理领域应该要比CAT的传统解决方案要强大。
事实也确实如此,它能正确地理解TMX的格式并对齐语料。这个过程需要逐步地tweak,比如告知其忽略格式的差异(如Markdown标记),显式指定源语言和目标语言等。
目前的问题在于其输入和输出窗口的限制,对于大规模任务恐怕很难胜任。
- TODO:用一本外国文学的国内权威译本进行尝试
对于大语言模型的一些试验:我为其输入了双语的语料,期望它能将其对齐为TMX文件。按照我的猜想,LLM在这种纯文字处理领域应该要比CAT的传统解决方案要强大。
事实也确实如此,它能正确地理解TMX的格式并对齐语料。这个过程需要逐步地tweak,比如告知其忽略格式的差异(如Markdown标记),显式指定源语言和目标语言等。
目前的问题在于其输入和输出窗口的限制,对于大规模任务恐怕很难胜任。