pdf翻译
记录ieeA和BabelDOC的pipeline
1月初,偶然刷到了幻觉翻译,这是一个利用arxiv上latex源码进行翻译的项目,可以免费使用。幻觉翻译的格式保留太好了,翻译效果也不错,可惜作者并没有开源(作者说怕被大厂零元购),使用的模型也一般般,用起来有点膈应。我于是参考了作者发在知乎上的文章,利用opencode + antigravity中转出来的Opus完成了ieeA。
相较于幻觉翻译,ieeA允许用户自定义llm、提示词、glossary和examples,支持高并发。相当于幻觉翻译的开源版本。但是,ieeA和幻觉翻译只能处理提供了latex源代码的文档,无法处理一般的pdf。
春节期间,我在使用沉浸式翻译时候,偶然发现了BabelDOC,它竟然可以无损地直接翻译pdf文件,并且还是开源的。感谢上帝,我于是对BabelDOC进行了开发,包括:增加更多不需要翻译的内容,比如figure、table、refs;保护超链接样式;llm翻译命中缓存等。
本文由作者按照
CC BY 4.0
进行授权