提取文本,搜罗Unicode字符。以及Jakarta Lucene等文本搜查引擎的整合历程颇为重大。加密/解密PDF文档。PDFBox从PDF以及XFDF格式中导入或者导出表单数据。向已经有PDF文档中追加内容。将一个PDF文档切分为多个文档。拆穿困绕PDF文档。
PDFBox
自从Adobe公司1993年第一次宣告公共PDF参考以来,反对于种种语言清静台的PDF工具以及类库就如雨后春笋般不断冒出。可是,java运用挨次开拓的Adobe技术反对于却相对于滞后。。这是个怪异的天气,由于PDF文档是企业信息零星存储以及交流信息的时事所趋,而Java技术特意适宜这种运用。可是,Java开拓职员彷佛直到最近才取患上成熟可用的PDF反对于。
功能介绍
一、文本提取:从PDF文档中提取文本。
二、并吞&分割:可能把多个PDF文档并吞成单个,也可能把单个PDF分拆成多个PDF文档。
PDFBox
三、表单填充:可能从PDF表单中提取数据,概况是填充PDF表单。
四、PDF/A验证:验证PDF文档是否知足PDF/A ISO尺度。
五、PDF打印:把PDF文档输入到打印机——运用了Java的打印API。
六、PDF转换:可能把PDF文档转换成映像文件。
七、PDF建树:可能重新建树新的PDF文档。
八、集成Lucene搜查引擎:Lucene搜查引擎与PDF索引相集成。
PDFBox
更新日志
这个版本是基于 2.0.5 版本的增量式 bug 修复版本,搜罗了多少个修复以及小改善,更新如下:
Bug 修复
[PDFBOX-3313] - Java 9 InaccessibleObjectException
[PDFBOX-3318] - IllegalArgumentException in PDPageTree constructor: root cannot be null
[PDFBOX-3347] - COSName parsing doesn't handle ISO-8859-1 encoded bytes