提取文本,包括Unicode字符。然而,Java开发人员似乎直到最近才获得成熟可用的PDF支持。pdfbox下载PDFBox覆盖PDF文档。PDF/A验证:验证PDF文档是否满足PDF/A ISO标准。
[PDFBOX-3347] - COSName parsing doesn't handle ISO-8859-1 encoded bytesPDFBox(一个BSD许可下的源码开放项目)是一个开源的用于处理PDF文档的 Java工具,PDFBox支持各种语言和平台的PDF工具和类库就如雨后春笋般涌现。自从Adobe公司1993年第一次发布公共PDF参考以来,支持各种语言和平台的PDF工具和类库就如雨后春笋般不断冒出。PDF转换:可以把PDF文档转换成映像文件。PDFBox从PDF和XFDF格式中导入或导出表单数据。合并&分割:可以把多个PDF文档合并成单个,也可以把单个PDF分拆成多个PDF文档。Bug 修复