(ocrfeat): 增加 PDF 文件文字识别功能

- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件 - 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理 - 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
2025-08-04 10:18:17 +08:00
parent 04bcf53116
commit 831695e236
4 changed files with 94 additions and 5 deletions
--- a/klp-wms/src/main/java/com/klp/controller/WmsPurchasePlanController.java
+++ b/klp-wms/src/main/java/com/klp/controller/WmsPurchasePlanController.java
@@ -68,6 +68,18 @@ public class WmsPurchasePlanController extends BaseController {
        return R.ok(new RecognizeTextVo(text));
    }

+    /**
+     * 识别PDF文件中的文字
+     * @param request PDF文件地址
+     * @return 识别出的文字
+     */
+    @PostMapping("/recognizePdfText")
+    public R<RecognizeTextVo> recognizePdf(@RequestBody Map<String, String> request) {
+        String pdfUrl = request.get("pdfUrl");
+        String text = iTesseractOcrService.recognizePdfText(pdfUrl);
+        return R.ok(new RecognizeTextVo(text));
+    }
+
    /**
     * 查询采购计划主列表
     */