(ocrfeat): 增加 PDF 文件文字识别功能

- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件 - 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理 - 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
2025-08-04 10:18:17 +08:00
parent 04bcf53116
commit 831695e236
4 changed files with 94 additions and 5 deletions
--- a/klp-wms/src/main/java/com/klp/service/ITesseractOcrService.java
+++ b/klp-wms/src/main/java/com/klp/service/ITesseractOcrService.java
@@ -1,11 +1,24 @@
 package com.klp.service;

+/**
+ * OCR文字识别Service接口
+ *
+ * @author Joshi
+ * @date 2025-07-18
+ */
 public interface ITesseractOcrService {

    /**
-     * 识别网络图片
-     * @param imageUrl 图片URL
-     * @return 识别结果
+     * 识别图片中的文字
+     * @param imgUrl 图片URL
+     * @return 识别出的文字
     */
-    String recognizeText(String imageUrl);
+    String recognizeText(String imgUrl);
+
+    /**
+     * 识别PDF文件中的文字
+     * @param pdfUrl PDF文件URL
+     * @return 识别出的文字
+     */
+    String recognizePdfText(String pdfUrl);
 }