(ocrfeat): 增加 PDF 文件文字识别功能

- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件
- 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理
- 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
This commit is contained in:
JR
2025-08-04 10:18:17 +08:00
parent 04bcf53116
commit 831695e236
4 changed files with 94 additions and 5 deletions

View File

@@ -1,11 +1,24 @@
package com.klp.service;
/**
* OCR文字识别Service接口
*
* @author Joshi
* @date 2025-07-18
*/
public interface ITesseractOcrService {
/**
* 识别网络图片
* @param imageUrl 图片URL
* @return 识别结果
* 识别图片中的文字
* @param imgUrl 图片URL
* @return 识别出的文字
*/
String recognizeText(String imageUrl);
String recognizeText(String imgUrl);
/**
* 识别PDF文件中的文字
* @param pdfUrl PDF文件URL
* @return 识别出的文字
*/
String recognizePdfText(String pdfUrl);
}