(ocrfeat): 增加 PDF 文件文字识别功能

- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件
- 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理
- 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
This commit is contained in:
JR
2025-08-04 10:18:17 +08:00
parent 04bcf53116
commit 831695e236
4 changed files with 94 additions and 5 deletions

View File

@@ -68,6 +68,18 @@ public class WmsPurchasePlanController extends BaseController {
return R.ok(new RecognizeTextVo(text));
}
/**
* 识别PDF文件中的文字
* @param request PDF文件地址
* @return 识别出的文字
*/
@PostMapping("/recognizePdfText")
public R<RecognizeTextVo> recognizePdf(@RequestBody Map<String, String> request) {
String pdfUrl = request.get("pdfUrl");
String text = iTesseractOcrService.recognizePdfText(pdfUrl);
return R.ok(new RecognizeTextVo(text));
}
/**
* 查询采购计划主列表
*/