- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件 - 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理 - 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
25 lines
467 B
Java
25 lines
467 B
Java
package com.klp.service;
|
|
|
|
/**
|
|
* OCR文字识别Service接口
|
|
*
|
|
* @author Joshi
|
|
* @date 2025-07-18
|
|
*/
|
|
public interface ITesseractOcrService {
|
|
|
|
/**
|
|
* 识别图片中的文字
|
|
* @param imgUrl 图片URL
|
|
* @return 识别出的文字
|
|
*/
|
|
String recognizeText(String imgUrl);
|
|
|
|
/**
|
|
* 识别PDF文件中的文字
|
|
* @param pdfUrl PDF文件URL
|
|
* @return 识别出的文字
|
|
*/
|
|
String recognizePdfText(String pdfUrl);
|
|
}
|