(ocrfeat): 增加 PDF 文件文字识别功能
- 实现了 ITesseractOcrService接口中的 recognizePdfText 方法- 添加了 PDFBox 依赖用于处理 PDF 文件 - 在 TesseractOcrServiceImpl 中实现了 PDF 文件的文字提取和清理 - 在 WmsPurchasePlanController 中添加了识别 PDF 文件文字的 API 接口
This commit is contained in:
@@ -28,7 +28,12 @@
|
||||
<artifactId>tess4j</artifactId>
|
||||
<version>5.11.0</version>
|
||||
</dependency>
|
||||
|
||||
<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
|
||||
<dependency>
|
||||
<groupId>org.apache.pdfbox</groupId>
|
||||
<artifactId>pdfbox</artifactId>
|
||||
<version>2.0.29</version>
|
||||
</dependency>
|
||||
|
||||
</dependencies>
|
||||
</project>
|
||||
|
||||
Reference in New Issue
Block a user