图片转表格识别文字准确但是位置错位两行合并成一行 #14637

Toomooyaa · 2025-02-08T07:25:58Z

Toomooyaa
Feb 8, 2025

图片转表格识别文字准确但是位置错位两行合并成一行，试过各种质量的图片都会出现以上问题
paddle版本如下：
paddleclas 2.6.0
paddleocr 2.9.1
paddlepaddle 2.6.2
代码如下
`import os
import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_res

table_engine = PPStructure(
show_log=True, # 关闭日志输出
lang='ch', # 设置语言为中文
table=True, # 启用表格识别
ocr=True, # 启用文字识别
layout=True, # 启用版面分析
recovery=True, # 启用版面恢复, # 不启用版面恢复（如果不需要）
structure_version='PP-StructureV2', # 表格结构化模型版本
)

input_path = r"photo/test.png"
output_folder = r"output"

if not os.path.exists(output_folder):
os.makedirs(output_folder)

img = cv2.imread(input_path)
result = table_engine(img)

save_structure_res(result, output_folder, os.path.basename(input_path).split('.')[0])

from PIL import Image
font_path = '../doc/fonts/simfang.ttf' # PaddleOCR下提供字体包
image = Image.open(input_path).convert('RGB')
im_show = draw_structure_result(image, result, font_path=font_path)
im_show = Image.fromarray(im_show)
im_show.save(os.path.join(output_folder, 'result.jpg'))`

GreatV · 2025-02-08T07:26:47Z

GreatV
Feb 8, 2025
Maintainer

根据你的描述，表格识别的文字内容是正确的，但位置错位，导致两行合并成一行。这种情况可能是由以下几个因素导致的：

可能的原因

表格检测问题：
- 识别模型可能没有准确分割单元格，导致两个单元格被误认为是一个。
- 可能是由于表格线条较浅或者表格边界不清晰，影响了检测。
表格结构识别错误：
- SLANet 可能未正确解析 HTML 结构，导致单元格的 rowspan 或 colspan 计算错误。
- 结构标注信息中的 tokens 可能合并了多个单元格的内容。
OCR 识别的文本区域重叠：
- 如果 OCR 识别的文本区域存在重叠，可能会导致两个单元格内容合并。
图片预处理问题：
- 你已经优化过图片质量，但可以尝试进一步调整对比度、锐化边界，或者检查是否有倾斜问题。

解决方案

1. 调整表格检测模型

确保使用最新的 PP-StructureV2 和 SLANet 进行表格检测。
使用 tools/infer_table.py 进行单独的表格结构推理，检查输出的 HTML 结构是否正确：
```
python3 tools/infer_table.py -c SLANet_ch.yml \
    -o Global.checkpoints=output/SLANet_ch/best_accuracy.pdparams \
    Global.infer_img=你的图片路径
```
- 观察输出的 HTML 结构，查看 rowspan 和 colspan 是否正确。

2. 进一步优化图片

调整对比度和锐度，增强表格线条，减少误识别：

import cv2
image = cv2.imread('你的图片路径')
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
_, image = cv2.threshold(image, 150, 255, cv2.THRESH_BINARY)
cv2.imwrite('enhanced_image.jpg', image)

检查表格是否有倾斜，如果有倾斜，可以使用 OpenCV 进行矫正：

import numpy as np
coords = np.column_stack(np.where(image > 0))
angle = cv2.minAreaRect(coords)[-1]
if angle < -45:
    angle = -(90 + angle)
else:
    angle = -angle
(h, w) = image.shape[:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, angle, 1.0)
rotated = cv2.warpAffine(image, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
cv2.imwrite('rotated_image.jpg', rotated)

3. 使用 PP-OCRv3 重新检测

结合 OCR 识别，检查文本检测边界是否正确：

python3 table/predict_table.py \
    --det_model_dir=inference/ch_PP-OCRv3_det_slim_infer \
    --rec_model_dir=inference/ch_PP-OCRv3_rec_slim_infer \
    --table_model_dir=SLANet_ch/infer \
    --image_dir=你的图片路径 \
    --output=output/table

观察输出的表格结构是否仍然存在合并问题。

4. 训练自定义数据

如果问题仍未解决，可以考虑：

微调 SLANet 模型，使用更多具有类似特征的表格数据进行训练。
修改 SLANet 配置，调整 table_max_len 和 table_rec_algorithm 参数，提高识别的精度。

总结

检查表格检测结果，确保 rowspan 和 colspan 计算正确。
优化图片质量，调整对比度、锐化边缘、矫正倾斜。
使用 PP-OCRv3 重新检测，确认 OCR 识别的边界是否正确。
如果问题仍然存在，考虑微调 SLANet 模型，提高对该类表格的适配性。

如果你能提供具体的代码和更多测试案例，可能会更容易找到具体原因并优化解决方案。

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

Toomooyaa Feb 8, 2025
Author

paddleclas 2.6.0
paddleocr 2.9.1
paddlepaddle 3.0.0rc1-py39_cpu_windows
也使用了gpu版的，同样的错位的结果
paddlepaddle-gpu 3.0.0
已经是最新的版本。

这样的图片表格线清晰，按照你给的步骤优化图片后，文字反而识别错误并且依然有两行合并成一行的情况，使用原图进行识别文字识别正确只是行列错位。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

图片转表格识别文字准确但是位置错位两行合并成一行 #14637

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment 1 reply

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

图片转表格识别文字准确但是位置错位两行合并成一行 #14637

Toomooyaa Feb 8, 2025

Replies: 1 comment · 1 reply

GreatV Feb 8, 2025 Maintainer

可能的原因

解决方案

1. 调整表格检测模型

2. 进一步优化图片

3. 使用 PP-OCRv3 重新检测

4. 训练自定义数据

总结

Toomooyaa Feb 8, 2025 Author

Toomooyaa
Feb 8, 2025

Replies: 1 comment 1 reply

GreatV
Feb 8, 2025
Maintainer

Toomooyaa Feb 8, 2025
Author