[PaddlePaddle/PaddleOCR]个人数据det训练完det_hmean: 1.0,det_precision: 1.0。det预测效果也好。但是det+rec之后有会丢那么一两空。

系统环境/System Environment： ubuntu20.04
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components： paddle 1.0.2 paddle-bfloat 0.1.2 paddle2onnx 0.9.7 paddlefsl 1.1.0 paddlenlp 2.4.1 paddleocr 2.6.1.2 paddlepaddle-gpu 2.4.1.post116 pandas 1.1.5 pandocfilters 1.5.0

运行指令/Command Code： det预测：

python3 tools/infer/predict_det.py --det_algorithm="DB" \
--det_model_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/model/det/inference/det_db_dml_inference/Student" \
--det_limit_side_len=736 \
--det_limit_type="min" \
--image_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/test/det_imgs/" \
--draw_img_save_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/test/det_imgsresult/" \
--use_gpu=True

预测效果完全正确

det+rec预测：

python3 tools/infer/predict_system.py \
--image_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/test/det_dec_imgs/3-193.jpg" \
--det_model_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/model/det/inference/det_db_dml_inference/Student/" \
--det_limit_side_len=736 \
--det_limit_type="min" \
--rec_model_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/model/rec/inference/ch_PP-OCRv3_rec_infer/" \
--rec_image_shape="3,48,320" \
--rec_char_dict_path="ppocr/utils/ppocr_keys_v1.txt" \
--draw_img_save_dir="/home/DiskA/zncsPython/picture_ocr/xsd_v1/test/det_dec_imgsresult/" \
--use_space_char=True \
--use_angle_cls=False

完整报错/Complete Error Message：这个是为什么呢？det模型是自己训练的，rec模型是直接用的官网的ch_PP-OCRv3_rec_infer模型

rexzhengzhihong

好像是drop_score问题。那这个部署到hubserving之后怎么改呢？

rexzhengzhihong

可以看下det和det+rec下的预处理和后处理参数是不是一致

andyjiang1116

好的。那这种图片中既有文本。又有表格。可以用表格识别吗？

rexzhengzhihong

可以用pp-structure来解决，版面分析+表格识别

andyjiang1116

可以用pp-structure来解决，版面分析+表格识别

可是图片中不止有表格，还有关键信息，怎么处理？

rexzhengzhihong

非表格区域也可以检测识别

andyjiang1116

pp-structure 不能使用kie_ser模型吧？

rexzhengzhihong

文档中哪里有这种例子吗

rexzhengzhihong

需要关键信息的话，可以直接用ser模型

andyjiang1116

没太明白，怎么直接用ser模型？

rexzhengzhihong

参考文档 https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/kie/README_ch.md

andyjiang1116

这个有做提取的。现在我是不知道怎么在把（版面分析+表格识别）和关键信息提取的怎么一步完成。

rexzhengzhihong

如果需要关键信息，那可以不用表格识别了，然后漏掉的，可以调下后处理的阈值

andyjiang1116

如果图片中有文本和表格的，把表格里的空标注为关键信息？

rexzhengzhihong

我一开始就是这么做的，但是有的图片大部分是表格，标注量非常大，而且det不是很准。有时候表格的文本太靠近。两空会识别成一空

rexzhengzhihong

https://github.com/PaddlePaddle/PaddleOCR/issues/9578 这个有提到过，回复没发解决

rexzhengzhihong

表格识别更多的是将图片中的表格识别出来转成Excel，你这个问题用kie就行，然后可以在你的数据集上finetune一下

andyjiang1116

然后可以在你的数据集上finetune一下是什么意思？

rexzhengzhihong

就是针对你的使用数据做一个finetune训练，优化下模型

andyjiang1116

finetune

这个有文档吗？不太明白怎么优化

rexzhengzhihong

就是在你的数据上进行微调模型，具体看下https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/kie/how_to_do_kie.md

andyjiang1116

ser模型我已经训练完了，但是在det的时候就有的空合并了。

就是在你的数据上进行微调模型，具体看下https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/kie/how_to_do_kie.md

rexzhengzhihong

其实我也知道加表格模型预测很麻烦。但是用关键信息提取ser。对于里面有表格的表单好像确实会出一些问题。比如 1、两空太近合成一空 2、有的空会丢掉 3、标注的时候表格的每个空的要去标注一个不同的名称，工作量有一些这些可以解决吗

rexzhengzhihong

先调下后处理参数试试吧

andyjiang1116

可以看下det和det+rec下的预处理和后处理参数是不是一致

您好，我也遇到了这样的问题，我训练的检测模型很准确，我现在又训练了个识别模型，结合起来用时，原本能检测到的文字区域会丢失一两个。请问我应该怎么做呢

izhaolinger

可以看下det和det+rec下的预处理和后处理参数是不是一致

您好，我也有这个问题，就是已经检测到文字了，但是识别的时候漏字了。我看了一下代码，是将文字检测的结果img_crops输入进行文字识别，我也把img_crop的结果保存了，发现确实有检测到文字，而且也比较清晰，但文字识别rec就是漏了一个字。请问一下，预处理和后处理哪里会有问题呢？多谢多谢。

boreas-l

[PaddlePaddle/PaddleOCR]个人数据det训练完det_hmean: 1.0,det_precision: 1.0。det预测效果也好。但是det+rec之后有会丢那么一两空。

回答

相关问题