专注收集记录技术开发学习笔记、技术难点、解决方案
网站信息搜索 >> 请输入关键词:
您当前的位置: 首页 > 企业信息化

有没有什么好的OCR?辨别字母和数字的,不需要识别中文

发布时间:2010-06-06 17:00:30 文章来源:www.iduyao.cn 采编人员:星星草
有没有什么好的OCR?识别字母和数字的,不需要识别中文
公司给我安排了个任务,让我做快速录入,就是将证件拍照后通过OCR自动识别并且录入系统。
公司让某高拍仪厂家发来了一台,我用它们的OCR试了下,识别率实在太低,别说他们宣称的97%,连3%都不到,根本没法用。
网上下载了个汉王,貌似也不行,识别率0%
又试了下Tesseract,据说是OCR业界领军的,随便找了个保修卡拍了25张照片,识别结果如下(解释下,前两位是文件名):

59$.11?/145$ 0591—83847350/U591—B3?456B1
61ms/1&5, 0591—B3847350/0591~837-45681 I
62‘> Egiifi/{m ( 0591—a3s47a50/0591-83745681
63.EEi%/f=%E 0591-8384‘/350/0591—83745681
64' Efiifi/ififil 0591-ssav/350/0591-as?45ss1\
65E U591—83B47350/0591—83745b81
66Eéfé/H25: 0591—a3a4va5o/0591-a3?45e,sl\
68{£1} I-um u-an -aasmaso.--0591P8314565-1
69£.f_1,Z 11,}! U.']’7l 83847350.-'059l*83745b81
71 ‘-"EB £1591—8384?35O.-"O59'1-837-451581'
72U591-83B4T35OfO591-83745681
73EE.ié.‘/F55 0591-83847350/0591—a3?45<ss1
74‘I 811%/+,l 0591-ass-17350/0591-83745681\
76fiifi/Fjfii 0591—B3847350/O591—B3745681
78fiifi/ffifi ‘I 0591-saausso/0591—a3745@s1
79Qié/F55 0591 ~s3s4?350/0591-53745681 \
80' $15/1%H\ 0591-93847350/0591-8374568
81Egiz/1155' 0591-ass-wsso/0591-83745681
82@112/115E \ 0591-83847350/0591-83745681\
83, $13/fig’ 0591—a3s4?350/0591-83?-45c>s1 ||
84fiifi/F55‘ 0591-838-47350/0591~s3745c=al
85 Efiifi/1*‘.-%E‘| 0591-83847350/0591-82745681 |
86Qii’/{fifi 0591-83847350/0591-83745681
87 0591*83B4?35O/O591—83745é81
88 FEE U591~B3B4?35O-0591-B3?456B1

貌似大致上还有点样子,但是后期怎么处理我还是没辙……

有没有谁知道识别率更高的OCR软件呢?
或者哪家高拍仪厂家识别率高也可以,我们这个项目的购买量不小的。

------解决方案--------------------
给个sample图片看看
------解决方案--------------------
你这个保修卡大小会变吗 ? 倾斜角度会变吗 ?

如果不会的话,可以输入这张图片和电话号码所在RECT(估计)到OCR引擎中,设置OCR白名单,即只识别为数字,这样能加快识别速度和正确率。
------解决方案--------------------
据我所知,tesseract是开源OCR中最好的一个,要想更好地效果需要商业的OCR引擎。

如果是像你这样的特定应用的情况,可以修改tesseract的源代码中的部分设置flag,dump出中途的图像(例如二值化后的图像,倾斜矫正后的图像等等),看是哪一步不够理想,影响了结果。

最后进行相应的修改之后,OCR出的结果用正则或者其他方法得到电话号码。
------解决方案--------------------
友情提示:
信息收集于互联网,如果您发现错误或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们,谢谢。

其他相似内容:

热门推荐: