IT产品资讯中心 > 扫描仪 > 正文

扫描仪应用手册之教你如何ORC


作者:    更新时间:2008-1-14 17:31:52
  OCR是英文Optical Character Recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在OCR主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开销售的,专业的OCR软件在早些时候卖得比扫描仪还要贵。随着扫描仪分辨率的提升,OCR软件也在不断升级,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。OCR技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和OCR技术的日臻完善,OCR己成为绝大多数扫描仪用户的得力助手。

一、OCR技术的发展历程

  自20世纪60年代初期出现第一代OCR产品开始,经过30多年的不断发展改进,包括手写体的各种OCR技术的研究取得了令人瞩目的成果,人们对OCR产品的功能要求也从原来的单纯注重识别率,发展到对整个OCR系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

  IBM公司最早开发了OCR产品,1965年在纽约世界博览会上展出了IBM公司的OCR产品——IBMl287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的OCR系统OCRV595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。

  中国在OCR技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版,至此中文OCR正式从实验室走向了市场。清华OCR印刷体汉字识别软件其后又推出了TH-OCR 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的TH-OCR 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是TH-OCR 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通TH-OCR外,其它如尚书SH-OCR等各具风格的OCR软件也相继问世,中文OCR市场稳步扩大,用户遍布世界各地。

  可以说目前印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字OCR技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体OCR汉字识别技术已经比较成熟,所以OCR产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。

  专业型OCR产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型OCR系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。

  手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体OCR技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。

上一篇:找回被Win XP“赶走”地扫描仪
下一篇:扫描仪应用手册之教你如何ORC(2)
  相关资讯     推荐资讯
1. 西门子手机再创新低 直板CXV65仅售1139元
2. 迎合国人喜好 北京诺基亚C网折叠机6225上市
3. 三星三款热卖机型再曝新低 S308仅1650元
4. 价格北京最低! 太阳通信12款手机降
5. 指画江山 摩托罗拉指书手机A668跌破两千元
  1. 打完3折再半价 三星巧克力大清仓
2. 学生地好伴侣 诺基亚5300特价1380
3. 机王终降价 诺基亚N95普通版猛降200元
4. 拍照手机中地王者 诺基亚 N82年后大降价
5. 320W头滑盖音乐机 诺记5610降200
网友评论
    最新资讯
1. 内置8G硬盘 诺基亚音乐王N91仅1999
2. HKC顶级智能机G920只售2668元
3. 大屏手写 UT斯达康GPS智能P903仅178
4. 大战一触即发 诺基亚N96与三星i908评
5. 复古音乐魅力 LG KM380翻盖仅售1380
6. 中秋大回馈 艾美讯M810感恩价1880元
7. 轻薄翻盖机 诺基亚N76行货售2600
8. 三防手机索尼爱立信C702仅售1900
9. 待机之王 飞利浦9@9K实惠不足1K
10. 内置罗盘GPS 诺基亚6210S售2799
    热点资讯
1. 黑莓有多火 贝克汉姆等众明星用什么
2. 最爱夏普SH920c 女性手机推荐排行榜
3. 内置罗盘GPS 诺基亚6210S售2799
4. 诺基亚宽屏经典智能机E61跌至1699元
5. 超酷智能翻盖 诺基亚N76全黑色版图赏
6. 五一假期不乱花钱 1000-2000元手机导
7. 超薄镜面N系王 诺基亚N76行货2350元
8. 绝对超值 诺基亚超薄音乐5310仅1399
9. 8G内存空间 索爱超强音乐机W980售30
10. 完美解决 诺基亚不掉漆纯黑N76终到货
11. 真机实拍 中关村首台美版3G iPhone图
12. 日系手机再掀热潮!以破解为名再度集