加載中...
2020.05.08
什么是OCR字符識(shí)別,我們常說(shuō)的OCR即光學(xué)字符識(shí)別技術(shù)通過(guò)設(shè)備檢查包裝盒上打印或噴碼的字符是否符合要求,檢車設(shè)備如掃描儀或相機(jī)通過(guò)識(shí)別物體形狀,通過(guò)字符識(shí)別軟件將形狀轉(zhuǎn)譯成文字信息。這項(xiàng)技術(shù)一般可以應(yīng)用于印刷字符、鋼印字符等,采用光學(xué)技術(shù)將被檢測(cè)物上的文字轉(zhuǎn)換成黑白點(diǎn)陣,同時(shí)字符識(shí)別軟件轉(zhuǎn)換成文本信息,在通過(guò)軟件進(jìn)行進(jìn)一步分析。這項(xiàng)技術(shù)在工業(yè)OCR字符檢測(cè)上一般應(yīng)用于智能卡、醫(yī)藥包裝盒、食品包裝盒等產(chǎn)品的質(zhì)量檢測(cè),對(duì)模糊不清、缺陷、三期碼錯(cuò)誤等不符合要求的產(chǎn)品進(jìn)行剔除,檢測(cè)合格的產(chǎn)品將進(jìn)入自動(dòng)化生產(chǎn)的下一項(xiàng)步驟。
那么,如何提高OCR視覺(jué)識(shí)別的正確率呢,這是驗(yàn)證視覺(jué)檢測(cè)廠家的實(shí)力的經(jīng)驗(yàn)的根本。
如何衡量OCR系統(tǒng)的好壞:
拒識(shí)率
誤識(shí)率
識(shí)別速度
用戶界面的友好性
產(chǎn)品的穩(wěn)定性
易用性及可行性等
OCR識(shí)別的過(guò)程有哪些:

圖像輸入:進(jìn)行ORC識(shí)別時(shí),首先就是需要采集需要識(shí)別的圖像,可以是名片、包裝盒、證件、公文、文檔等等,隨后圖像會(huì)傳輸?shù)阶R(shí)別系統(tǒng)。
圖像預(yù)處理:此過(guò)程包含二值化(將圖像上的像素點(diǎn)灰度值設(shè)置為0或255,也就是將整個(gè)圖像呈現(xiàn)出明顯的只有黑和白的視覺(jué)效果)、去噪、傾斜度矯正等。
版面分析:將所要識(shí)別的文檔分段、分行處理
字符切割:此時(shí)需要字符定位和字符切割,定位出字符串的邊界,然后分別對(duì)字符串進(jìn)行單個(gè)切割,單個(gè)分割出來(lái)的字符再做識(shí)別。
字符特征提取:提取字符特征,為后面的識(shí)別提供依據(jù)。
字符識(shí)別:將當(dāng)前字符提取的特征向量與特征模板庫(kù)進(jìn)行模板粗分類和模板細(xì)匹配,識(shí)別出字符。
版面回復(fù):將識(shí)別結(jié)果按照原來(lái)的版面排班,輸出Word或pdf格式的文檔。
后處理校正:根據(jù)特定的語(yǔ)言上下文的關(guān)系,對(duì)識(shí)別結(jié)果進(jìn)行較正的算法。