I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   3 ,   No .   3 Sep tem b er   201 4 ,   p p .   121 ~ 128   I SS N:  2252 - 8938           121       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J A I   O pti ca l Chara cte r Rec o g nition o f   O f f - Line  Ty ped a nd  H a ndw ritt en Eng lish T ex Using  M o rpho lo g ica l and T e m pla t M a tching Techni ques       O la k a n m i O la da y o   O   De p a rtme n o f   El e c tri c a &   El e c tro n ic E n g in e e rin g ,   Un iv e rsit y   o f   I b a d a n   Nig e ria       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Ma y   2 3 ,   2 0 1 4   R ev i s ed   A u g   9 ,   2 0 1 4   A cc ep ted   A u g   2 1 ,   2 0 1 4       T h e   e x isten c e   o f   se v e ra d o c u m e n ts  in   h ist o rica a rc h iv e w h ich   n e e d   to   b e   e d it e d   a n d   st o re d   i n   a   c o m p u t e h a b e e n   o n e   o f   th e   d r iv e o f   Op ti c a l   Ch a ra c ter  Re a d e (OCR)  re se a rc h .   Earlier  sc a n n e h a b e e n   u se d   to   a c h iev e   th is  ted i o u tas k   h o w e v e r   sc a n n e o n ly   p ro d u c e p i c tu re   im a g e o f   th e   d o c u m e n ts. T h is  m a k e th e   d o c u m e n ts  u n re a d a b le  a n d   u n - e d it a b le  th ro u g h   o th e w o rd   p ro c e ss in g   a p p li c a ti o n s. T h is  p a p e p r o p o se d   a n   O CR  s y ste m   w h ich   c o n v e rts  o ff  li n e   t y p e d   a n d   h a n d w rit ten   tex ts  in to   th e ir  e d it a b le  tex tu a re p re se n tatio n s. T h e   m o rp h o lo g i c a c o r re latio n   tec h n iq u e   im p ro v e th e   m a p p in g   a n d   re c o g n it i o n   e f f icie n c y   o f   th e   OCR s y ste m .     K ey w o r d :   Han d w r itte n   E n g lis h   T ex t   Mo r p h o lo g ical   Of f - L in T y p ed   Op tical  C h ar ac ter        R ec o g n itio n   T em p late  Ma tch in g   T ec h n iq u es   Co p y rig h ©   2 0 1 4   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Ok ala n m i O lad a y o   O ,     Dep ar t e m en t o f   E lectr ical  an d   E lectr o n ic   E n g in ee r i n g ,   R m .   6 ,   Facu lt y   o f     T ec h n o lo g y ,     Un i v er s it y   o f   I b ad an   Ni g er ia.   E m ail:  o la k an m i.o lad a y o @ u i. ed u . n g       1.   I NT RO D UCT I O N     I h as   b ec o m tr e n d   to   d o cu m en m o s o f   t h d o cu m e n ts   i n   t h ar ch iv e s   u s i n g   s ca n n er ,   h o w ev er ,   th ese  d o cu m en ts   ca n n o b ed ited   o r   r ea d   th er ea f ter   b y   co m p u ter   s y s te m s .   Du to   th f ac t   th at  s ca n n er   s ca n s   d o cu m en ts   as  an   i m a g n o t   as  en co d ed   s et  o f   ch ar ac te r s .   OC R   s y s te m   d o es  elec tr o n ic  tr an s lat io n   o f   h an d w r itte n   o r   p r in ted   tex in t o   m ac h i n en co d ed   tex t.  OC R   is   w id el y   u s ed   to   co n v er b o o k s   an d   d o cu m e n t s   in to   elec tr o n ic  f iles   a n d   to   co m p u ter ize  r ec o r d   k ee p in g   s y s te m   i n   an   o f f ice.   OC R   m a k es  it  p o s s ib le  to   e d it  s u c h   d o cu m en t,  s ea r ch   f o r   w o r d   o r   p h r ase,   s to r it  m o r co m p ac tl y ,   d is p la y   o r   p r in t   co p y   a n d   ap p l y   tech n iq u es  s u ch   a s   m ac h i n tr an s latio n ,   te x t - to - s p ee c h   an d   tex m in in g   to   it.  O C R   s t u d y   w a s   s tar ted   b y   T y u r i n   a   R u s s ia n   s cie n ti s t   ( A. J ain   an d   Kar u   2 0 0 6 ) .   T h f ir s m o d er n   c h ar ac ter   r ec o g n iz er s   ap p ea r ed   in   t h e   m id d le  o f   t h 1 9 4 0 s   w it h   t h d ev e lo p m en o f   t h d i g it al  co m p u ter .   T h ea r l y   w o r k   o n   t h a u to m a tic   r ec o g n itio n   o f   ch ar ac ter s   h as   b ee n   co n ce n tr ated   eit h er   u p o n   w ell   p r in ted   te x o r   u p o n   s m all  s et  o f   w el d is tin g u is h ed   h a n d w r itte n   te x t   o r   s y m b o ls ,   a lth o u g h ,   s u cc es s f u b u h ad   b ee n   i m p le m e n te d   m o s tl y   f o r   L ati n   ch ar ac ter s   a n d   n u m er als.  A l s o   s o m s t u d ies  o n   J ap an ese,   C h in e s e,   Heb r e w ,   I n d ia n   an d   A r ab ic  ch ar ad es  an d   n u m er als  i n   b o th   p r in ted   a n d   h an d w r it ten   ca s e s   w er also   co n s id er ed   b y   s o m O C R   s y s te m s .   T h d ev elo p m en t s   i n   O C R   u n ti 1 9 8 0 s   s u f f er ed   f r o m   lac k   o f   ad v an ce d   al g o r ith m ,   p o w er f u c o m p u ti n g   h ar d w ar e   an d   o p tical  d ev ices.  W ith   t h e   o u t w ar d   ex p lo s io n   o n   t h co m p u ti n g   tech n o l o g y   d ev elo p m en t,  th p r ev io u s l y   p r o p o s ed   m eth o d o lo g ies   f o u n d   f er tile  e n v ir o n m en t   f o r   r a p id   g r o w t h   i n   m an y   ap p licati o n   ar ea s .   P r esen tl y ,   r en e w ed   v ig o u r s   ar b ein g   p u in   th o p tical  ch ar ac ter   r ec o g n i tio n   r esear ch .   O n o f   t h es is   r ec o g n itio n   o f   p r in ted   an d   h an d w r itte n   d o cu m en ts .   Mo r s o p h is tica ted   alg o r ith m s   w h ic h   u tili ze   ad v a n ce d   m et h o d o lo g ies ar e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   20 1 4   :   1 2 1     1 2 8   122   b ein g   d e v elo p ed .   I n   t h is   w o r k   t w o   m e th o d o lo g ies   ar co m b in ed   to   ac h iev e   an   ef f icie n O C R   s y s te m   w h ic h   w il l b ab le  to   r ec o g n ize  o f f - li n t y p ed   an d   h a n d w r itte n   d o cu m e n t s .     T h r em a in i n g   p ar o f   th is   p a p er   is   ar r an g ed   a s   f o llo w s :   s e ctio n   2   is   t h r ev ie w   o f   r elate d   w o r k s   o n   OC R   s y s te m s   a n d   m e th o d o lo g ies.  T h d esig n   m et h o d o lo g y   a n d   w o r k i n g   p r i n cip le  o f   th p r o p o s OC R   s y s te m   ar e x p lain ed   i n   s ec tio n   3 .   Sectio n   4   co n t ain s   t h test   r esu lts   a n d   co n cl u s io n .       2.   RE L AT E WO RK   OC R   ca n   b d escr ib ed   as  o n o f   th ap p licatio n s   o f   p atter n   r ec o g n itio n .   I w id ac ce p tab ilit y   i s   d u e   to   v ar io u s   e x is ti n g   d o cu m e n t atio n   c h alle n g e s   w h ic h   O C R   s y s te m s   ar ab le   to   s o l v e.   O C R   s y s te m s   ca n   b class i f ied   ac co r d in g   to   t w o   cla s s i f icatio n   m e tr ics;   d a ta  ac q u i s itio n   m et h o d   an d   te x t/  la n g u a g t y p e.     T h O C R   m et h o d o lo g ies  d ep en d   g r ea tl y   o n   th t y p o f   th eq u ip m e n u s ed   f o r   d ata  ac q u is itio n   an d   th k i n d   o f   tex t h e   d ata  ar r ep r esen ted   w it h .   O C R   d ata  ac q u i s itio n   s y s te m s   m a y   b o n li n o r   o f f - lin e   d ata  ac q u is itio n   s y s te m .   Of f - lin d ata  ac q u i s itio n   ca p tu r es  d ata  f r o m   p ap er   th r o u g h   o p tical  s ca n n er s   o r   ca m er as  wh er ea s   o n - li n d ata   ac q u is itio n   s y s te m s   u s t h d i g itizer   w h ich   d ir ec tl y   ca p t u r w r iti n g   w it h   th o r d er   o f   th s tr o k es,  s p ee d ,   p en   u p   an d   d o w n   i n f o r m ati o n .   O n - lin OC R   is   ad ap ti v i n   th s en s th a i m m ed iate  f ee d b ac k   is   g i v en   b y   t h e   w r iter   w h o s co r r ec tio n s   ca n   b u s ed   to   f u r t h er   tr ain   t h r e co g n izer .   A p ar f r o m   t h i s ,   it  i n v o l v es  v er y   li ttle   p r o ce s s in g .   Op er atio n   s u c h   as  s m o o t h i n g ,   s eg m e n tatio n ,   d e - s la n ti n g ,   d e - s k e w i n g   an d   f ea tu r e x tr ac tio n   o p er atio n s   s u ch   as  li n o r ien t atio n ,   lo o p s   co r n er s   an d   cu s p   d etec tio n   ar ea s ier   w it h   th p en   tr aj ec to r y   d ata  th an   o n   p i x el  i m ag e s .   Ho w e v er ,   o n - lin e   OC R   s y s te m   r eq u ir es  s p ec ial  p e n   an d   tab lo id   w h ich   ar n o t   co m f o r tab le  an d   n atu r al  to   u s ed   as  p en   an d   p a p er .   A p ar f r o m   t h is ,   it  ca n n o b u s ed   to   co n v er p r in ted   o r   h an d w r itte n   d o cu m en ts   o n   p a p er s   ( Ull m an n   1 9 8 7 ) .   Of f - lin OC R   s y s te m   d o es  r ec o g n itio n   o n   t h b it s   p atter n   f o r   b o th   p r in ted   an d   h a n d w r itte n   tex t.  T h b it  p atter n   is   r ep r esen ted   b y   m atr i x   o f   p ix el s .   T h is   m atr i x   m a y   b o f   lar g s ize.   I n   o r d er   to   m a k t h p atter n   co n s is ten m o s o f   t h s ca n n e r s   ar s tan d ar d ized   to   1 0 0   to 1 6 0 0   d o ts   p er   in ch   ( F u k u n a g 1 9 9 0 ) .   M o s o f   th e   r esear ch   w o r k s   ar o n   o f f - li n e   OC R   s y s te m s   b ec a u s it  allo w s   p r ev io u s l y   p r in ted   o r   h an d w r itte n   te x ts   to   b e   p r o ce s s ed   an d   r ec o g n ized .   So m o f   th e   d ev elo p ed   o f f - li n OC R   s y s te m s   ar p o s tal  ad d r ess   r ea d in g ,   c h eq u e   s o r tin g ,   s h o r t h a n d   tr an s cr ip tio n ,   r ea d in g   aid   f o r   v is u al - i m p ai r ed .   Var io u s   r esear ch   w o r k s   h ad   b ee n   d o n o n   v ar iet y   o f   m eth o d o lo g ies  th at  ar u s ed   in   OC R   s y s te m s .   No t o n l y   t h i s ,   s e v er al  w o r k s   h ad   b ee n   d o n o n   v ar io u s   ap p licatio n s   o f   OC R   s u c h   as p late  n u m b er   r ec o g n i tio n ,   d if f er e n la n g u a g es   te x r ec o g n i tio n .   Fo r   ex a m p le,   ( Mo h a m m ed   n . d . )   u s ed   te m p late  m atch i n g   ap p r o ac h   to   id en ti f y   Mu s n ad   c h ar ac ter s   wh ich   is   co n s id er ed   as  b asi s   f o r   A r ab ic  la n g u a g e.   He   ex tr ac ted   an d   n o r m alize d   Mu s n ad   ch ar ac ter s   f r o m   in p u t   i m ag e.   T h e x tr ac ted   ch ar ac t er   w as  co m p ar ed   to   ea ch   te m p late  in   th d atab ase   to   f in d   t h clo s est r ep r esen ta ti o n   o f   th i n p u t c h ar ac ter   u s in g   2 - co r r elatio n   co ef f ic ien t a p p r o ac h .   I n   ( H u an g ,   L ea r n ed - Miller   an d   Mc C all u m   n . d . )   cr y p to g r a m   al g o r i t h m   w as   e n g a g ed   to   i m p le m en t   OC R   s y s te m .   C r y p to g r a m   al g o r ith m   g r o u p s   s i m ilar   ch ar ac t er s   in   t h d o cu m en a n d   s o l v es  cr y p to g r a m   to   ass i g n   lab els  to   clu s ter s   o f   c h ar ac ter s .   W ith   t h i s   m e th o d ,   n o   ch ar ac ter   m o d el  i s   n ee d ed   an d   ca n   ar b itra r il y   h an d le  a n y   f o n t   s t y le s .   Ho w e v er ,   it  w a s   d is co v er ed   th at   t h i s   ap p r o ac h   ca n n o h an d le  n u m er als,  p u n ct u atio n   m ar k s   an d   u p p er ca s e.   In   ( Ka m alj it  a n d   B alp r ee Ma y   2 0 1 3 ) ,   m o r p h o lo g ical  a p p r o ac h   w as  ad o p ted   to   id en tify   p late   n u m b er .   T h eir   i m p le m e n tat io n   w as a b le  to   id en ti f y   th f ir s t c h ar ac ter   o f   th p late  n u m b er .       3.   O CR  M E T H O DO L O G Y   OC R   is   t h s cie n ce   th at  en t ails   th d escr ip tio n   o r   class if icatio n   o f   ch ar ac ter   m ea s u r e m en ts   th a t   u s u all y   b ased   o n   s o m m o d els.  OC R   is   o n o f   t h ca te g o r ies  o f   i m a g r ec o g n i tio n .   T h er ar v ar io u s   ch ar ac ter   r ec o g n itio n   m et h o d s   u s ed   in   d ev elo p in g   ch ar ac ter   r ec o g n izer .   T h ese  m e th o d s   a r e:  n eu r al  n et w o r k ,   m o m e n b ased   ap p r o ac h ,   co n to u r   b ased   ap p r o ac h ,   tem p lat m atc h in g   a n d   m o r p h o lo g ic al  ap p r o ac h .   I n   th is   w o r k   te m p late  m atc h in g   an d   m o r p h o lo g ical  tec h n iq u es a r u s ed   to   r ec o g n ize  E n g l is h   tex t s .   T em p late  m atc h i n g   r ef er s   to   th p r o ce s s   o f   d etec tin g   a n   o b j ec h av in g   ce r tain   s ize,   s h ap an d   o r ien tatio n   in   an   i m ag e   b y   a p p ly i n g   a n   o p er ato r   co n tain i n g   p o s iti v w ei g h ts   in   r e g io n   r ese m b li n g   th e   o b j ec ts   to   b d etec ted   an d   co n tai n in g   n e g ati v w ei g h t s   i n   r eg io n   s u r r o u n d in g   t h p o s i tiv w ei g h t   ( R . M. K   Sin h 1 9 9 7 ) .     Mo r p h o lo g y   as   d er iv ed   f r o m   b io lo g y   is   b r an ch   o f   b io lo g y   w h ich   d ea ls   w it h   t h f o r m   a n d   an i m als  a n d   p lan t s .   I is   ad o p ted   in   th i s   co n te x a s   to o f o r   ex tr ac tin g   i m a g co m p o n e n t s   th at  ar u s e f u i n   th r ep r esen ta tio n   a n d   d escr i p tio n   o f   t h r e g io n   s h ap e.   T h er ar s ev er al  p r o ce d u r al  s tep s   e n g a g ed   i n   ac h iev in g   m o r p h o lo g ical  tec h n iq u e s .   T h ese  in cl u d f ilter in g ,   th in n i n g ,   p r u n i n g ,   er o s io n   an d   d ilatio n ,   o p en in g   an d   clo s in g .       Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       Op tica l Ch a r a cter R ec o g n itio n   o Off - Lin Typ ed   a n d   Ha n d w r itten   ( Ola ka n mi  Ola d a yo   O )   123   3 . 1 .   T E M P L AT E   M AT CH I NG   AND  M O RP H O L O G I C AL   T E CH NI Q U E   T em p late  m atc h i n g   an d   m o r p h o lo g ical   tech n iq u es  a s   s tated   ea r lier ,   ar OC R   r ec o g n itio n   t ec h n iq u es .   T h ese  alg o r ith m s   in v o lv f ea t u r es  ex tr ac tio n   an d   class i f ier .   I n   te m p late  m atc h i n g   i m a g p ix els  ar u s ed   as  th e   f ea t u r es  b ein g   ex tr ac ted   f r o m   b o th   th i n p u c h ar ac ter   an d   t h clas s i f ied   ch ar ac ter s .     T h class i f ier   co m p ar es   th i n p u t   ch ar ac ter   f ea t u r es  w i th   s et  o f   c h ar ac ter   te m p la te  i n   t h c h ar ac ter   clas s .   I n   th is   c o n tex t   th e   ch ar ac ter   class   co n ta in s   n u m er als,  u p p er   an d   lo w er   ca s es  o f   E n g li s h   ch ar ac ter s   a s   s h o w n   i n   f ig   1   an d   f ig .   2 .   T h ab s o lu te  v al u o f   th cla s s i f ier   p r o ce d u r w h ic h   is   t h co r r elatio n   co ef f icie n b et w ee n   t h i n p u c h ar ac ter   an d   th co n s id er ed   ch ar ac ter   tem p late  is   u s ed   to   m o r p h o l o g icall y   d eter m i n th te m p late  w ith   clo s e s t   co r r elatio n   m atch .     Fo r m all y ,                                               ( 1 )               {                                   ( 2 )                                                                                                                                                                                                                                                                                                               T h tr an s f o r m a tio n   f u n ctio n       o n   ch ar ac ter        is :                                                                                                          E n g l is h   ch ar ac ter s   ar class if i ed   in to   n u m er als,  u p p er   an d   lo w er   ca s e s .   I n   th c h ar ac ter   cla s s   s o m o f   th ch ar ac ter s   w er w r itte n   in   d if f er en w a y s   i n   o r d er   to   ac co m m o d ate  d if f er en w a y s   o f   w r iti n g .   T h is   OC R   s y s te m ,   as  s h o w n   in   f i g u r 3 ,   is   g r o u p ed   in to   th r ee   p r o ce s s i n g   le v els  w h ic h   ar lo w   le v el  p r o ce s s in g ,   in ter m ed iate  lev e an d   h i g h   le v el  p r o ce s s i n g .   T h ese   ar i m p le m e n ted   u s i n g   6 4 - b it   Ma tlab   v er s io n   7 . 8 . 0 . 3 8 7   an d   th i n p u t te x ts   ar b u il w i th   p ain t b r u s h   a n d   tex t.     3 . 1 . 1 .   L O W   L E V E L   P RO C E SS I N G   As  s h o w n   in   t h f i g u r 3 ,   lo lev el  p r o ce s s i n g   in v o l v es  i m a g ac q u i s itio n   an d   p r e - p r o ce s s in g   o f   t h e   ac q u ir ed   i m a g es.   I m a g ac q u is itio n   s ta g e   ac q u ir es   i m ag e   o f   t h d o cu m e n o r   c h ar ac ter s   to   b r ec o g n ized .   Mo s ti m i n p u c h ar ac ter   i m a g is   o f   f i n ite  r eso l u tio n   w h ic h   u lti m atel y   a f f ec t s   th q u al it y   o f   i ts   tr an s f o r m atio n ,   th er ef o r e,   p r e - p r o ce s s i n g   b ec o m es  n ec es s ar y .   T h p r e - p r o ce s s in g   s ta g in cl u d es  co lo u r   n o r m aliza t io n ,   s ca li n g   f i lter i n g   a n d   th i n n i n g .   C o lo u r   n o r m aliza tio n   is   u s ed   to   ch a n g in p u ch ar ac ter   f o r eg r o u n d   co lo u r   to   b lack   an d   b ac k g r o u n d   co lo u r   to   w h ite.   T o   ac h iev th i s ,   h i s to g r a m   te ch n iq u w as  u s ed .   T h in p u ch ar ac ter   w a s   u s ed   to   f o r m   h is to g r a m   o f   s i n g le  cl ass   w h ich   w a s   g r o u p ed   in to   in ter v al s .   Ov er   ea c h   o f   t h ese  i n ter v als   v er tical  r e ctan g le  i s   d r a w n   w it h   it s   ar ea   p r o p o r tio n al  to   t h n u m b er   o f   p o in t   f a lli n g   in to   th at  in ter v al.   T h lu m i n a n ce   o f   th i m a g w as  d eter m i n ed   u s i n g   eq u atio n   3 .   Fig u r 2   an d   3   d ep ict  th in p u i m a g b ef o r e   an d   af ter   n o r m al izatio n   r esp ec tiv e l y .                                                                                                                                                                                                                                                                              No r m a lizatio n   al g o r ith m :   1.   Select  th r ele v an t p ar t o f   t h ch ar ac ter .   2.   Dete r m i n th t h r es h o ld   f o r   th co lo u r   n o r m a lizatio n   3.   P r o ce s s   th i m a g f r o m   to p   co r n er     lin b y   li n e   4.   Sto r th R , G, B   v al u o f   ea ch   p ix el   5.   Dete r m i n      u s in g   eq u atio n   1   6.   I f      th r es h o ld   v al u th e n   t u r n   t h p ix el  b lack   o t h er w is w h ite .   7.   R ep ea t f o r   th w h o le  in p u t i m ag e   T h i m ag s ca li n g   s ca les  t h i n p u c h ar ac ter   i m a g u p   o r   d o w n   d ep en d in g   o n   t h o r ig i n al  s ize.   T h is   w a s   d o n to   r ed u ce   th r ec o g n itio n   ti m an d   er r o r   r ate  as  l ar g ch ar ac ter   i m ag e s   w o u ld   tak lo n g er   ti m to   p r o ce s s   w h ile   s m all   i m ag e   m a y   b d i f f ic u lt   to   r ec o g n ize.   Af ter   s ca li n g   th e   ch ar ac ter   b ec o m e s   b lo ck y   a n d   h en ce   t h s m o o th e n i n g   f ilter i n g   s tag r e m o v e s   th s p i k e d g es.  T h is   s ta g co n tai n s   s m o o th en i n g   f i lter ,   lo w   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   20 1 4   :   1 2 1     1 2 8   124   p ass   f i lter .   T h ese  f i lter s   ar u s ed   to   r ed u ce   b lu r r in g   a n d   n o i s e.   A l s o ,   i m p le m en ted   in   t h lo w   le v el  p r o ce s s i n g   is   th th i n n i n g   w h ic h   co n v er t s   an y   elo n g ated   p ar ts   o r   s tr ip s   in   t h i m ag r e g ar d less   o f   th eir   b its   in to   n ar r o w   s tr ip s   th at  ar o n l y   ab o u t o n p ix el  w id e.     3 . 1 . 2 .   I NT E RM E DIA T E   L E VE L   P RO C E S SI N G   I n ter m ed iate  L e v el  P r o ce s s i n g   ( I L P )   i n   t h i n   f i g u r 3   i n v o lv es  i m a g r o tatio n   an d   s eg m en tatio n .   So m eti m es   in p u t c h ar ac ter   i m ag m a y   n o t b p r o p er ly   ali g n ed   in   a n g u lar   f as h io n   w it h   r es p ec t to   th c h ar ac ter   te m p late  s e t.  A n   i n s tan ce   o f   t h is   w i ll  b co r r ec ted   b y   r ea li g n   th i m a g O C R .   Seg m e n tati o n   w h ic h   f o r m s   th e   co r o f   I L   p r o ce s s in g   s ta g p ar titi o n s   t h in p u i m ag i n t o   its   co n s tit u e n ch ar ac ter s .   S h o w n   b elo w   is   t h alg o r ith m   u s ed   f o r   s e g m e n tat i o n   Seg m en tatio n   al g o r ith m :   1.   Scan   t h i m a g f r o m   r ig h t to   l ef t r o w   w i s e   2.   A d d     an d   co u n t a ll th x   co o r d in ates     3.   Dete r m i n th x - co o r d in ate  o f   th ce n tr o id   u s i n g                                     w h er n   is   th to tal  n u m b er   o f   th ce n tr o id .   4.   Dete r m i n t h y - co o r d in ate  o f   th ce n tr o id   u s i n g                                      w h er n   is   th to tal  n u m b er   o f   th ce n tr o id .     3 . 1 . 3 RE P RE S E N T AT I O N   AND  DE SCRI P T I O N   R ep r esen tat io n   m ap s   t h s c an n ed   c h ar ac ter   i m a g to   f o r m   s u i tab le  f o r   s u b s eq u e n t   co m p u ter   p r o ce s s in g   w h ile  d escr ip tio n   i s   f ea t u r s elec tio n   w h ic h   d ea ls   w it h   ex tr ac ti n g   f ea t u r es  i n   s o m q u a n titati v e   m an n er   o r   d if f er en tiati n g   o n class   o f   o b j ec ts   f r o m   a n o th er .   T h is   w as  ac h ie v ed   u s in g   i n ter n al  c h ar ac ter is tic s ,   th at  is ,   t h p ix el s   co m p r o m i s i n g   t h r eg io n .     3 . 1 . 4 .   K NO WL E D G E   B AS E   T h k n o w led g b ase  co n tain s   th n u m b er s ,   p u n ct u atio n ,   u p p er   an d   lo w er   ca s es   o f   E n g lis h   alp h ab ets   as s ho w n   i n   F ig u r 4 a - 4 b .   I t is   b asicall y   d atab ase   o f   t y p ed   an d   h a n d w r itte n   E n g lis h   alp h a b ets,  n u m b er s ,   an d   p u n ct u atio n s .   I n d iv id u al  ch ar a cter   i m ag e s   in   t h k n o w led g e   b ase  ar u s ed   to   g en er ate  th e   co r r elatio n   v alu es   f o r   th in p u t c h ar ac ter   i m a g an d   o u tp u t c h a r ac ter   tex t.           Fig u r 1 .   Sch e m atic  o f   t h o f f - li n Op tical  C h ar ac ter   R ea d er   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       Op tica l Ch a r a cter R ec o g n itio n   o Off - Lin Typ ed   a n d   Ha n d w r itten   ( Ola ka n mi  Ola d a yo   O )   125       Fig u r 2 a.   I n p u t i m a g c h ar ac t er   b ef o r n o r m aliza tio n           Fig u r 2 b .   I n p u t i m a g ch ar ac ter   af ter   n o r m aliza tio n           Fig u r 3 a.   OC R   h an d w r itte n   E n g l is h   ch ar ac ter   k n o w led g b a s e           Fig u r 3 b .   OC R   t y p ed   E n g li s h   ch ar ac ter   k n o w led g b ase.       4.   T E ST   AN CO NCLU SI O N   T h OC R   s y s te m   w a s   s u b j e cted   to   d if f er en s et  o f   i n p u t   tex i m ag e s   in   o r d er   to   d et er m in i t s   r ec o g n itio n   ef f icie n c y .   T h test   w a s   ca r r ied   o u o n   b o th   ty p ed   an d   h an d w r i tten   i n p u te x t s .   T h in p u i m a g es   as  s h o w n   i n   F ig u r e   4 a,   5 an d   6 ar d if f er en s et  o f   in p u te x ts   cr ea ted   u s i n g   th p ai n b r u s h   a s   p en   a n d   p ain t   tex w h ic h   r ep r esen h an d w r itt en   a n d   t y p ed   E n g l is h   te x ts   r es p ec tiv el y .   T h o u tp u t s   o f   t h OC R   s y s te m   f o r   t h e   in p u te x i m a g in   f i g   4 a,   5 a   an d   6 ar s h o w n   in   f i g u r 4 b ,   5 b   an d   6 b   r esp ec tiv el y .   T h test   r es u lt s   w er q u ite  i m p r es s i v e.     I w as  o b s er v ed   f r o m   th O C R   o u tp u in   f i g .   4 b   th at  c h ar ac ter   G   w as  t h o n l y   c h ar ac ter   n o t   r ec o g n ized .   T h is   s h o w s   a n   ac cu r ac y   o f   9 9 f o r   t h t y p ed   tex w it h   e x ec u tio n   ti m o f   1 1 2   ch ar /s ec   r ec o g n itio n   r ate.     Als o ,   f o r   in p u te x t   in   f ig .   5 it  w a s   o b s er v ed   f r o m   th e   OC R   o u tp u t   in   f ig .   5 b   th at  j u s f e n u m b er   o f   c h ar ac ter s   w er n o p r o p er ly   r ec o g n ized   ( I , G,   co mma ,   s p a ce ) .   T h OC R   s y s te m   o u tp u i n   f i g .   6 b   w h ic h   r ep r esen t s   OC R   o u tp u t   f o r   t h h a n d w r it ten   in p u tex in   f ig .   6 a,   r ec o r d ed   an   ac cu r ac y   o f   9 0 %.  I w a s   o b s er v ed   th at  t h OC R   s y s te m s   p er f o r m a n ce   u n it   is   in d ep en d en an d   co n s ta n f o r   h a n d w r i tten   a n d   t y p ed   te x t   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   20 1 4   :   1 2 1     1 2 8   126   i m a g es  o f   d i f f er e n s ize.   A l s o ,   th r e s u l s h o w ed   t h at  t h d ev elo p ed   OC R   s y s te m   m o r e f f e ctiv el y   r ec o g n ized   n u m er als t h a n   alp h ab ets.           Fig u r 4 a.   OC R   i n p u t o f   s ca n n ed   i m ag te x t d o cu m e n t.                                                     Fig u r 4 b .   OC R   o u tp u t o f   t h s ca n n ed   i m a g te x t d o cu m e n in   5 a.           Fig u r 5 a.   OC R   i n p u t o f   s ca n n ed   i m ag te x t d o cu m e n t           Fig u r 5 b .   OC R   o u tp u t o f   t h s ca n n ed   i m a g te x t d o cu m e n in   5 a     I N P U T   I M A G E   W I T H   N O I S E Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       Op tica l Ch a r a cter R ec o g n itio n   o Off - Lin Typ ed   a n d   Ha n d w r itten   ( Ola ka n mi  Ola d a yo   O )   127       Fig u r 6 a.   OC R   i n p u t o f   s ca n n ed   h an d w r itte n   i m ag te x t d o cu m e n t.           Fig u r 6 b .   OC R   o u tp u t o f   s c an n ed   h a n d w r itte n   i m ag te x d o cu m en t.       RE F E R E NC E S   [1 ]   A . Ja in ,   a n d   K.  Ka ru .   " P a g e   S e g m e n tatio n   Us in g   T e x tu re   A n a l y sis,  P a tt e r n   Re c o g n it i o n . "   2 9   ( 2 0 0 6 ):   7 4 3 - 7 7 0   [2 ]   Du e ire L in s,  R,   G P e re ira S il v a ,   a n d   A . G o m e s   e   S il v a .   " Asse ss in g   a n d   Imp ro v in g   th e   Qu a li ty o Do c u me n Ima g e Acq u ire d   wit h   P o rta b le  Dig it a C a me ra s."   ICDAR  2 0 0 7 .   Nin th   In t e rn a ti o n a Co n f e re n c e   o n   (V o lu m e :2   ).   Do c u m e n t   A n a l y si s an d   Re c o g n it i o n ,   2 0 0 7 .   5 6 9 - 5 7 3   [3 ]   F u k u n a g a ,   K.  I n tro d u c ti o n   t o   S ta t isti c a P a tt e rn   Rec o g n i ti o n .   1 9 9 0   [4 ]   Hu a n g ,   G a r y ,   Eri k   L e a rn e d - M il ler,  a n d   A n d re w   M c Ca ll u m .   " Cr y to g ra m   De c o d in g   f o Op ti c a Ch a ra c ter  Re c o g n it io n . "   [5 ]   Hu a n g ,   Ka izh u ,   Ju n   S u n ,   Y.  Ho tt a ,   a n d   K.  F u ji m o to .   " A n   S VM - Ba se d   Hig h - a c c u r a te  Rec o g n it i o n   Ap p ro a c h   f o Ha n d writ ten   Nu me ra ls  b y   Us in g   Diff e re n c e   Fea tu re s."   ICDAR  2 0 0 7 ,   Nin t h   In tern a t io n a Co n f e re n c e   o n   Do c u m e n t   A n a l y si s an d   Re c o g n it i o n .   5 8 9 - 5 9 3   [6 ]   Ka m a lj it ,   Ka u r,   a n d   Ka u Ba lp re e t.   " Ch a ra c ter   Re c o g n it io n   o f   Hi g h   S e c u rit y   Nu m b e P late Us in g   M o rp h o lo g ica l   Op e ra to r. "   In ter n a ti o n a l   J o u r n a l   o Co m p u ter   S c ien c e   &   En g in e e ri n g   T e c h n o lo g y   ( IJ CS ET )   4 ,   n o .   5   (M a y   2 0 1 3 )   [7 ]   Ku n d u ,   A . ,   M c L e a n   M IT RE  Co rp . ,   T .   Hin e s,  J.  P h il li p s,  a n d   B. D .   Hu y c k .   " Ara b ic  Ha n d writ in g   Re c o g n i ti o n   Us in g   Va ria b le  Du ra ti o n   HM M . "   ICDAR  2 0 0 7 .   Nin t h   In tern a ti o n a Co n f e re n c e   o n .   Do c u m e n A n a l y sis  a n d   Re c o g n it io n ,   2 0 0 7   [8 ]   L in ,   S h a n g - Hu n g .   " A n   In tro d u c ti o n   to   F a c e   Re c o g n it io n   T e c h n o lo g y . "   In fo rm in g   S c ien c e   sp e c ia issu e   o n   M u lt ime d ia   I n f o rm in g   T e c h n o l o g i e s   V o l .   3 ,   n o .   1   ( 2 0 0 0 )   [9 ]   M o h a m m e d ,   A li   Q.  " Te m p late   M a tch in g   M e th o d   f o Re c o g n it io n   M u sn a d   Ch a ra c ters   b a se d   o n   Co rre lati o n   A n a l y si s."   [1 0 ]   Na d e e m ,   Da n ish ,   a n d   S a leh a   Riz v i.   " Ch a ra c ter Rec o g n it io n   Us in g   T e m p late   M a tch in g . "   M . sc   P r o jec t   [1 1 ]   Na w a z ,   T a b a ss a m ,   S y e d   Am m a r   Ha ss a n ,   S h a h   Na q v i,   Ha b ib   u Re h m a n ,   a n d   A n o sh ia  F a iz.  " Op ti c a Ch a ra c ter   Re c o g n i ti o n   S y ste m   f o Urd u   (Na sk h   F o n t Us in g   P a tt e rn   M a tch i n g   T e c h n iq u e . "   [1 2 ]   P ra tap ,   R. L . ,   L .   S a t y a p ra sa d ,   a n d   A .   S a str y .   " M id d le  Z o n e   Co m p o n e n Extra c ti o n   a n d   Rec o g n it i o n   o T e lu g u . "   ICDAR  2 0 0 7 ,   Nin th   I n tern a ti o n a Co n f e re n c e   o n   Do c u m e n Im a g e   Do c u m e n A n a l y sis a n d   Re c o g n it io n   [1 3 ]   Qin g ,   Ch e n ,   a n d   P e tri u M   Em i.   " Op ti c a Ch a ra c ter Rec o g n it io n   f o M o d e l - b a se d   Ob jec Re c o g n it io n   A p p li c a ti o n s."   [1 4 ]   R. M . S i n h a ,   e t. a l.   " Hy b rid Co n tex tu a T e x Re c o g n it io n   w it h   S tri n g   m a tch in g . "   Pa tt e rn   An a lys i a n d   M a c h i n e   In telli g e n c e   ( PA M I).   1 9 9 7 .   9 1 5 - 9 2 5   [1 5 ]   S a q ib ,   Ra sh e e d ,   Na e e m   As a d ,   a n d   Ish a q   Om e r .   " Au to ma ted   Nu mb e Pl a te  Rec o g n it i o n   Us in g   Ho u g h   L in e a n d   T e mp la te M a tch in g . "   P ro c e e d i n g s o f   W o rld   Co n g re ss   En g in e e rin g   a n d   Co m p u ter S c ie n c e   W CECS .   2 0 1 2   [1 6 ]   S u n ,   Ju n ,   Ka izh u   Hu a n g ,   Y.  Ho tt a ,   a n d   K.  F u j im o to .   " De g r a d e d   C h a ra c ter   Rec o g n it i o n   b y   Co mp lem e n ta ry   Cla ss if ier Co mb i n a t io n . "   ICDA 2 0 0 7 .   Nin th   I n tern a ti o n a C o n f e re n c e   o n   .   D o c u m e n A n a l y sis  a n d   Re c o g n it io n ,   2 0 0 7   [1 7 ]   Ullm a n n ,   J.R.   Ap p li c a t io n   o f   Pa tt e rn   Rec o g n it io n .   CRC  P re ss ,   In c . ,   1 9 8 7   [1 8 ]   Yin ,   X u - Ch e n g ,   Ju n   S u n ,   S .   Na o i ,   a n d   K.  F u ji m o to .   " A   M u lt i - S tag e   S trate g y   to   P e rsp e c ti v e   Re c ti f ic a ti o n   f o M o b il e   P h o n e   Ca m e ra - B a se d   Do c u m e n Im a g e s."   2 0 0 7     B I B L I O G R AP H O F   AUT H O RS   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   20 1 4   :   1 2 1     1 2 8   128       O.O  Ola k a n m i   re c e iv e d   th e   B. T e c h   in   Co m p u ter  E n g in e e rin g   f ro m   L a d o k e   A k in to la   Un iv e rsity   o f   T e c h n o lo g y ,   Og b o m o sh o   2 0 0 0 ,   M . sc   in   Co m p u ter  S c ien c e   a n d   P h . D.  in   El e c tri c a a n d   El e c tro n ic  E n g in e e rin g   f ro m   U n iv e rsity   o f   Ib a d a n .   He   is  a   lec tu re in   t h e   De p a rtm e n o El e c tri c a &   El e c tro n ic  En g in e e rin g ,   Un iv e rsit y   o f   Ib a d a n   a n d   m a jo in   D a ta  Co m m u n ica ti o n ,   P a ra ll e &   Distri b u te d   Co m p u ti n g .               Evaluation Warning : The document was created with Spire.PDF for Python.