TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol. 13, No. 1, Janua ry 201 5, pp. 166 ~  173   DOI: 10.115 9 1 /telkomni ka. v 13i1.678 2          166     Re cei v ed Au gust 2, 201 4; Re vised Sept em ber  18, 20 14; Accepted  Octob e r 16, 2 014   Yoruba Language and Numerals’ Offline Interpreter  Using Morphological and Template Matching       Olakanmi O. Olada y   Electrical and Electron ic  Engi neer ing,   T e chnology  Dr ive, Office 6, N e w   Fac u lt y  of Engi neer ing Building.  Univers i t y   of Ibada n, Ibada n Niger ia   email: o l aka n m i .ola da yo @ui. e du.ng       A b st r a ct   Yorub a  as a l ang ua ge has  passe d throu g h  gen erati on r e formatio n s makin g  so me of  the old   docu m ents in t he arch ive to b e  unre a d abl e by the pres ent  readers. Ap art from this, so me Yorub a  w r iters  usua lly  mixe d Engl ish nu mer a ls w h ile w r itin g due to  br evit y and conc ise n e ss of Englis nu mer a ls co mpare   to Yorub a  n u m er als w h ic are co mbin atio n of sev e ra l c haracters. R e -typin g suc h  his t orical  docu m e n t s   may  be ti me c onsu m ing, ther efore a n eed f o r an effici e n t Optical Ch arac ter Read er (OCR) w h ich w ill  not   only  effectivel y recogn i z e  Y o rub a   texts bu t also conv erts all the En glis h nu mer a ls in  the docu m ent  to   Yoruba num er als.Sever a l Optical  Char acter  Reader  (O CR) system s  had been  dev eloped to recogni z e   characters  or  texts of s o me  la ngu ag es suc h   as En g lis h,  Ara b ic,  Ja pa nese,  Chin ese, an d Korea n h o w e ver ,   desp i te the  sig n ifica n t contri b u tion  of Yor u b a  la ng uag e to  historic al d o cu me ntatio n a nd  communic a tio n ,  it   was observ e d that there is  no  partic u lar   OCR system   f o r the language. In this  paper corr elation  and  temp late  matc hin g  tech niq u e s  w e re use d  to  deve l op  an  OC R for the r e co g n itio n of Y o rub a  bas ed t e xts a n d   convert En glis h nu merals  in  the doc u m e n t to Yorub a   n u m erals. Exp e ri mental r e sults s how  the rel a tiv e l y   hig h  accuracy  of the deve l op ed OCR w hen i t  w a test ed on  all si z e  Yor u b a  alp h a bets an d nu mer a ls.      Ke y w ords : OCR, Yoruba, pattern  recog n iti on, imag e,  template  m a tching         Copy right  ©  2015 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion  Yorub a  is the mo st d o c ume n ted  West Af ri can l angu age. Yo ruba  is sp o k en  by  18,850,0 00 p eople i n   Nige ria. Th e total  popul ation  o f  native sp ea kers i n  all  co untrie s  i s  ab out  20,000,0 00.  The n u mbe r  rise s to 22,0 0 0 ,000 if we  al so in clu de  se con d -la ngu ag e sp ea kers. T he  langu age ha s nume r o u s dialect s  sp oke n  in different area s o f  Nigeria. Wi thin Nige ria  the  langu age i s   spoken in th area s of  Oyo, Ogun,  Ondo   Osu n , Kwa r a,  Lago s a nd t he weste r p a r t   of Kogi State .  It is al so  sp oke n  in  Beni n,  Tog o , an d  by immig r a n t s in  the  Unit ed King dom   and   the USA. Yoruba i s  o ne of  the 12  Ede k iri lan guag es of the Yo rub o id g r ou p tha t  also i n cl ude Igala. The Y o rub o id g r ou p belon gs to  t he Defoid l angu age s of  the Benue -Congo g r o up  and  ultimately to the Volta-Co ngo, and Atl antic-Co ngo  grou ps of the  Niger-Con go  Family of 1419   langu age s m o stly spo k e n  in Central and  South Africa  [6].  Image re cog n ition is the process of ide n tify ing and detecting an o b ject or a fea t ure in a   digital image  or video. This con c ept is used in  m any applications li ke syst ems for fa ctory   automation, toll  booth monitori ng, and se cu rity  su rveillan c e .  Typical im age  re cog n ition   algorith m s in clud e:  1) Optical  cha r a c ter  recogniti on   2)  Pattern and g r adie n t match i ng   3)  Face  re cog n it ion   4)  Lice nse plate  matching   5) Scene  cha n g e   detectio n   It has be co me a tren d to docume n t most  of the  document s i n  the archiv es u s ing  scann er, ho wever, these d o cum ents  ca nnot be e d it e d  or read the r eafter  by co mputer  syste m s.  Due to  the fa ct that sca n n e scan s do cuments  a s  a n  imag e not  as  encode set of ch aract e rs.   Optical  Ch aracter Read er (O CR)  syste m  doe s el ect r oni c tra n sl ati on of h and written or p r inte d   text into machine e n code d text. OCR is  widely  used to  conve r t boo ks and   document s i n to  electroni c file s a nd to  com puteri z re cord  ke epin g   system in  an  o ffice. OCR m a ke s it  po ssi b l e   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Yorub a  Lan g uage a nd Nu m e rals  Offline Interpreter  Usi ng… (Ola kanm i O. Ola dayo)  167 to edit such  document,  se arch fo r a  wo rd o r  p h ra se,  store it mo re  com p a c tly, display o r  p r int  a  copy an d app ly techniqu es  su ch a s  machine tr an slati on, text-to-sp eech and text mining to it.  Optical Cha r acter Re co gn ition  study  was star ted by  Tyurin a Ru ssi an scie ntist [1]. The   first mo de rn  chara c te r reco gnizers a ppe ared  in  th e mi ddle  of the  19 40s with  the  developm ent  of  the digital  co mputer. T h e  early  wo rk  on the  aut o m atic  re cogn ition of characters  ha s b e e n   con c e n trated   either  up on well printe t e xt  or  u pon  small set of well disting u i s he h and wri tten   text or symb o l s, althou gh,  su cc essful  bu t had b een  im plemente d  m o stly for  Latin  ch ara c te rs  a n d   nume r al s.  Beside s some studies on Ja pane se, Ch in ese,  Heb r e w , Indian a nd  Arabi c chara des  and num eral s in both pri n ted and ha ndwritten ca se s we re al so con s ide r e d  by some O C system s. Th e develo p me nts in O C until 198 0s  suffered from  lack of adva n ce d alg o rith m,  powerful com puting  h a rd ware and optical  devices.  With the out ward explo s ion  o n  the  comp uting   techn o logy d e velopme n t, the previou s ly prop osed m e thodol ogie s   found a fe rtile  environm ent  for   rapid  g r o w th i n  ma ny ap pli c ation  a r ea s.  Pres ently, re newed vig ours a r e  bei ng  p u t in the  o p tical  cha r a c ter  re cog n ition research. O ne  of these   is  recognitio n   of printe d a nd ha nd written   document s.  More  sophi st icated  alg o rit h ms wh ich u t ilize a d van c ed m e thod ologie s  a r e  be ing  develop ed.   In this work two method o l ogie s  are comb ine d  to achi eve an efficient Yoru ba OCR  system  whi c h  will be able  to recogni ze  off- line typed  and han dwri tten Yoruba  document s a n d   conve r t Engli s nume r al s t o  Yoruba  nu meral s . T he  remainin g p a rt  of this p ape r is  arran ged   as  follows: se cti on 2 i s  th e review of  rela ted wo rks on  OCR  syste m s a nd m e thodol ogie s The   desi gn meth o dology an d worki ng p r in cip l e of the  syst em are  expla i ned in sectio n 3. Section  4   contai ns the t e st re sult s an d con c lu sio n     2. Related Works  Referen c e [8 ] described   a complete   system  for t he  recognitio n  of u n con s trained   hand written   Arabi c words usin g ove r -segmentatio of cha r a c ters and va riabl e  duration hi d den   Markov mod e l  (VDHMM). I n  this, a  seg m entation  al g o rithm  wa s u s ed to tran sla t e the 2-D im age   into  1-D se q uen ce  of su b - ch aracte r symbols.  Thi s  seq uen ce of symbol s wa model ed by  the   VDHMM.  Th e shap e inf o rmatio n of  cha r a c te r an d sub-ch ara c ter sym bol wa comp actly  rep r e s ente d   by forty-five feature s  i n  th e feat ure spa c e. Th e featu r e ve ctor  wa s model ed a s   an   indep ende ntly  distrib u ted multivariate discrete   di stri bution. And  the vari able  d u ration  state  i s   use d  to resol v e the segme n tation ambi g u ity among the con s e c utive  characte rs.  Different  met hodol ogie s  o n  ho w th e q uality of the  captu r ed  ca mera  imag coul d b e   improve d  ha d been th oro ughly co nsi d ered  by vario u s resea r che s . For  examp l e, referen c [2   analyzed the  quality of such  ca pture d  image fo r o p tical  cha r a c ter recognitio n . In their  work  different m e a n of imp r ovi ng tran scripti on a nd  re co g n ition  wa s p r opo sed. Al so , referen c e  [1 8 ]   prop osed a new  pe rspe ctive  re ct ificati on  system  b a se d o n  van i shin g p o int  detectio n . Th eir  system a c hi e v ed both the  desi r ed  effici ency an d a c cura cy usi ng  a multi-sta g e  strategy: at the   first stage, do cume nt  bo un darie s and   st raight  lin es  are u s ed  to  co mpute vani sh ing p o ints;  at  the  second stage, text baselines a nd block aligns  are utilized; and at  the last stage, character t i l t   orientatio ns  are vote d fo r the ve rtical  vanish i ng  p o int. A profit  functio n  wa s introdu ce d  to   evaluate the  reliability of  detecte d vani shing point at each stag e. If vanishing point s at one   stage  are rel i able, then  rectificatio n i s  end ed at  th at stag e. Ot herwise, mult i-stag strate gy  method conti nue s to obtai n more  reliabl vanishi ng p o ints in the n e xt stage.  Re sea r ch h a s   sho w n th at Cha r a c ter d egra dation  af fects m a chin e pri n ted  ch ara c ter  recognitio n . Two mai n  re aso n s fo r de grad ati on  we re extrin sic i m age d egra dation such  as  blurring an d  low image  dimen s ion, a nd intrin si degradatio n cau s e d  by font variation s recognitio n  method that co mbine s  two complem entary classifie r s is pro p o s ed in  referen c e [1 7].  The lo cal fe ature  ba sed  cla ssifie r  extra c t s  the lo cal co ntour dire ctio ch ang es, which  i s   effe ctive  f o cha r a c t e r  pat t e r n s  wit h  le ss   st ru ct ure  det e r io ra tion. The  glo bal featu r e  b a se cla ssifi er  extract s  the texture di strib u tion of the chara c te r ima ge, whi c h i s  effective whe n  the ch ara c t e stru cture i s  h a rd  to di scrim i nate. Th e two comp le men t ary cl assifiers a r e  combin ed by  ca ndid a t e   fusion  in  coa r se-to - fine  style. Expe riment s a r e   carrie d o n  d egra ded  Chi nese  cha r a c ter  recognitio n .   Referen c e [1 3] wo rked o n  Ch aracte recognitio n  system Telu g u ; one of th e an cient   langu age s of South India. It has a co mpl e x orthog ra p h y with a larg e numbe r of distin ct cha r a c ter  sha p e s  com p ose d  of simpl e  and com p o und ch aracte rs . In this wo rk, structu r al  feature s  of the   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 13, No. 1, Janua ry 2015 :  166 –  173   168 syllable a nd  the com pon e n t model were com b ined t o  extract mid d le zo ne co mpone nts. T h e   sha pe of the   middle  zon e   comp one nts i s  cl osely rel a ted to a  circl e  wh ere a s ot her  com pon e n ts   are foun d wit h  different top o logi cal featu r es.   A simple a nd effective  template matchin g  m e thod for id entification o f  Musna d   cha r a c ters  was introdu ce d  in refe ren c e  [10[. T he ch ara c ters  were extracte d from input im a g e   and no rmali z ed. Duri ng re cog n ition, the  extracted ch ara c ter  wa s compa r ed to e a ch templ a te in   the databa se  to find the close s t re pre s e n tation of  the input cha r a c t e r. The mat c hing metri c  was  comp uted u s i ng 2 - co rrel ation coeffici ents a p p r oa ch to identify  simila r patterns b e twe en t h e   test image an d the databa se image s.  In refere nce  [5], a novel approa ch to  effici ently re cogni ze ha nd written n u me rals  wa s   prop osed. Th is ap pro a ch  exploits a two-sta ge  fram ewo r by usi ng differe nce  feature s . In the  first  stage,  a  reg u la r SV M is train ed  on all  t he  tra i ning data;  in   the se con d  stage, only  t h e   sampl e s mi scl assified i n  the first  stage a r e  spe c ially con s id ere d . The num be r of  miscl assifications i s  often  small because of  the good performance of  SVM. This will present  difficulties in  training  an a c curate SVM  engine  only for these miscla ssifie d  sa mples.  We th en   further propo se  a multi-way to bina ry  app roa c h us in g d i ffe r enc e  fea t u r es . T h is a p p r oa c h   su ccessfully transfo rm s m u lti-ca te go ry cla ssifi cation  to binary classificatio n  and expand the  training sam p les  greatly.    2.1. O v er v i e w   o f  Yo ruba  Orhogr aph y   In its written f o rm, Yoruba  use s  the  Ro man alp hab et. It has 25 letters  as  sh own  in fig. 2.  The letter 'p ' is always p r o noun ce d as ' k ' an d 'p'  co mbined. Yo ru ba orth ograp hy does n o t use   the letters  c,  q, v, x, z. Yoruba  ha s thre e ba si ton e s, high, mid,  a nd lo w,  whi c h  are  indi cate d  in   the ortho g ra p h y. The high  is marke d  wit h  an a c ut e a c cent (e.g. á ) , the low with  a grave a ccent  (à), a nd the   mid tone  usu a lly left unma r ke d. Th e s marks  are u s ually pla c ed  on the vo wel s . In   some  circum stan ce s the mid tone is i ndicated  with  a 'macron'.  The lang uag e has b een  written   sin c e th e ea rly 19 th   cent ury, althou gh  there  have  bee ma ny ch ang es i n  aspe cts  of  its  orthog ra phi c rep r e s entatio n. In the 196 0s, the t hen  Ministry of E ducati on with in the We ste r n   Regi on of Nig e ria, whi c was where mo st of t he Yoru ba sp ea king  comm unity is located, form ed   two committe es to  co nsi d er a  stan da rd orth ogr aph y for the la n guag e. The  more i n fluent ial of  these  two, t he Yo rub a   Orthog ra phy  Committee  was  set  up in  196 6. The  report  whi c h   this  se con d  ortho g rap h y com m ittee submi tted in 1966  becam e the basis for th e cre a tion a nd  introdu ction i n to school s o f  the standa rd  Yoruba o r tho g rap h y [6].      Table 1. Engli s h num erals  and their e qui valent Yorub a  nume r al English   1 2   Y o ruba   Eni Eji   Eta  Erin  Arun   English   6 7  10  Y o r uba   Efa Eje  Ejo  Esan  Ew a   O d o     Table 2. Yoru ba upp er an d  lower al pha b e ts        2.2. Yoruba OCR Sy stem Methodolo g OCR a s  e a rl ier  stated i s   the scien c e t hat ent ail s  th e de scription  or  cla ssifi ca tion of  cha r a c ter m e asu r em ents t hat usu a lly base d  on so m e  model s. O CR i s  one of  the categ o rie s  of  image  re cog n i tion. There i s  variou cha r acter re co gnit i on meth od use d  in d e vel oping  ch ara c t e r   recogni ze r. These meth ods a r e: ne ural net wo rk,  moment ba sed a pproa ch, contou r b a se approa ch, template match i ng and mo rp hologi cal a p p r oa ch. In this work templat e  matchin g  a nd  morp holo g ica l  techniqu es  are u s ed to reco gni ze  Yoruba texts.Te mplate match i ng refers to the  pro c e ss of d e tecting a n  object having  a certai n si ze, shap e an d orientatio n  in an image  b y   applying a n  operator  con t aining po siti ve weight s i n  a regi on resem b ling th e obje c ts to  be  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Yorub a  Lan g uage a nd Nu m e rals  Offline Interpreter  Usi ng… (Ola kanm i O. Ola dayo)  169 detecte d and  containi ng  negative wei ghts in a  re gi on surrou n d ing the p o sitive weight [15].    Morp holo g y as de rived from biology i s  a bran ch  of biology which d eal s with the form and  animal s  a nd  plants. It i s  a dopted  in thi s  co ntext as  a  tool for extra c ting im age  compon ents th at  are u s eful in  the represe n tation and  descri p ti on o f  the region  shap e. The r e are seve ral  pro c ed ural st eps  eng age d in a c hievi ng mo rph o lo gical te ch niq ues. T hese  inclu de filteri ng,  thinning, prun ing, ero s ion a nd dilation, o penin g  and  cl osin g.      3.  Yoruba OCR Impleme n ta tion usin g Templa te  Matchin g  an d Morpholog ical Techniq u e   Template m a tchin g  and  morph o logi cal techniq u e s a s  state d  earlie r, a r e O C recognitio n  techni que s. Th ese al gorith m s involve f eature s  extra c tio n  and cl assifi er. In template   matchin g  ima ge pixel s  a r e  use d  a s  the  feature s  b e in g extra c ted from both th e i nput cha r a c ter  and th cla s sified characte rs.   The  cl assifier comp ar e s  the  inp u t ch ara c ter features  with  set  of  c h arac ter template in the  c h arac te cla ss.  I n  t h i s  co nt ex t  t he ch a r acter  cla s s contain s  num e r als,   uppe r and lo wer  ca se s of Yorub a  cha r a c ters as  sho w n in Figu re 1 and Figu re 2. The absol ute   value of the classifier procedur e whi c h i s  the co rrel a tion coeffici ent  between the  input cha r a c t e and the  co nsi dere d   cha r a c ter templ a te is use d  to mo rpholo g ically  d e termin e the  template  with  a  clo s e s t correl ation match.    Formally,     , , ,             ( 1 )                ( 2 )     Whe r e:                                              The tran sfo r mation functi on   on charact e   is :       :                      In the  cha r a c ter  cla s s som e  of the  cha r acters we re   written  in diff erent  way s  in  ord e r to   accomm odat e differe nt wa ys of  writing.   The p r o p o s e d  Yoruba  O C system,  as sh own in  fig u re   3, is g r oup ed  into three  pro c e ssi ng level s  whic h are l o w level  pro c essing, inte rmediate level  and  high level  proce s sing. T h ese  are impl emented   u s i ng 64 -bit M a tlab version  7.8.0.387 a n d  the  input texts are built with pa int brush and  text.    3.1. Lo w   L e v e l Processin g   As  sho w n  in  the Fi gure  3, low level  pro c e ssi ng i n volves ima g e  acqui sition  and  pre - pro c e ssi ng of  the acqui red  images. Ima ge acq u isitio n stage a c qui res ima ge of the docu m ent  or  cha r a c ters to  be  re co gni zed. Mo st tim e  inp u t cha r acter ima ge  is of  finite resol u tion  whi c h   ultimately affects the qu ali t y of its transf o rmat io n, therefore, pre - proce s sing be comes n e cessary.  The pre-pro c essing  stage  includ es  col our n o rm aliz ation, scaling  filtering and  thinning. Co lou r   norm a lization  is u s ed to  chang e inp u t cha r a c ter fo regro und  col o ur to bl ack a nd ba ckgrou nd  colo ur to  whit e. To a c hiev e this, hi stog ram techniqu e  wa s u s ed. T he inp u t ch aracter was  used  to form histog ram of sin g le  cla ss  whi c wa s gro upe d into intervals.  Over ea ch of  these interva l a vertical re ctangle is dra w n with its a r ea propo rt io nal to the number of point  falling into that  interval.  Th e luminan ce   of the  ima ge wa d e termi ned   usi ng equ ation  3.   Figu re  2a sho w in p u image  befo r e  no rmali z atio n while fig u re 2b  an d 2c depi ct  the   in put  ima ge after normalizat ion   and filtering  resp ectively.           ( 3 )   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 13, No. 1, Janua ry 2015 :  166 –  173   170 Normaliz ation algorithm:   1)  Select the rel e vant part of the ch ara c te r.  2)  Determine th e threshold fo r the colo ur n o rmali z atio n   3)  Process the i m age from to p corne r   line by line  4)  Store the R,G , B value of each pixel   5) Determine    using e quatio n  1  6) If   < thre sh old  value then turn the  pixel black otherwi se  white.  7)  Rep eat for the whol e input  image   The im age   scalin scale s  the i nput  ch ara c ter ima g e  up  o r   down de pen ding  on  the  origin al si ze. This was d o ne to redu ce  the reco gniti on time and error rate as large character  image s woul d take lo nge r time to process whil sm all image ma y be difficult to re cog n ize. After  scaling the  chara c te r be comes bl ocky and he nce  the smooth enin g  filtering sta ge rem o ves t he  spi k e edg es. This  sta ge al so co ntain s  smootheni ng  fi lter, lo w p a ss filter. The s e   filters  are  u s e d   to re du ce  blurring  and  n o ise. Also, i m ple m ented   in  the lo w le ve l p r oc es s i n g  is  the th in n i ng   w h ich   conve r ts a n y elong ated pa rts or  strip s  in  the image  re g a rdle ss of the i r bits into n a rrow  stri ps tha t   are only ab ou t one pixel wi de.    3.2. Interme d iate Lev e l Proces sing   Intermedi ate Level  Processing   (ILP ) in  the i n  figu re 3  involves imag rotati on a n d   segm entation .  Sometimes i nput ch aracte r image  m a y not be prope rly aligned in  angul ar fa shi on  with re spe c t to the cha r a c t e r template  set. An instan ce of this will  be co rre cted  by realign th e   image O C R. Segmentatio n whi c h form s the core  of IL pro c e ssin g  stage  parti tions the in p u image into its con s tituent chara c te rs. Sh own b e lo w is  the algorith m  use d  for se g m entation:   Segmenta tio n  algorithm:   1)  Scan the ima ge from rig h t to left row wi se  2)  Add  and co u n t all the x coordin a tes     3)  Determine th e x-co ordinat e of the cent roid u s in  ∑ /  where  n is th e  total  numbe r of the centroid.   4)  Determine th e y-coo r din a te of the centroid u s ing   ∑ /  where n is the  total  numbe r of the centroid.     3.3.   Repre s e n ta tion and  Des c ription   Rep r e s entati on m aps the  scan ned  ch ara c ter imag e to fo rm  su itable for  su bse que nt  comp uter p r o c e ssi ng while  descri p tion is a feature  sel e ction whi c h deal with  ext r actin g  features  in so me q u a n titative man ner  or  differe ntiating on cla ss  of obj e c ts from a n o t her. Thi s   was   achi eved u s in g internal  cha r acte ri stics, t hat is, the pixels comp romi sing the regio n   3.4.   Kno w l e d g e Bas e   The  kno w le d ge b a se con t ains th e n u m bers, p u n c tuation, u ppe r and  lower case of  Yorub a  alph abets a s   sh own in Fi gu re 1 and 2.  It is basi c all y  a databa se of typed and  hand written   English  alph a bets, nu mbe r s, and  pu nct uation s . Individual  cha r a c t e r ima g e s  in  the   kno w le dge  b a se  are u s ed  to gen erate  the correlat io n  values for th e input  ch ara c ter im age  a nd  output ch ara c ter text.      Figure 1. Sch e matic of the  off-line Yoru b a  Optical  Cha r acte r Read er  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Yorub a  Lan g uage a nd Nu m e rals  Offline Interpreter  Usi ng… (Ola kanm i O. Ola dayo)  171       Figure 2(a ) . Input image  chara c te r befo r norm a lization   Figure 2(b ) . Input image te xt after  norm a lization         Figure 2(c). Input image te xt after filtered            Figure 3(a ) . OCR han dwri tten Yoruba  chara c te r kn o w led ge ba se       Figure 3(b ) . OCR typed Yorub a  ch aract e r kn owl edg e  base         Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 13, No. 1, Janua ry 2015 :  166 –  173   172       Figure 4(a ) . OCR input of a scann ed im age  text documen Figure 4(b ) . OCR output o f  the scan ned  image  text documen t in 4a        Figure 5(a ) . OCR input of a scann ed im age  text documen Figure 5(b ) . OCR output o f  the scan ned  image  text documen t in 5a            Figure 6(a ) . OCR input of a scann ed  hand written i m age text docume n Figure 6(b ) . OCR output o f  a scan ned  hand written i m age text docume n     4. Test and  Discus s ion   The OCR sy stem wa s subje c ted to different  set  of input text images in  orde r to   determi ne its re cog n ition  efficien cy. Th e test   wa carri ed o u t on  both typed  and h and written  input texts. T he inp u t ima ges  as shown in Fig u re  4 ( a), 5 ( a )  a nd  6(a )  a r e diffe rent  set of in put  texts created   usin g the  pai nt bru s h  a s  p en an d p a int t e xt whi c rep r esent h and written an d typ e d   Yorub a  texts respe c tively.  The output s of the O CR system for the input text image are  sho w n  in  Figure 4 ( b), 5 ( b)  and  6(b). T he te st re sul t s we re  quite  impre s sive. It wa s o b se rve d  from th e O C output in Fig u re 4 ( b) that  characte rs  I and O  we re  the only chara c ters not  recogni ze d. This  sho w s a n  a c curacy  of 86 % for the  typed text with   executio n tim e  of 1 12  cha r /se c   re cog n ition   rate.  Al so, fo r inp u t text in  Figu re  5(b )  it  wa ob serve d  from  the  O C R outp u t in  Figure 5 ( b )  th at  all the E nglish num be rs were  co rrectly  recogni ze d a nd  conve r ted  to the  Yoru b a  nu merals.  Thi s   s h ow ed  acc u r a c y  o f  10 0% fo r  the  nume r a l s   re co g n ition a n d  conversion.  T he O C system  output in Fig u re 6 ( b)  whi c h rep r e s ent s OCR output  for the han dwritten input text in Figure 6(a),   also  re co rd ed  an  accu ra cy  of 100%. It  was  ob se rve d  t hat the  devel oped   Yoruba  OCR system’ s   perfo rman ce   unit is i ndep e ndent a nd  co nstant fo r ha ndwritten a n d  typed text image s of different  sizes. Also, t he re sult sh o w ed that the  devel oped  OCR syste m  more effecti v ely recog n ized   nume r al s tha n  alpha bets.   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Yorub a  Lan g uage a nd Nu m e rals  Offline Interpreter  Usi ng… (Ola kanm i O. Ola dayo)  173 Referen ces   [1]  Isaac, Adejo j O.  T he Search for a Yoruba  Orthogra p h y  s i nce the 1 840s  Obstacles to the Ch oice  of   the Arabic.  Sudanic Africa . 2003; 77- 10 2.   [2]  A Jain, Karu K. Page Se gmen tation Usi ng T e xt ure A nal ys is, Pattern Reco g n itio n. 200 6; 743-7 70.   [3]  Kund u A, MITRE Cor p , McL ean,  Hin es T ,  Phill ips   J, Hu yck BD. Ara b ic  Han d w r iti ng  R e cog n itio Usi n g   Variable Duration  HMM.  IC DAR. Ninth I n ternati o n a l C onfere n ce  on .  Docume nt A nal ysis  an d   Reco gniti on. 2 007.   [4]  Dueir e  L i ns,  R, Pereir a Sil v a, G, Gomes e Silv a AR.  Assessin g  an d  Improvin g th e Qual it y   of  Docum ent Images Acqu ire d  w i t h  Portab le D i gital  Camer a s.  ICDAR. Ninth  Internatio na l C onfere n ce o n .   Docum ent Ana l y s is an d Reco gniti on. 20 07; 2: 569-5 73.   [5]  Yin,  Xu- C h eng , Sun, J un,  Na oi, S, F u j i moto  K. A  M u lti-Stage Strat e gy  t o   Pe rspectiv e  R e ctificatio n f o r   Mobil e  Pho ne  Camera-B ase d  Docume nt Images. 200 7.   [6]  Sun, Jun, Hua ng, Kaizh u , Ho tta Y,  F u jimoto  K.  Degrade d Char acter Rec ogn ition b y  C o mpleme ntar Classifi ers Co mbin ation.  IC DAR. Ninth I n ternati o n a l C onfere n ce o n .  Docume nt Anal ysis  an d   Reco gniti on. 2 007.   [7]  Pratap RL, Sat y a p ras ad L, Sastr y  A. Middl e  Z one Comp on ent Extracti on  and R e cog n iti o n of  T e lugu.   ICDAR Ninth I n ternati o n a l C onfere n ce o n  Docu ment Ima ge Doc u ment  Analys is and  Reco gniti on 200 7,   [8]  Mohamm ed, Ali Q.  T e mplate Matching  Method  for R e cog n itio n Mu snad C haract e rs base d  o n   Correlation Analy s is.  ACIT.   2011.   [9]  Hua ng, Ka izhu , Sun, Jun, H o tta, Y, F u jimoto   K. An SVM-Based  Hig h-acc u rate R e co gniti on Ap pro a c h   for Han d w r itte n Num e rals  b y  Usin g D i ffere nce F e atures.  ICDAR, Ni nth  Internat io na l C onfere n ce  o n   Docu ment Ana l ysis an d Reco gniti on . 20 07;   589- 593.   [10]  RMK Sinh a, e t.al. H y br idC o nte x tual T e xt  Reco gniti on  w i th String matc hin g Pattern Analys is  an Machi ne Intell i genc e (PAMI).  199 7;  915- 925.   [11] F u kuna ga  K.  Introductio n  to Statistical Patter n  Reco gniti on . 199 0.   [12]  Hua ng, Gar y Lear ned-M ill er, Erik, McCa llu m, A ndre w .  C r y t ogr am D e co din g  for Optic a l C har act e r   Reco gniti on.   [13]  Kamalj it, Kaur , Balpre et, Kaur. Ch aracter  Re co gniti on  of Hig h Sec u rit y  N u mb er  Plates Us in g   Morph o lo gica l  Operator.  Int e rnati ona l J o u r nal  of C o mp uter  Sci ence   & Eng i ne eri n g  T e chn o lo gy.   IJCSET.  2013; 4(5).   [14]  Lin, Sh an g-Hu ng. An Intro d u c tion to F a c e   Reco gniti on T e chn o lo g y Informing  Scie nc e spec ial  issu e   on Multi m edi a Informin g  T e ch nol ogi es . 200 0; 3(1).   [15]  Nad eem, Dan i sh, Rizvi, Sale ha.  Char acter Reco gniti on Us ing T e mp late  Matchin g .   [16]  Na w a z, T abas sam, Hassa n, S y e d  Ammar,  Naqv i, S h a h , Rehm an, Ha bi bur, F a iz, An o s hia. Optica l   Char acter Rec ogn ition S y ste m  for Urdu (Na skh F ont) Usin g Pattern Matchin g  T e chniqu e.   [17]  Qing, Chen,  Emi, Petriul M.  Optical  Ch ar acter R e co gnit i on  for M ode l- base d  Ob ject  Reco gniti on   Appl icatio ns.   [18]  Saqi b, Rash ee d, Asad, Na e e m , Omer,  Ishaq. Automated  Numb er Plate  Reco gniti on U s ing H o u g h   Lin e s an d T e mplate Match i ng.  Procee di n g s of W o rld C ongr ess E ngi n eeri ng an d Co mp uter Scie nc WCECS.  2012.   [19] Ullma nn  JR.  A pplic atio n of Pattern Reco gn ition . CRC Pr es s, Inc., 1987.             Evaluation Warning : The document was created with Spire.PDF for Python.