Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   9 , No .   5 Octo ber   201 9 , pp.  4311 ~4 320   IS S N: 20 88 - 8708 DOI: 10 .11 591/ ijece . v9 i 5 . pp4311 - 43 20          4311       Journ al h om e page http: // ia es core .c om/ journa ls /i ndex. ph p/IJECE   The  imp act of th e imag e proce ssi ng in the  ind exation s yste       Youssef  El fak ir , G hiz lane K ha issi di,  M os t afa Mr ab ti ,  Dri ss C he nouni   La bora tor y   of   C om puti ng  and  In te rdisc ipl in ar y   P h y sics ,   ENS,   Sid Moham ed  B en Abdell ah   Univer sit y ,   Morroco       Art ic le  In f o     ABSTR A CT    Art ic le  history:   Re cei ved   Des 24 , 201 8   Re vised  A pr   15 , 2 01 9   Accepte d Apr   2 8 , 201 9       Thi pape r   pre se nts  an  eff ic i ent   word  spotti ng  s y stem  appl ie d   to  handwri tte n   Arabi docume nts,  where   imag es  are   rep r ese nt ed  with  bag - of - visual - SIF desc ript ors  and  slidi ng  window  appr oac is  used  to  loc at th e   reg ions  tha t   are   m ost  sim il ar  to  the   quer y   b y   foll owing  th quer y - by - exa m p le   par agon .   First,  a   pre - pro c essing  step  is  used  to   pr oduc a   bet t er  rep rese nt a ti on  of   the  m ost  informati ve  feature s.   Seco ndl y ,   a   reg ion - b ase fra m ework   is  depl o y e d   to  rep rese n e ac local  r egion  b y   bag - of - visual - SIF desc ript ors .   After ward,   som expe riments  are  in  orde to  dem onstrat th cod ebook  size  inf lue n ce   on   th eff ic i ency   of   the   s y stem,   b y   anal y zi ng   th cur se   of  dimensional ity   c urve .   In  the   end ,   to  m ea sure  the   sim il ari t y   scor e ,   floa ti n g   dista nc base on  the   desc rip to r’s  num ber   for  ea ch  qu er y   is  a dopte d.   The  expe riment al   r esult prove   th ef fic i en c y   of  the   p roposed  proc essi ng  steps  in   the   word spot ti n s y st em.   Ke yw or d s :   Ba g - of - vis ual  word   Floati ng sim i lar it y dist ance   Hand wr it te a r abic doc um ents   Scal e - in var ia nt - featu re tr ans form   Wor s po tt in g     Copyright   ©   201 9   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   E lfakir   Y ousse f,     Lab or at ory   of   Com pu ti ng  a nd  In te r discipli na ry P hysic s,   Nati on al   Supe r ior Sch ool,   Un i ver sit y Si di  Moham m ed  Be n Abdell ah, F es, Mo rocco .   Em a il yous sef .elfakir 1@usm ba. ac.m a       1.   INTROD U CTION     Old  ha ndw ritt en  A rab ic   doc um ents  are  par of   the  richest  c ultur al   he rita ge   and   c on ta ins  a   wealt of  inf or m at ion The  re petit ive  m anipu la ti on  of  these  m anu scripts  sho uld   be   avo i ded   as  it   cou ld  destr oy   them   To  ex plo it  this w eal th of in f orm at ion  co ntain ed  in these m a nu s cripts , d igit al iz at ion  is a c onve nient so l ut ion  to   pr ese r ve  them .   The  recent  ad van ce in  patte rn   rec ogniti on,   storag e an ne twork  te ch nolog ha ve  pa ve th e   way  for  m an dig it iz at ion   proj ect s,  wh i c treat   Lat in  scripts,  su c as  m anu scri pts  Be tt er  Access  t Ma nu sc ripts a nd Br owsin g of  Im ages [ 1 ] , E le ct ronic Acces to Medie val Manusc ripts  ( E A MM S)   [ 2 ] , etc.   This  pap e dea ls  with  t he  pro blem   of   w ord - by - e xam ple  spott ing   i ha ndwr it te Ar a bic   docum ents.  F ro m   the  surv ey   of   word   spott ing   syst em we  f ound  tha few   r esear cher t reat  the   hand wr it te Ar a bic   do c um ents,  w her m illi on   do c um ents  had   bee w riti ng  in  var io us   dis ci plines.  I th Ar a bic  hand wr it te case, the  r ec og niti on   syst e m  is face d wit h va rio us   pro blem s , which  can  b e   su m m arized as foll ow s:   -   Curs i vity  o t he  Arabic sc ript   -   Ar a bic lan guag e co ntains m any d ia crit ic  m ar ks   -   Fo rm  o f  the  sa m e let te at  the b e ginnin a nd end  of a  word  can  be  c hange   -   Peo ple writ e wi th their  own  s cript   The  w ord  s po t ti ng   proces s   ne eds  en ough  ti m and   effor to  be  pe rfor m ed  by  m anu al   insp ect io n.     To  facil it at e the search  in  nu m erical  d ocu m ent i m ages,  num ero us   word  s po tt in resea rc her had   based on  text   li ne  or   word   segm entat ion   ste ps   [ 3 - 6 ] F irst,  an  init ia ste is  per f orm ed  to  s egm ent  te xt  into  word    cand i dates   [7] .   Then,  can did a te are  rep re se nted  by  their  s equ e nces  of   fe at ur es  [ 8,   9] I the  en d,   to  c om par the  qu e ry  w ord  an these  ca nd i dates,  si m il arit m easur based   on  Dy nam ic   Ti m W arp i ng   [ 8]   or   Hidde Ma rkov   M ode [10]   is   us e d.  The  m ai pro blem   with  these  ap proach e is  that  they   are   ver se ns it ive an need  to  perf orm   costly   segm entat ion   ste to  sel ect   can di date  re gions.  Wh e n,  the  se gm entat ion   ste is  not   us ua ll easy   a nd   a ny  er ror  af fects  the  re pr e s entat ion’s  w or d,   the r ef ore  th m at ching   ste ps T his  e xp la i ns   w hy  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   5 Oct ober  20 19  :   4 3 1 1   -   4 3 2 0   4312   researc on  word  s po tt in an retrieval   is  ori ente t ow a r ds   se gm e ntati on - f ree  m et hods   over   the  la st     few y ears.   Lat researc on  w ord  s pott ing   a rch it ec ture  has  pro pose ap proac he that  do  not  need   a ny   segm entat ion   ste p.   I [ 1 1] L ey dier  et   al avo id  the  se gm e ntati on   ste i the  wor retrie val  syst e m by  us in featur e fitt ed  to  any  ty pe  of   al ph a bet  by  c om pu ti ng   loca key  po i nts  usi ng   sim ple  descr i ptor  bas ed  on   inf or m at ion ’s  gr a dient.   I t he  sam ap proach,  Z ha ng  and  Ta us featur e base on  t he  Heat   Ke rn el   Sign at ur e   [ 1 2] .   The  dr a wb a ck   of   t hese  pr opos e m et ho ds   is  that  no scal able  to  la r ge  da ta set s,  beca use   the   us e   a   co stl distance  c om pu ta ti on   i the   m at ching  ph ase .   I this   way,   Rothac ker  et   a l.  pro pose  i [ 1 3]   t exp l oit t he use  of b a g - of - visu a l - w ord rep rese ntati on   with  H i dd e Ma rko v M od el s t a vo i se gm entat ion  step.   In  [ 1 4] Alm az án  et   al a vo i the  segm entat ion   ste by  re presenti ng  doc um ents  with  gri of   H OG descr i ptors,  where  sli ding - w indow   par a gon  is  us ed  to  l oca te   the  locat ion s   that  are  m os si m il ar  to  the  qu er y   in the dat aset . T he n,  t hey u se   SV Ms st ru ct ure to  get a  bette re pr e sentat io n of  t he qu e ry.  To   s olv e  the  prob le m   of   m e m or y,  la te ly the  auth or m ov e to   us t he  co nc ept  of  bag - of - featur e   re pr e se ntati on .   T he  m et hod  pro po se by  M arçal  [ 1 5] us e   qu e ry - by - e xam ple   [ 16 ]   par a di gm   wh ere  t he  l ocal  patc hes  a r desc ribing  w it a   bag - of - vis ual - words  m od el   powe red  by  Scal e - in var ia nt - featu re - t ran s f or m   descr i ptors.  The n,  the   sp at ia l   pyram id - m at ching   fr am ework i s u se d.   In   [ 1 7] Rodri gu ez  us es  Mod el - base a ppr oach   to  m e asur the  sim i la rity   between  sequ e nce’s  vecto r,   w her e   s ever al   featu res   are  e xtracte f or  al the   im ages  by  us i ng  sli ding  window   s uch  as  l ocal  gradient  histo gr am   [1 8] the  zo ning  fe at ur es  [ 1 9]   and  the  colum featur es  [ 20 ] Th is  sequ e nce  is  m app ed  t H MM s   and  sim il arity  m easur is  c om pu te betw een  them I [ 2 1 ] ,   Peti tjean   exp la in how  t he  te m plate   m at ching  influ e nce  in  t he  co ntext  of   patte rn   s pott ing   in  hist or ic al   do c um ent  i m ages  by  inte grat ing   an e valuati ng  diff e re nt tem pl at m at ching   m et ho ds.   The  de gr a dation  on  t he  ha ndw ritt en  do cum ent  and   can  ta ke   di fferent  form s,  su c as  t he   discol or at io of  in k,   inter fe ring   patte r ns   li ke   ink   bleed -   th rou gh,  sho w -   t hro ugh  [ 22 ] e tc Ther e f or e befor any  pr ocess,  a featu re  e xtra ct ion   or  te xt  s egm entat ion a ppr opriat pre - processi ng  is  essenti al   in  order  t correct   the d e gradati on [ 23 ] . In  the   prese nt  w ork,   t h e docum ent  im ages  are p re - pr ocesse d,  in  or der   t e nhance   them   and   to  el i m inate   the  stron gly  interfe rin bac kgrou nd,  this  ste i m pr ove  the  extracti on   ph ase To  e nab l e   an  ef fici ent  fea ture  e xtracti on,   fin ding  e ff ect i ve  a nd  r obus f eat ur es  is  a i m po rtant  ta s k,  wh ic af fects  t the  word   retrieval  perform ance  [2 4 ] I this  cas e,  the  scal inva riant  featu re  trans f or m   al go r it h m   (S IF T ha bee app li ed  t extr act   and   to  cha racteri ze  intere sti ng   points  in   the  do c um ent.  This  al gorith m   has  sh own  their   eff ic ie ncy  in  p rev i ou resea rc [ 2 5,   26] T so lve  t he  pr oble m   of   com pu te m e m or cause by  descri pto r' s   dim ension we   propose  t use   bag - of - featu r es  appr oach   [ 25 ] the  S IF de scripto rs  hav e   been   us e to  create   the h ist og ram s,  an K - Me an cl us te rin g has  been ap plied  f or   cl us te ri ng  t o creat e the  ba g - of - vis ual - descri pto rs   [27 ,   28] T he n,  we  re pr e sent   the  i m age' r egio ns   as  hist og ram by  us ing   t he  ba of  visu al   w ords  [ 29,   30 ]   m et ho d.   At  this  sta ge a nd   us i ng   data  i hi gh - dim ensi on al   s paces th co debo ok   siz or   t he  cl ust er ' s   nu m ber   becam ver i m po rtant  ta s k,  w hich   af fects  to  the   re gion' represe ntati on ,   subse qu e ntly the  m at ching   phase .   Fo r   this,   we   ch os t he  best  siz of  c od e book  by  analy zi ng  t he  c ur se   of  di m ension al it curve  [3 1,   32] The  la st   op ti on  is  the  histogram di stan ce  com pu ta ti on   [33 ] pr es entat ion   of   pro posed  floati ng  dista nce  to  m easure   the sim i la rity  s cor e  w il l f ollo w.   The  rem ai nd er  of  this  pa per   is   orga nized   as  f ollows.  In  Sect ion   2,  w fi rst  pr ese nt  t he  pr e - proce ssin sta ge  to  e nha nce  the   de gr a dation  on  t he  hand wr it te docum ent.  Sect ion   descr i be the  propose word  sp otti ng  syst em .   Af te rw a r d,  Sect ion   stu dy  the  influ e nc of   the  proc essing  ste in   the  pr op os e syst e m   wh e re  we  re port  e xp e rim ent al   resu lt an analy sis.  Final ly con cl us io and  f ur t her   r esea rch  are  drawn   i sect ion   5.       2.   POST P RE - P ROCESSI NG   The  dig it iz at io of   Ar a bic  ha ndw ritt en  docum ents  app ea rs  tod ay   as  necessit to  pr eser ve  the  integrity   and   r arit of   sp ace,   Howev e r,   the   dig it iz at ion   is  the  first  ste in  process  of  cl assifi cat ion  an ind e xing  to   ex plo it   al wealt of   i nfor m at i on.  F or  this  r easo n,   we  have  ad op te a ind e xing  m et ho f or   scan ned   A ra bic  handwrit te do c um ents.   Im ages  docum ents,  and   es pecial ly   scann ed  ha ndw ritt en  docu m ents,   are  c om plex  a nd  co ntain   la rg e   am ou nt  of  releva nt  in for m at ion Mo st  of  this  data  is  connecte by  r el at ion of   c ol or or  in te ns it ie s.   A naly sis  and  pre - proces sin of  docum ent  i m ages  are  a voide in  s om scenario   of   word  spott in [ 14,   15] w he re  the  var ia ti on   betw een  c olors  or  inte nsi ti es  in  the  docum ent  is  n ot   la rg e.     Fo this and   i orde to  ov e rco m this  exi sti ng   va riat ion  in  oth er  doc um ents  li ke  as  I bn   Si na  databa se  we   pro po se  to st ar t t he  in dex i ng s yst e m  b y pr e - proces sin ste p.   The  te xt  se par a ti on   f ro m   i m ag backgro und  i ver va st  dom ai n,   wh er m any  r esearc address  thi s   pro blem   by  r ough  est im a ti on   of  the  te xt  a nd   bac kgrou nd  reg io ns   [ 3 4 - 3 7] I [ 3 6] to  identify   the  te xt  an Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th e i mpact  of the ima ge pr oc essing i t he  in dexa ti on  syste ( Elf akir Y ou ssef )   4313   backg rou nd   cl asses,  global   bin arizat io thres holdin is  us e d.   The n,   to   adjust  the  thr esh old   val ue,   no ise   m od el   is   bu il di ng   a nd   us ed I auth or   wor [2 3] an in  order   to  ide ntify  the  te xt,  backg rou nd,  and   un c ertai pix el s,   bin a r iz at ion   par a go is  presente d,  the n,   t he  unc ertai pix el it   bi nar iz ed   us in a   cl assifi er   trai ne base d on the te xt and  bac kgr ound classe s.   In   this  pa per,  we  ad dr ess  th enh a ncin and   re stori ng  pro blem of   Arabic  hand wr it te docum ent   i m ages  by  us i ng  se ries  of  m ulti - le vel  cl ass ifie rs  [ 2 3] W e   have  m od el ed   the  pre - proces sing   im ages  ste as   sh ow in   Fig ure  1   base on  these  cl assifi er s,  w hich   can   be   us e to  an  e nh a ncem ent  or  resto rati on  m et hod.   These m ulti - lev el  classi fiers  are m aps  that e xtract releva nt  inf or m at ion  f or  d iffe ren t l evel s: l ocal, r egi onal  an global.  A nd  pr ov i de  val ue  f or   eac pi xel  in  the  im age.  Ther a re  seve ra cl assifi ers.   I this  wor k we  us the   est i m at ed  backgro und, the st r ok e  grey  level,  and e dg e  pr of i le .   -   Estim at ed  backgro un   Is  a   hi gh - le vel  cl assifi er  [ 3 8] us m any  ot he cl assifi er to   arr ive   at   a est i m at back gr ound  a near  as possible  to  t h e tr ue bac kgr ound  of the im age as  sho wn in  Fi gure  1 - b .   -   Stroke  gr ay  le ve   This  cl assifi er   prov i des  gray   value  f or   e ach  pi xel  [ 2 3] ,   the  est i m at ed  intensit ie for   stroke  is   cal culat ed  by  aver a ging  t he  i ntensiti es  of  th pi xels,  a i nterpolat ed  val ue   will   b e   assi gned   f or  the   non - te xt  pix el (b ac kgr ound , fi gure s i nterf e re nce,  et c.). A s s how i Fi gure  1 - c .   -   Ed ge pr of il e   The  ed ge  pr ofi le   is  a   cl assifi er  us ed  t ov erco m the  interfer e nce  pr oble m   of   the  inf or m at ion   The  cal culat io of  the  ed ge  prof il is  base on   the  gradi ent  of   histogra m   in  each  regi on   in  the  im a ge  as  Figure 1 - d .               (a)   (b)   (c)   (d)     Figure  1. Pr e - proces sin im age steps, a)  Orig inal im age, b)   Estim at ed  backgro und,   c) S tr oke  gr ay   scal e, d E dge  prof il e       Figure  s ho ws  the   pr oces of  pre - proc essing  ste p.   We  a pp ly   the   resto rati on  m et ho t the   hand wr it te n Ara bic doc um ents. F ig ure  s ho w s th pr e - pro cessi ng r es ults:           Figure  2 Pr e - proces sin g proc ess       Figure  3 Pr e - proces sed  im age s     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   5 Oct ober  20 19  :   4 3 1 1   -   4 3 2 0   4314   3.   PROP OSE D SYSTE M   We  a ddress  t he   w ords  s pott ing  pro blem   by  us in a   Ba of   Vis ual  desc riptors  m od el   powe red   by   scal e - inv a riant   featur tra nsf or m wh ic c onsist to  desc r ibe  each  detec te interest   po int.  As  we  ca see    in  [2 7] the  pe r form ance  of   th is  m od el   dep e nds  on  the  nu m ber   of   visu al   de scripto rs  e xtr act ed  from   the  i m age.  In   order   t re pr ese nt  each  r egio in  the  i m ages  by  hi stogram   and   ta king  acco unt  diff e re nt  wor ds   siz e,     we  den sel div ide the  im age  into  set   of  local   re gions.  Fo r   this,  we  de fine  th ree  wi dth H *H,   2H*H   an 3H* to  be  sy nchr on iz e wit diff e ren l oc al reg i on ' siz es.  T he  ai m   of   this  m ulti - scale  represe ntati on  is  to   captu re all   di fferent  w ords  siz e as s how in   Figure  4.            Figure  4 Ha nd wr it te n Ar a bic   words in  d i ff e r ent size H*H,  H*2 a nd H* 3H        The  pro po se m et ho it   ha been  ap plied  t diff e ren ha ndw ritt en  doc um ent  i m ages.   Figure  s how the pr ocess of  the  pro po se d w ord  s pott ing   syst e m             Figure  5 The   process  of the   pro po se d w ord  spott ing sy ste m       3.1.     Ima ges  re pres ent at io n   In   [ 3 9] Lla do s   et   al sh ow in the  influ e nce  of  wor represe ntati on f or  ha ndwr it te wor ds   pott ing   i histor ic al   doc um ents,  and   how  bag   of   vis ual  wor ds   re presentat ion   us in SIFT  desc ri ptors  can  ef fec ti vely  perform   the  cl assic al   appro ac hes,   s uc as  D T W   base on  s equ e nce  featu r es.  He re,  we  use   the  Scal e - Inv ariant  Transf or m   Feat ur al gorithm due  to   ca noni zat ion desc ri ptors  a re  in va riant  to   tra ns la ti on s,   r otati ons  a nd  scal ing ,   an w sho the   im pact  of  the   pre - proces sin sta ge   in  t he  in de xation  syst em then,   we   sho how  we   can  perform   t he  re su lt by  us in floati ng  distance  sim il a rity The  Si ft  detect or  extrac ts  the  interest   po i nts   from   the  i m ages  an t hen  we   desc ribe   them the  ta ken  al go rithm   in  our  im plem entat ion   is  ins pi re by  t he  one   ta ken   by L owe  et.   [ 40] .   The  m ai draw back  of  t his  a ppr oac at   this   sta ge  is  that   th ey   us a   costly   distance   com pu ta ti on   an the  need   gr e at   co m pu te m e m or y,  w hich  is  no scal able  to  la rg datase ts.  The  col os sa nu m ber   of   de te ct ed  key  points   in  t he  doc um ent  c ause  this  prob l e m i.e.  the  ave rag num ber   of  the  key  points   at   each  re gion   is  94,   wh ic is  re pre sented  by  de scripto of   94*128,   each  doc um ent  i m age  hav in in  a ve ra ge  m or tha 10  00 reg i on s in   this   case,  we  requi re  a pproxim at e ly   114  MB   of   RAM  to  st or e   each  im age.  T s olv e   this  prob le m   cause by  dim ensio of  thes descr i pto r s,  instea to  repr esent  the  im ag e' reg ion by  their  desc riptors  w e   encodin each   re gion  by  a   histo gr am   us in a   ba g - of - vis ual - descr i pto r s   fram ewo rk,  wh ic is   ins pir ed   by   m od el us ed   in  natu ral  la ng uag e   pr ocessin g,   t his  te ch nique  is  base on  spa rse   histo gr am   of   occ urrenc e   counts  of v is ua l wor ds .     The  m ai ste ps o this te c hn i que a re:   -   Feat ur es  ex t rac ti on   -   Cl assifi cat ion   "cod e book"   -   Qu a ntif ic at ion   -   Con st ru ct  t he  r egio n' s   histo gra m s u sin c odeboo k   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th e i mpact  of the ima ge pr oc essing i t he  in dexa ti on  syste ( Elf akir Y ou ssef )   4315   In   the  sec ond  s te p,   local   reg i ons  are  re pr ese nt ed  by  us in hi stogram of   B ag - of - Visu al - D escripto rs.  To  ac hieve   thi re pr ese ntati on,  we  us e   10%   of  al des cript or s   to  quantiz e   them   into  K   di ff ere nt  cl ust er us i ng  the  k - m eans  a lgori thm In   the  en d,   al re gions  are  des cribe with  th ei histo gr am by  assigni ng   each  descr i ptor  in  t he  re gion  to  t he   near est   visu a descr ipt or   i the  co debo ok.  So eac r egi on  is  re pr ese nte by  a   histo gr am   of  accum ulate f reque ncies   1 , = 1 , , 2 , , 3 , , 4 , , 5 , , , wh e re   repr esent  t he   nu m ber   of  the   visu al   desc rip tor  in   the  c od eboo a nd  ,   rep rese nt  the   cu m ula ti ve  fr e quency  of  visua l   descr i ptor in  th e j em e   reg i on.     3.2.     Ima ges  re pres ent at io n   The  in form at i on   e xtracti on  from   han dwrit te docum ent  i m ages  is  on e   of   the  m ajor   chall eng i ng   top ic i the   fi el of  docum ent  im age  analy sis.  I this   pa r t,  we  s how   ho the   pre - proc essing  im ages  ste influ e nce  i th ind e xatio s yst e m   scenario.  The   w ord  " مو ي   wr it te i three  dif fer e nt   wa ys  in  t he  sam e   d oc um ent  as  s how in  Fig ure  6,   w hich  are  wr it te with  diff e ren col or a nd   diff e re nt  diacrit ic al   m ark s wh il e   so m reg ion in  these  wor ds  are  degrad e due  to  the  antiquity   of   these  m anu scri pts  and   the  m anu al   m anipu la ti on.  Fo th reas on  abov e,  an in   or de to  com par the  pr e - pro cessi ng   im pact we  ha ve  te ste the   pro po se syst e m   in  the  gr ay s cal and   pr e - tr eat ed  i m ages.  We  extra ct   the  interest   po i nts   from   each  word,  an for  each   one  in   the  first  wor d,  we  sea rch   t he  si m il ar  on in   t he  sec ond  wor ds   as  s how in   Figure  7.   As  we  see   in  T a ble  1,  the  nu m ber   of  the  m at ched   points   in  the  gray scal i m age  is  high   than   the  pr e - tr eat ed  im age  due  t the  fa ults  dete ct ed.   T he  m os of   this  fau lt s   keys  points  a re  com ing   f rom   no n - te xt  re gions  a nd   doe not  descr i be   the  word trait  in  the   i m age.           Figure  6 Wo r d ‘ مو ي ’  w ritt en  in  thr ee  d if fere nt  w ay s i the  sa m e d oc um ent       Table  1.   N um ber   of  t he  m at ched   po i nts     W o rds   m a tch in g   W ith  prep rocess in g  step     W ith out   p reproces sin g  step     1 em e   m a tch in g     67   143   2   em e   m a tch in g     119   145   3   em e   m a tch in g     98   131             Figure  7 .   The   m at ched  poi nts       To  exam ine  the  influ e nce  of  these  fa ults  det ect ion an c om par the  resul ts  between   pr e - treat ed  a nd  no   pr e - treat ed   i m ages  in  th wo r d - spott in fr am ewo r k,   we  ap ply  the  pro po se d   syst em   Figu re  5.   I th e   si m il arity  ste p,   we  c hoos t fix  th res ho l ( Tf),  an we  re tur each  dista nce  sim i la rity   le ss  of   Tf.   The w e   cal culat the  te st' accuracy  of   the  syst em   Fscore,  wh ic is  har m on ic   m ean  of   prec isi on   an rec al that  m eans th e a bili t y of  t he  syst e m   to provide  all  r el eva nt so l ut ion s  and  rej ect   oth e rs.     The F - sc or e  is  cal culat e as fol lows F S c ore = 2 . 1 1 r ecal l + r ecision = 2 . rec a ll + pr e c isio n rec a ll + pr e c isio n        (1)     To  e valuate   th pe rfor m ance  of  the   ap proac i hand wr it te Ar a bic  doc um ents,  we   ch ang e   the   siz e   of   c odeb ook.  As  s how n   in  F igure  8,  the  F - scor res ults  de pendin on  the  co de book  s iz and   t he  ap proac base on   pr e - processi ng   pr ovide  good  pe rfor m ance  in  te r m   of   F - sc or Ta ble  2,   the  best  m ean  F - sc or e   (0,77 8)  is  obtai ned f or 30 c ode  wor ds .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   5 Oct ober  20 19  :   4 3 1 1   -   4 3 2 0   4316     (a)     (b)     Figure  8. F - sco re   at   diff e re nt c od e book  siz es,  (a)   pre - pr ocess ed do c um ent, (b)   no   pre - proc essed d ocu m ent       Table  2 . N um ber   F - sc or e at  di ff e ren t c odeb ook  siz es   Variable   100   200   300   400   F - Sco re  f o p re - p r o cess ed   d o cu m en t   0 ,62 7   0 ,76   0 ,78   0 ,62 9   F - Sco re  f o p re - p r o cess ed   d o cu m en t   0 ,53   0 ,61   0 ,63   0 ,51       3.3.     T he curse  of d im ension ality  im pa ct  in wor d spot ting s ys t em   In   this  sect ion,   we  exp la in  th cur se  of  dim ensio nalit i mp act   in  the  bag - of - visu al   w ord  syst e m this  te rm   was  inv e nted  by  Ri cha r Be ll m an  in  [ 31 ,   3 2] t he  go al   is  to  see   di ve rse  ph e nom ena  that  a pp ea wh e us in data  in  hi gh - dim ensional   sp aces  and   a naly sing   them   Fo this, w use   two  dif fer e nt   A rab ic   ha ndwr it te do c um ents  fo r m   Gall ic a,  wh ic is  the  dig it a li br ary  of   the  Fr e nch   Nati onal   Librar y,  in  open  acce s s.  It  br i ngs   dig it iz ed  hand wr it te do c um ents,  m agazine s,  im ages.. Fir st,  we  e xtract  t he  inter est   poi nts  f ro m   each  reg i on   in  the   pre - tr ea te d   im ages  us i ng  S IF al gor it h m The n,   i the  le ar ni ng  ste p,   t he  descri pto rs   of  t he  first  i m ages  of   t he  do c um ent  are  gro up e to  pro vid th cl us te centr es  (c ode book) I this  s ta ge,   we   us k - m eans  al gorithm   with  diff e ren nu m ber   of   (ce ntr es),   100  to  900  centres.  T he n,  to  cal culat the  si m i la rity   bet ween  the h ist ogram s o f  each  r e gions  in  the  im age' do c um ent and  the que ry' s h ist ogram , w us the cos  distanc     def i ned b y:   S = 1 H i , j R i N i = 1 H i , j 2 N i = 1 R i 2 N i = 1       (2)     Wh e re  H i,j   represent  the  occ urren ce  of   t he   i e m e   centre  of   the  co debo ok   i the  j em e   reg i on,  an R( i )   represe nt  the  oc currence   of  t he   i em e   centre  of  the  c od e book  in  the  query.   T j ud ge  that  a   reg i on  is  sim i la to  the  qu e ry,  the  cos  distance  sh oul be  le ss  than  certai thres hold.  F or  this,  f or   eac cod e book  siz e,  we  us e   var i ou th res hold  bet ween   0:   0. 05:  0.7  an we  cal culat t he  recall   and   pr eci sio m eas ur es The  rec a ll   and   pr eci sio c urve s sho that t he  r es ult de pend on t he  t hr es hold a nd code book size  as  s how in   Fig ure  9.             Figure  9. Re cal l and p recisi on  at  d iffe re nt cod eboo siz es a nd se ver al   dif fere nt th reshold       To  evalu at the  i m pact  of   the  cod e book  siz e,  we  cal culat the  F_ sorce  m easur by  usi ng   ch oosin the  best  th res hold  of   eac si ze  as  show i Fig ure  10 We  rem ark   th at   the  best  res ult  is  giv e f or  k= 300,    the Fs or ce  d ec r ease bey ond  t hi s size d ue  to  t he  im pac t of  t he  d im ension al   sp aces.     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th e i mpact  of the ima ge pr oc essing i t he  in dexa ti on  syste ( Elf akir Y ou ssef )   4317         Figure  10. T he  F - s or c e c urve       Now,   we  sea r ch  the  influ e nc of   the  co de book  siz on   the  thres hold,  f ro m   the  ( 3 ) w hen   the  siz e   increases  ( N),   the  pr oba bili ty   to  no find  al visu al descr ipto rs  in  the  co debo ok   for  giv e r egio n’ s   descr i ptors   increase ,   tha t’s  m ean  the  pro bab il it P ( ) = 0   increase,   a nd  s ubs equ e ntly   P ( , ) = 0   increase. Wher is  the  hist ogram   o the  qu e ry  an H j   is  the  histo gra m   of   j em e   reg ion  in   the doc um ent.     So   D = H i , j R i N i = 1 H i , j 2 N i = 1 R i 2 N i = 1     ( 3)     Decr ease d ,   Ther ea fter , wh en  the  size  i ncr ease s,  t he  si m il arity d ist an ce S  will  incr e ase (S =  1 - D).                   Figure  1 1   s hows  the  c urve  of   the  best  thr esh old   f or   eac co de book  siz e,  as  we  see,  the  thres hol dep e nd  on  the   siz of   the  cod eb ook.  For  th is  reaso n,  an to  ov e rco m t he  pro blem   li n ked   to  the  c urve  of   dim ension al it y,  w e  u s e a c ode book  with  300 visual  desc ript or s  th at   giv e t he  b est   res ult.           Figure  11. Best  thr es hold  f or  e ach c od e book  siz e       At  this  sta ge,  we  have  de m on strat that  the  Fsc ore  m easur dep e nd  on  t he  co debo ok  siz e .     To  pe rfor m   the  exp e rim ents,  we  shou l se arch   the  im pact  of   the  desc riptor' nu m ber   (n)   on  the  thre sh ol d.   Fo rm   ( 3 ) wh e the  num ber   of  interest   point inc reases the  pr ob a bili ty   to  fin al vis ua ls  descr i ptors  for  in   histo gr am   fo r   giv e re gi on’s  descr i ptors  incr ease,  th at   m ean  probabil it of   P ( ) 0 in crease  to o.   Ther ea fter the   pro ba bili ty P ( , ) 0   inc rease.   S i ncr ease s,  with   0 1 The reafte r,  wh e increases the  si m il arity  dist ance  will   decr ease  ( S=1 - D):               w hich  e xp la in  t hat  th e   nu m ber   of  inte rest  points  in fluen ce  on  the  t hr es hold,  or   ea ch  w ord  has  certai num ber   of   descr i ptors.   For   this,  the  distan ce  si m i la rity  sh ould  be  ta ken  account  the  num ber   of   desc r iptor by  us in floati ng   thre sh ol d.  F igure  1 2   r epr ese nt s   the   threshol curves  acc ording   to  t he  nu m ber   of  po i nts  of   i nt erest.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   5 Oct ober  20 19  :   4 3 1 1   -   4 3 2 0   4318   By   analy sing  t hese  c urves w can   use   the   relat ion   of  th e   pro gressi on  li ne  as   floati ng  t hr es hold  f or  each   qu e ry.   Or,  if  t wo  dif fer e nt  r egio ns   hav i ng  even  num ber   of   points  of  in te rest  will   ha ve   the  sam threshold,     bu di ff e ren hi stogram s,  becau se  they   do  not   hav the   sam interest   po i nts,  and   t her ea fter diff e re nt  distances   of sim il arit y between  t hese t w o regi on s  and t he qu e ry.            Figure  12. T hr esh old  acc ordi ng to  t he nu m ber   of   desc riptor s       4.   E X PERI MEN TAL RES UL TS   We  te ste our   m e tho dolo gy   on  Ar a bic  ha ndw ritt en  do cum ent  fr om   the  di gital   li br ary  Gall ic a,     Figure  13  pr es ents  qu al it at ive  res ults  f or  tw dif fer e nt  do c um ents.  The   us e syst em   is  based   on  S IF T - B oV descr i ptors  with  300  vis ual  words,  a nd  flo at ing   th res ho l d.   W e   re port  he re  s om qu eri es  w her e   the   s yst e m   yi el ds   autom atical ly wh ic a re  sim il ar  to  the  qu e ry  an without  ch os th be st  si m ilar  res ults,  w hi ch  is  a   pro blem   in  oth er   syst em   [1 4,   41] T hen,  we  us filt er ing   ste t sel ect   on e   be st  r esult  w he c onf u sio reg i on s  are  r et urnin g, base d o thei sim il ari ty  sco res  and  posit ion s .   In   c om par iso with  sta te - of - the - a rt,  we  s how  the   retrie v al   perform ance  in   te rm of   m AP   as  s how i Table  3,  we   c an  see   ho pre - processi ng  by  ke epi ng  th inf orm ative  interest   po i nts   in  eac w ord  a nd   discrim inati ng   the  oth ers In  add it ion,  to  overc om the  p roblem   li nk ed   to  the  var io us  nu m ber   of   i nterest   po i nts in  d if fere nt r e gions  by  us in g floati ng t hr es hold.                 Figure  13. T he  r et rieve im ages for so m e q ue ries in t he  t wo  evaluate d d oc um ents       Table  3.   Per for m ance of th e  prop os ed  m et ho a nd o t her w orks   Metho d   Precisio n   Al m az án   et al .   [ 14 ]   6 8 ,4%   Prop o sed   m e th o d   83%   Ho we   e t a l . [ 42]   79%   Li a n g   e t   a l .[ 4 3 ]   67%   F i sc he r  e t  a l.[ 4 4 ]   62%   Elf ak ir  et al [ 4 5 ]   81%   Ter asa wa   e t   a l [ 4 6 ]   79%           Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th e i mpact  of the ima ge pr oc essing i t he  in dexa ti on  syste ( Elf akir Y ou ssef )   4319   5.   CONCL US I O N   In   t his  pa per,  we  ha ve  pr e se nted  a ef fici ent  fr e e - se gm entat ion   w ord  s pott ing   a ppr oac f or  A rab ic   m anu scri pts.  T he  pro pose m et hod  prese nt  an  excell ent  re su lt   wh e c ompari ng   oth e m et hods   in  li te ra ture.  We  ha ve  s ho wn  ho t he  proces sin ste can   im pr ov e   the   re su lt i Ba g - of - de scrip tors  of  S IF T   s yst e m ,     by  inf or m at ive  and   disc rim inati ve  featur es .   The n,   we  hav e   sh own  how  w can  i m pr ove the  res ult  by,  first   choosi ng   t he  be st  siz of  co de book  by  anal ysi ng   th c ur se   of  dim ension a li ty   cur ve,  an seco nd ly t he  us of   floati ng  cos  di sta nce.  Fin al ly we  ha ve  pr es ented  c om par iso with  othe m et ho ds w te ste our  m et hod  us in e xperim e ntal set up  base d on MAT LA B co de  a pp li ed  to Gal li ca data base       REFERE NCE S     [1]   Cal abr et to  S. ,   Bozz A. ,   Pinon   J.,   " Digit i za t ion  of   m edi eva m anusc ript s (i Frenc h ), "   the   European   projec B AMBI ,   in:  Proce ed ings  of  the   conference  Tow ards   ne erudit ion:  dig it izati on  and  res earc in  book  hi story   (in  Frenc h) Renc ontr es  Jac q ues  Cartier ,   L y o n ,   De 1999 .   [2]   htt p://ww w.hm m l. org/e amm s/inde x. htm l   [3]   Rat T. M. ,   Ma nm at ha  R. ,   " W ord  image  m at c hing  using  d y n amic  ti m warpi ng, "   Proceedi n gs  Inte rnational   Confe renc on   C omputer  Vi sion   and  Pattern  R ecogniti on ,   pp .   52 1 - 527 Feb   2013 .   [4]   El fak ir  Y.,   Kha issidi  G.,   Mrab ti   M.,   Chenoun i   D. ,   " Handwrit te Arabi Doc um e nts  Inde xat i on  using  HO G   Feat ure , "   Int ernati onal Journal of  Computer  Ap pli cations vo l.  1 26,   no .   9 ,   pp   14 - 18 , S ep   2015 .   [5]   Saee K . ,   Alb a koor  M.,  " Region  growing  bas ed  segm ent a ti on   al gor it hm   for  t y pewri tten  a nd   handwri tten  t ext  rec ogni ti on, "   Ap pli ed   Soft Comp uti ng vol.  9 ,   pp .   608 - 617 2009 .   [6]   Loul oudis  G. ,   Gatos  B. ,   Prati k ak is   I. ,   et   a l. ,   " Te x li n and  word  segm ent at ion  of   handwri tten  doc um ent s ,"   Pat t ern   Re cogn it ion vo l .   42 ,   pp .   3169 - 3 183 ,   2009 .   [7]   Fitri ani ngsih  F. ,   Made nda  S.,   Erna stuti   E.,  W idodo  S.,   Rodiah   R. ,   " Cursive  handwri ti ng  seg m ent at ion  using     ide a dista n ce   a ppro ac h, "   In te rn ati onal  Journal   of  Elec tri cal   an Computer  En gine ering   ( IJE C E) vol.   7 ,   no .   5 ,     pp.   2863 ,   2017 .   [8]   Rodrigue z - Serr a no  J.,  Perronni F.,   " m odel - base d   seque n ce   sim ilarity   w it appl i ca t i on   to  h andwri tte n     word - spotti ng, "   IEE E   Tr ans.  Pattern  Ana l. Mac h .   Intell vol .   34 ,   p p.   2108 - 2120 2 012 .   [9]   Marti   U. - V.,   Bu nke  H. ,   " Us ing  stat isti c al   la ngu age   m odel   to  improve  the   per for m anc of  an  HM base cur si ve  handwri ti ng   re co gnit ion  s y st ems , "   Int. J.   Pa ttern  Re cogn it .   Art if . I nte ll ,   pp .   65 - 90 ,   2001 .   [10]   Griffi ths  Rat T. ,   Manm at h R. ,   " W ord  spotti n for  historical   do cuments , "   Int.   J .   Doc.   Anal .   Re cogn it   pp .   139 - 152 20 07 .   [11]   Ley di er  Y.,   Ouji  A.,   Le   Bour geoi s   F.,   et   al. ,   " Towa rds  an  om nil ingua word  ret rie v a l   s y s te m   for  anc ie n t   m anusc ript s,"   P att ern  Re cogn it i on vol .   42 ,   no .   9 ,   pp   2089 - 2105 ,   2009 .   [12]   Zha ng   X. ,   Ta C.   L. ,   " Segm ent at ion - fre e   ke y   word  spotti ng  f or  handwri t te documents   base on  he at   k ern e l   signat ure , " i n   Int ernati onal   Confer enc on   Docum ent   Anal ysis  and   Recogni t ion ,   pp .   827 - 831 2013 .   [13]   Rotha ck er  L.,  Rusiñol  M.,   Fink   G. ,   " Bag - of - feat ure HM M for   segm ent at ion - fr ee   word  sp ott ing  in  handwri tt en   documents, "   1 2th  Inte rnat io nal  Confe ren c on  Docum ent   Ana ly sis  and  Re cogn it i on,   Proc ee din gs   pp.   1305 - 1309 ,   2013 .   [14]   Alm az án  J. ,   Gordo  A.,   For nés   A.,  et  al . ,   " Segm ent a ti o n - fre w ord   spotti ng  wi th  e xemplar   SV Ms, "     Pat te rn   Recogni t ion vo l.  47,   no.   12,   pp .   3967 - 39 78 ,   2014 .   [15]   Marc al  M.,  Ald ave rt   D.,  Toledo   R. ,   e al . ,   " Eff i ci en segm ent a tion  fre e   ke y word   spotti ng  in  h istori cal  documen t   col l ec t ions,"   Pa t te rn R ec ogni ti on v ol .   48 ,   no .   2 ,   p p.   545 - 555 ,   Feb   2015 .   [16]   Doungpaisan  P.  and  Mingkhwan   A. ,   " Quer y   b Exa m ple   of  Speake Audio  Sig nal s   using  Pow er  Spect rum   and   MF CCs , "   Inte r nati onal Journal of  E le c tric al   &   Computer  Engi n ee ring   ( IJE C E) vol.   7 ,   no .   6 ,   pp .   2088 - 8708,   201 7 .   [17]   Rodrigue z - Serr a no  J.,   Perronni n   F.  " m ode l - base seque n c sim il arit y   wi th  appl i cation  to  handwri t te n     word - sp ott ing, "   IEE E   Tr ans.  Pattern  Ana l. Mac h .   Intell ,   pp .   2108 - 2120 2012 .   [18]   Rodrıgue JA . ,   Perronnin   F. ,   " L oca gr adi en hi stogram  fea ture s   for  word  spotti ng  in  unco nstrained  handwri t ten   document, " In   In te rnational   con f ere nce on fronti ers i handwrit i ng  rec ogni ti on ,   2008.   [19]   Bunke  H.,   Beng io  S.,   Vinci a rell i   A. ,   " Offline   re cogni ti on  of  un constra in ed  han dwritt en  t ext using  HM M and   stat isti ca l   sta ti sti ca l   la ngu age models, "   I EE E   Tr ans P attern A nal   Mac Int el l vo l.  26,   no.   6 ,   pp .   70 9 - 720 2004 .   [20]   Marti   U - V.,   Bunke   H. ,   " Us ing  stat isti ca l anguage  m odel   to  imp rove   t he  per for m anc of  an  HM M - base cur sive   handwri ti ng   re co gnit ion  s y st em, "   Int  J   Pa tt ern  Rec ognit   Arti f   Intell vol.  15,   no.   1,   p p .   65 - 90 ,   2001 .   [21]   En  S.,  Petitj ea C. ,   Ni colas  S.,  e al . ,   " Patt ern   lo ca l iz a ti on  in  h istori cal  docume n t   images  vi te m pla t m at ch ing ,"   23rd Int ernati on al  Conf ere nce o Pattern  R ec og nit ion  ( ICPR ) ,   C anc un,   pp.   2054 - 2059 ,   2016 .   [22]   Moghadda m   R.   F.,   Cheriet   M. ,   " Low  qual i t y   doc um ent   image  m odel ing  and  enh anc ement , "   Int ernati onal  Journal   on  Document   An aly sis and Re cog nit ion vol .   11 ,   n o.   4 ,   pp .   183 - 20 1 ,   Mar   2009 .   [23]   Moghadda m   R.   F.,   RS LDI   M.   C. ,   " Restora ti on  of   single - sided  lo w - qual ity   docum ent   images, Pattern  Re cognition vol.   42 ,   no .   12 ,   p p .   3355 - 3364 ,   D ec   2009 .   [24]   Marina S. ,   Miott B. ,   Soda   G. ,   " Digit a Librari es  and  Do cument  Im age   Ret ri eva T ec h n ique s:  Survey , "   Learnin g Struc ture  and Sc he ma s  fro m D oc um e nts,   S pringe rlink ,   no.   375,   p p.   181 - 204 201 1 .   [25]   Shekhar   R. ,   Ja waha r   C. ,   " W ord  image  ret r i ev al   using  bag  of  visual   words , "   In  Proce edi ngs  of  the   10th  IAPR   Inte rnational   W orkshop on,   Doc ument  Ana ly sis  Syste ms   ( DAS) ,   2012.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   5 Oct ober  20 19  :   4 3 1 1   -   4 3 2 0   4320   [26]   Rotha ck er  L.,  Rusinol  M.,   Fink   G. ,   " Bag - of - feat ure HM M for   segm ent at ion - fr ee   word  sp ott ing  in  handwri tt en   documents, "   In  Proce ed ings  of  t he  21st  Inte rnati onal  Confe renc e   on  Document   A naly sis  and  Re co gnit ion  ( ICDAR) 2013.   [27]   No wak  E. ,   Juri F.,   Tr iggs   B. ,   " Sam pli ng  strat eg ie for  bag - o f - fea tur es  image  class ifi cation , "   in  European   Confe renc on   C omputer  Vi sion ,   Lect ure  No te s in   Computer  Sc ie n ce ( LN CS ) vol. 3 954,   pp .   490 - 50 3 ,   2006 .   [28]   Sankar   K.P. ,   Ma nm at ha  R. ,   Jawa har   C. V . ,   " La rge - sc al e   document   image  r et ri ev a b y   aut om atic  wo rd  annotati on , "   Inte rnational   Jo urnal  on  Docum ent   Anal ysis  and   Recogni t ion  ( IJ DAR) ,   vol.  17,   n o.   1 ,   pp .   1 - 17 ,   2 013.   [29]   La z ebni S. ,   Sc hm id  C. ,   Ponc e   J. ,   " Be y ond   ba gs  of  feature s:  s pat i al   p y r amid  m at chi ng  for   re cog nizing  na tur al   sce ne  ca t egor i es, "   in  Proceedi n gs  of  the  IE EE   Computer  Socie ty   Conf ere nc o Computer  V ision  and  Pat t ern   Re cogn it ion ,   pp .   2169 - 2178 200 6 .   [30]   El fak ir  y . ,   Kha i ss idi   G.,   Mrab ti   M.,   et   a l. ,   " Ba g - of - desc ript ors  of  SIF for  Seg m ent at ion - fr ee  word  sp ott ing  i Handwrit te Ar abi documents , "   Sec ond  Inte r nati onal  Confe r enc on  Natur al  Sci en ce and  Technol ogy  i Manuscript  Ana l ysis,   Proc ee d ing s ,   Ham burg,   Ger m an y   (ICNTMA 2016.   [31]   Erne st B el lman   R.   Dynamic   pro gram ming ,   Princ et on  Univ ersity   Press ,   Rand  Cor pora ti on ,   1957 .   [32]   Erne st B el lman   R. ,   Adapt i ve c on trol  proce ss es:  a   guide d   tour ,   Pri nce ton   Univer sit y   Pr ess ,   1961 .   [33]   Jégou  H.,  Douz M.,  Schm id   C. ,   " Produc quan ti z at ion   for  ne ar est  ne ighbor  sea rch , "   I EE ETran s.  Pattern  Ana l.  Mac h. Int el l vo l.  33,   no.   1 ,   pp .   11 7 - 128 ,   2011 .   [34]   Hedja m   R. ,   Far rah Mog hada m   R. ,   Cher ie t   M. ,   " spati al l y   ad apt iv statistical   m et hod  for  the  bina ri za t ion  of  histori c al   m anus cri p ts  and  d egr a ded  document   i m age s,"   Pattern  Re cogn vo l.  44,   pp .   2184 - 2196 ,   2011 .   [35]   Chen   Y. ,   L ee d ham   G. ,   " De c om pose  al gorit hm   for  thre sh oldi ng  d egr aded  historic al  do cument  imag es, "     IEE   Proc.  Vi s .   Image  Signal P r oce ss vol .   152 ,   pp .   702 - 714 ,   20 05 .   [36]   Don   H.   S. ,   " A   noise  at tri bu te   t hre sholding  m et hod  for  docume nt  image  bina ri za t ion, "   Int.   J .   Document   Ana l .   Re cogn vo l.  4,   p p .   131 - 138 ,   200 1 .   [37]   Shokri  M., T i zh oosh H.,   " Q(k) - b ase imag e   thr esholdi ng , "   in  C V R'04 ,   pp .   504 - 50 8 ,   2004 .   [38]   Cheri e M.,  Farr ahi   Moghadd am  R. ,   Hedja m   R. ,   " le arn ing  fra m ework  for  the   opti m iz ation  an aut om at ion   o document  bin ariza t ion  m et hods,"   CVIU vol. 117, pp.   269 - 280 ,   20 13 .   [39]   Ll ados  J.,   Rusiñ ol  M.,   Fornée   A. ,   et   al . ,   " On  the   i nflue nc of  word  rep rese ntations   for  handwri tt en  words   pott ing  in   histori c al   do cuments, "   In t. J . Patt ern  Recogni t .   Arti f. Intell ,   26 ,   20 12 .   [40]   Lowe   D.   G.,   " Distinc ti v Im age   Feat ure s   fro m   Scal e - Inv ari a nt  Ke y poin ts,"   Inte rnational   Jo urnal  of  Compu te r   Vi sion vol .   60 ,   pp.   91 - 110 ,   200 4 .   [41]   Rusiñol  M.,   Al dave rt  D . ,   Llad os   R.   J. ,   " Eff ici ent   segm entati o n - fre k e y   word   spotti ng  in   hist oric a document   col l ec t ions,"   Pa t te rn R ec ogni ti on vol .   48 ,   pp .   545 - 555 ,   2015 .   [42]   How H.,   Rat T. ,   R anmatha   R. ,   " Boosted  dec is ion  tre es  for  word  rec ognition  in   handwri tten  doc um ent   ret rie v al ,   in  Proce edi ngs  of  the   Annual   Inte rnational   AC SIGIR  Confe renc on  Re searc and  Dev el opment  in  Informati on  Re tri ev al ,   pp .   37 7 383   2005 .   [43]   Li ang  Y . ,   Fa irh urst  M.,   Guest   R. ,   " s y nthe si ze word  app ro ac to   word  ret rie va in  h andwri tt en   document s , "   Pat te rn   Recogni t ion vo l.  45,   no.   12,   pp .   4225 - 42 36 ,   2012 .   [44]   Fis che A.,   Keller  A.,   Frinken   V.,   et   al .,   " L exi co n - fre handwri t t en  wor spotti ng  usin cha rac t er  HM Ms , Pat te rn  Re cogn it .   Let t v ol.   33 ,   no .   7 ,   pp .   934 - 942,   2012 .   [45]   El fak ir   Y.,   K ha i ss idi   G.,   Mrabti   M.,   Chenouni   D . ,   El   Ya coubi   M. ,   " W ord  spotti ng  in  handwri tten  A rab ic   do c um ent s   using ba g - of - des cri ptors, "   Contem porar Engi ne ering  Sc ie nc es v ol.   9 ,   no .   8 ,   pp .   1 349 - 1357 2016 .   [46]   Te rasa wa   K. ,   T ana ka   Y . ,   " Slit   st y l HO fe ature  for   docume nt  image   wo rd  spotti ng , "   in  Proce ed ing  of   th e   Inte rnational   Co nfe renc on   Doc ument  Ana ly sis  and  Recogni t ion ,   pp .   116 - 120 2 009 .   Evaluation Warning : The document was created with Spire.PDF for Python.