Int ern at i onal  Journ al of Ele ctrical  an d   C om put er  En gin eeri ng   (IJ E C E)   Vo l.   9 , No .   6 Decem ber   201 9 , p p.   5016 ~ 5023   IS S N:  20 88 - 8708 DOI: 10 .11 591/ ijece . v 9 i 6 . pp5016 - 50 23           5016       Journ al h om e page http: // ia es core .c om/ journa ls /i ndex. ph p/IJECE   g raph - b ase a pp ro ach  for  t ext  q uery  e xp ansion  u sing  p seudo  r ele va n ce  f ee db ack and  a ssociatio r ules   m ini n g       Siham J ab ri Az z eddine Dahbi Ta oufiq   Ga di   La bora tor y   Infor m at ic s,  Im agi ng  and  Model li ng  o Com ple S y s tem s,  Facul t y   of  S ci en ce a nd  Tech nolog y ,     Hass an  1 st   Univ ersity   Se tt a t, Morocc o       Art ic le  In f o     ABSTR A CT    Art ic le  history:   Re cei ved   N ov   17 , 20 18   Re vised  Me i   31 , 2 01 9   Accepte J un   27 , 201 9       Ps eudo - rel eva n c fee dba ck  is  quer y   expa nsion   appr oac whos te rm are   sele c te from   set  of  top  ran ked  ret ri eve do cuments  in  response  to  th e   origi nal   qu er y .     How eve r,   the   se le c te te rm will  not  be  rel ated  t the   quer y   if  the   top  ret r ie ved  documen ts  are   irre le v a nt.   As   result ,   re tr ie va per form anc e   for   the  expa nd ed  quer y   is  no i m prove d,   comp are to  th e   origi nal  one .   This   pape suggests   the   use   of  do cu m ent sele c te d   u sing  Ps eudo   Rel ev anc e   Feed bac for  g ene r a ti ng  associ at ion   rule s.  Thus,   a al gori thm  base on  dom i nanc e   relati ons   is   applied.  T hen  the  strong   cor re la t ions  bet wee qu er y   a nd  othe te rm are   de te c te d ,   an an  orie nt ed  an weight e d   gra ph  ca l le Ps eudo - Graph  Fee dbac is  construc te d .   Thi gra ph   serve for   expa nding   original  qu eri es  b y   term rel at ed   sem ant i ca l l y   and   sel ec t ed  b y   th e   user.   The   r esults   of  the   expe ri m ent on  Te xt  Ret ri eva Conf er enc ( TRE C)   col l ec t ion  ar v e r y   sign ifi c ant,  a nd  best  r esult a re  a chi ev ed  b y   t he  proposed   appr oac h   compa red   to   both   the b ase li n s y s te m   a nd  an exi sting   t e chni que .   Ke yw or d s :   Associ at ion   r ules   Do m inance  r el at ion s   Inform at ion   r et rieval   Pseudo - g ra ph  f eedb ac k   Qu e ry  e xp a ns i on   TREC   Copyright   ©   201 9   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Siham  Jab ri,    Lab or at ory  In f or m at ic s,  Im ag ing  a nd  M od el l ing   of Com plex  Syst em s ,   Faculty  of S ci e nce a nd Tec hnology,  Hassa n 1 st   U niv e rsity ,   577  C asa blanc a Roa d,   Sett at , Mo r occo .   Em a il si.jab ri @uh p. ac.m a       1.   INTROD U CTION   The  I nfo rm ati on   Re trie val  ( IR)   dom ai n   is   as  old   as  the   com pu te rs  th e m sel ves ,   its   s yst e m are   or i gin al ly   desi gn e i order   t a uto m at the  docum ents  m a nag em ent  by  st or i ng   a   colle ct ion  of  them   as  ind e x,  then  retrievi ng   inf or m at ion   for  m app ing   t he  us er ’s  qu e ry  to   set   of   a sso ci at ed  doc um ent s.  W it t he  a dvent  of   the  I nternet th vo l um of   do cum ents  and   th nu m ber   of   pe op le   to   m anag hav e   increa s ed  ex pone ntial ly   and  value at   hundre ds   of  m illio ns.  As  res ult,   the  we sea r ch  has  bec ome   sta nda rd  s ource  of  in for m at ion   fin ding.  T his  gro wth o f data   w as a nd sti ll  is a b i c halle ng e f or  i nfor m at i on r et rie val sys tem s.    Most  qu e ries  are  short  an a m big uous  for   descr ibi ng   t he   relevan doc um ents  that  meet   the  us er   inf or m at ion   ne eds.  T his  is  t he   te rm   m is m at c pro blem   in  w hich   the  i nd e xe rs  a nd  the   us er do n’ t   us e   the   sam e   words f or  d e sc ribing the sam e idea. One o f t he  su ccess fu l t echn i qu e s to  ha nd le  the  prob l e m  o te rm   m is m at ch  is  to  re form ulate   the  ori gina qu e ry  by  a dding  relat ed  te r m that  descr i be  the   us e ne ed  a nd  ha ve  not  bee m entioned,  thi process  is  ca ll ed  Query  E xpan sio ( QE) . Qu e ry  Ex pa ns i on   m ay   be  do ne  in  dif fer e nt   ways:  m anu al , in te ra ct ive and a utom at ic . I nteracti ve qu e ry ex pa nsi on   proces s th at  involves b oth  the  syst em  a nd u se r   is  bette than  the  autom at ic   process but  it   is  no feasibl to  involve   t he  us e in  m os of   the  ti m [ 1 2 ]   The  m os t   po pula te ch nique  i the   li te ratur e   is  to  de fine  w ord s   i a   vect or  s pace  a nd  givi ng   wei gh ts  t them Rocchi et   al   [ 3 ]   pro po s ed   cl assic al   re le van ce  fee db ack  m od el   to  fin te xt  si m ilarity   and   ide nt ify ing   rel eva nt  an non - rele van do cum ents.  Othe r   m et ho ds   for  re le van ce  feedba ck  an rankin us e co ntext ua and   word sim i la rity m od el le as c o - occ urren ce   [ 4 - 12]   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J  Elec  &  C om En g     IS S N:  20 88 - 8708       A g r aph - ba se d a pp r oac for  text  q ue ry ex pans io n usin g ps eudo re le va nce  feedb ack  and  . ..   ( Si ham  J abri)   5017   Pseudo   releva nce  fee db ac ( PRF is  one  of  us ef ul  te chn i ques  to  am eliorat e   retrieval  pe rfor m ance.   It  o btain the  exp a ns i on   te r m s   or   phrase from   the  top   ran ke ret rieve doc um ents  i res pons t give qu e ry.  H owev er,  if  the  doc um ents  us ed  f or  this  releva nc feedback  a re   irreleva nt,  the   sel ect ed  exp a ns io te rm i m pact  t he  retrieval  pe rfor m ance  ne ga ti vely   [ 13 ] .   Ar ia nn ez ha e al   [ 14 ]   pro pose ne a ppr oac wh ic c onsider   that  the  docu m ents  co ntaining  m or inf or m at ive  te r m fo PRF  s houl hav e   hi gh e relevanc e   scor e s.  Mo re over an  it erati ve   al gorithm   is  pro vid e f or   e ns uri ng  the  sat isfact ion   of   t he   pro po se d   c onstrai nt   for  a ny  PRF   m od el In  this  reg a rd,  t he  al gorithm   cal culat es  the  fee db ac weig ht  of  te r m and   the   rel evan c e   scor e o fee dba ck  docum ents,  si m ultaneou sly .   Singh   et   al   [ 15 ]   pr ese nted  a n ew  fu zzy   lo gic - base Q m e thod   for  do c um ent  retrieval  bas ed  on   PRF  te chn i qu e s.  T his   ap proach  co m bin ed  the  B orda,  C ondorc et   and  reciprocal   wei gh ts  of   ca nd i da te   exp a ns io te rm s   and   pro du ce sin gle  fu zzy   weig ht   fo e ver ca ndidate   exp a ns i on   t er m .   Then   the  de gr ee  of   im po r ta nce  of   rele van te rm   is   ca lc ulate d,   an the  highe this  degree,   the  hi gh e the  chan ce   to  sel e ct   relevan te r m fo query  exp a ns i on.  F or  filt ering   out  irreleva nt  te rm from   cand i dates,  the   Fu zzy   log ic - ba sed  sem antic   si m il ari t al go rithm are  us ed Colac et   al   [ 16 ]   intr oduce new   te rm   extracti on   m e tho for  qu e ry  ex pan si on.  The  init ia qu e ry  is  exp a nd e with  st ru ct ur e re pr es entat io m ade  of  weig ht ed  word  pairs   extracte fro m   set   of   t rainin docum ents  ( releva nce  fe edb ac k ).   B ouzi ri  et   al   [ 17 ]   propose qu ery  ex pa ns io ap proac base on  associat ion   r ules   between   te rm s.  The  ex pans ion   is  m od el le as  su pe r vised  cl as sific at ion   pr oblem   and   so lv e us i ng   s up erv ise le ar ning  al gorithm Fo this   pur po se trai ning  set   is  ge ne rat ed  us in gen et ic   al gorit hm - based   a ppr oach   t hat  ex plo res  as so ci at io r ules  sp ace  f or   retri evin the  best  exp a ns io te r m s   and   ge ne ra ti ng   trai ni ng  instances  that   are  us e to  buil a   cl assifi er im ple m enting decisi on tree alg ori th m In  our   previ ou s  wo rk   [ 18 ] , a  query e xp a nsi on  a ppr oac ba se on   a exte rn al   structu red   kn ow le dg res ource  nam el W ikipedia,  E xpli ci se m antic   a naly sis  (ESA)   and  associat ion  r ul es  te ch nique  ha bee n   pro pos ed.   The   sem antic   interp retat ion  ES ha be en   us e f or  buil ding   the  expansi on   gr a ph.  The   we  cal culat ed  new   sem antic  relat edn ess  m easur that  com bin es  an  as so ci at ion  ru le s tec hn i que , s em antic   m ea su re   a nd the e xp a ns i on grap av oid in t he  i nclusi on of ir re le van t t erm s.    In   this  pa pe r,   ano t her   que r exp an sio te chn i qu is  intr odu ce us i ng   ps e udo  releva nc feedback   and  ass ociat ion   r ules  for  buil din Pse udo - Gr a ph  Fee dback   in   order  to   ex pa n d   que ries  by  sem antic al ly  relat ed  te rm s selec te by t he user .   T he  c ontr ibu ti ons  of this  work  a re  orga nized   a s foll ow s:   a.   set   of  retrieved  doc um e nts   in  res pons e   to   the  ori gi nal  query  is  sel ect e an judge to  be   rele van f or   gen e rati ng ass ociat ion   r ules  us in a  tech nique  base d on do m inance r el at ion s  [ 19 ]   b.   The  ext racted  ru le al lo to  disco ver   t he  stren gth   c orrelat ion betwee qu e ry  te rm a nd   th c an did a te   on e s,  to   the c on st ru c t   a n o riented a nd  weig hted g raph call ed  Ps eu do - Gr a ph Fee db ac k.   c.   To  a void  t he  i nteg rati on  of  non - sim i la te r m in  the  ex pa nd e queries t he  us er   is  in vit ed  to   sel ect   f r o m   the buil t g raph  the m os t rela te te rm s d escri bi ng   his i n f or m at ion   need.   The  rem ai nd er   of  this   pa per  co ns ist of   t he   pro posed   ap proac a naly sis  prese nted  i S ect ion  2,  resu lt s a nd  discusson re porte in  secti on  a nd the c oncl uti on is  giv e in  the last   par t.       2.   PROP OSE D MET HO A NA L YS I S   In  this  se ct ion,   the  pro posed   appr oach  f or  query  e xpan sio base on  ps e udo  rele van ce   f eedb ac an associat ion  r ul es  is  descr ibe d.  The  ap proac consi sts  of   buil ding,  f ro m   the  retrieve doc um ents  in  respo ns to  giv e qu ery,  the  sem a ntic  gr a ph,  ca ll ed  Pseud o - G raph  Fee dbac k,   w hic re presents  the  ca nd i date  exp a ns i on  te r m s.  Rou ghly t hr ee   m ai ste ps   are  c ar ried  out.  T he  syst em   arch it ect ure of  the  que ry  ex pa ns io is   il lustrate in  Figure  1.   T he  fi rst  ste co ncerns  associat io ru le ge ne rati on  w her the  ve ct or   sp ace  m od el   is   us e f or   ranki ng   te xt  doc ume nts  acco r ding   to  the  giv e qu e ry  [ 20 ] For  the ap plyi ng  an  a sso ci at io r ules  al gorithm   based   on  dom inance  relat ion  that  will   be  detai le la te r.  This   phase  al lo ws  t disco ver  the  stren gt correla ti on s   be tween  docum ent   te rm s   and  ori gin al   query.   The  sec ond  phase  us e d   the  ge ner at e ass oc ia ti on  ru le as  data  s ource  f or   bu il ding  gr a ph  cal le Pseudo - Gr a ph  Feed ba ck.   A third   st ep  the  best  ex pansi on   te rm s ar e extra ct ed  f ro m  the  ge ner at e d gr a ph  b y t he  user a voidin t he  i nclusion  of ina de qu at e   te rm s.     2.1.   Associ ait on ru le s g ener at i on   The  i dea  is   to u se  t he  T F - IDF  of v ect or sp a ce  m od el   to f in a i niti al   set   of  m os releva nt  doc um ents   for  giv e que ry,  to  the est i m at that  the  top   ranke docum ents  are  re le van without  any  us e inte ra ct ion This  process   is  cal le P seu do  Re le va nce   Feed back,  it   a ll ow t a utom at the  m an ual  pa rt  of  rel evan c e   feedbac k.   The   sel ect ed  do c um ents  are  us ed  to   ge ner at e   associat ion   r ules   us in an   al go rithm   based   on  do m inance  rel at ion s .   I al lows  to  ra nk   as so c ia ti on   r ules  acc ordin to  a real  value  a nd   t fi nd   t he  m os relevant   ru le am ong  ve ry  la r ge  dataset s.  T his  al gorithm   us es  a   com bin at ion  of   set   of  m easur e a nd  not  onl y   on [ 19 ].   An   il lustrati ve  exa m ple  of   associ at ion   r ules  al gorithm   p rincipl is  pr ese nted  i Ta ble  1 S u ppos i ng  that  Me asur es   {Supp or t,  Confide nce,  Lift Jacca rd,  GI } .   The  ru le   “R 1”   stric tl do m i nates  the  seco nd   r ule  “R 2”  beca us e   R1(Supp or t)  240,   R1 (Confi den ce 0.8 4,   R1 (Lift)  18 , 35,  R1 (J acca rd)  0,7 an d   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   6 Dece m ber   201 9   :   5016   -   5023   5018   R1(GI )   =   10. 35  w hich   are   al (p ai by  pair)  b i gg e t han  R2 (Supp ort 70,  R 2(Confi de nc e)   =   0.7 2,   R2 (Li ft)   =  10.24, R 2( Jacca rd)   =   0,5 a nd R2(GI)   =   2.9 0. S i m i la rly , R2   dom inate s R3.           Fig ure   1 .   The   pro po se d q uery  ex pa ns i on pr ocess       Table  1 Assoc ia ti on  rules  e xa m ples   R   Su p p   Co n f            Lif t                               Jaccard                                      GI   R1 : colo m b ia  c o cain e   240   0 .84   1 8 .35                           0 .73   1 0 .35   R2 : acid rain   70   0 .72   1 0 .24   0 .56   2 .90   R3 : aids v irus   84   0 .71   1 .52   0 .55   0 .42       Associ at ion   r ules g e ner at io n   proces s fo r   give n qu e ry is e xe cuted  a s in  the  fo ll owin ste ps:   a.   Step  1:   Pr e pro cessi ng   is  an  e ssentia ph ase  in  te xt  m ining  process.  T his  ste trans form the  data  sour ce   con te nts  int a   f or m at   that  w il be  m or ef f ect ively   proces sed  by  s ubseq uen ste ps .   S o,  the  docum ent’s   con te nts  are   to ken iz e a nd  only   te xt  is  kept Af te that  stop  w ords   su c as  com m on   w ords,  prep os it io ns   and   il le gal  cha racters  are  filt ered,  an the  se ntences  a re  ide ntifie d.   T he the  al gorithm   of   Porte [ 21 ]   f or   En glish text  is  us e f or s te m m ing  in flect ed or  d e rivati onal   words to  their  roo f or m   b.   Step  2:   F or   c onstr ucting  the   t ran sact io nal  da ta set   each  keyword  is  c on si de red   as  it em t he  tra ns act io ns  are   represe nted  by   the  se nte nces   an t he  do c um ent  in  wh ic the  occ urred  sentence   re pr e sents   tra ns act i on  el e m ents.     c.   Step  3:   Tra ns a ct ion al   dataset   is  i m po rted,   a nd  the  re fer e nce al gorithm   [ 19 ]   is  app li ed,   it   execu te Apriori   al gorithm   [ 22 ]   to  fin t he  frequ e ncy  of  it em se ts  and  ge ne rates  al ass oc ia ti on   r ules.   Finall y,  sig nifi cant  m easur es t e va l uate an d ran k t he ob ta in ed  rules are  calc ul at ed.   d.   Step  4: Ran king  of irre dunda nt ass ociat ion r ules.       2.2.   Bui ldi ng   of   ps eudo - gr aph  fe edba c k   The pr opos e d gr a ph call ed  Ps eudo - G raph Fe edb ac is  base on t he  ge ne ra te r ules in  t he  f irst p hase This  grap det erm ines  the  ca nd i date  exp a nsi on   te rm s,  and   the  relat ion be tween  them   a nd   the  or igi nal   qu ery .   The  ai m   of   th Pseud o - Gr a ph  Fee dback  is   to  tran s f or m   the  us er  query  into  str uct ured  qu e ry  that  can  be  m app ed  t kn own  te rm s.  So in  this  seco nd  ph a se  the  in flu ence  am on as so ci at ion   ru le s   it e m is  con si der e to  fin d   the  a de qu at te rm s.  The  al gorithm   t buil this   or i ented  a nd   weig hted  gr a ph  G pgf  (V,E, w)   t akes  as   input  set   of   ru le R= {R 1 ,R 2 ,R 3 ,..,R m },w hi ch  are  sel ect ed    a m on   the   gen e rated  r ules  in  the  first  ph a se .   In  these  r ules,  te rm are  corre la te d.   L og ic al ly w hen  te rm   t i   is  relat ed  t the  init ia quer y,   the  te rm   t k   wh ic is  cor relat ed  t t in  so m ru le s,  shou l al so   be  relat ed  to  th qu e ry.  Th us,  any  associat io r ule  R from   m us con ta in   at   le ast   one  query  te r m   or   cor relat ed  te rm   with  t he  query  te rm ,   and   it con fi de nce  m us be  gr eat er   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J  Elec  &  C om En g     IS S N:  20 88 - 8708       A g r aph - ba se d a pp r oac for  text  q ue ry ex pans io n usin g ps eudo re le va nce  feedb ack  and  . ..   ( Si ham  J abri)   5019   than  a   certai n   thres hold.   T he  set   of  no des  V   in  the   Pse udo - Gr a ph  Fee dbac is  t he  set   of  disti nct  te rm t   in  R.   Each   te rm   rep resen ts  grap node and   th relat edn ess  be tween  tw te rm s   rep rese nts  an   ed ge.   Gi ve tw te rm t,t ’    ,they  are  co nn e ct ed  with  dir ect ed  ed ge  if  there  is  at   le ast   on ru le   R j   fro m   in  wh ic and   t   are locate in  the  pr em ise  an d t he  c on cl us io n res pecti vely . In othe r word s, t he  set   of  e dge s E is  form ed  as:         { | }   ,     /           j j j E t t R R t R p r e m i s e t R c o n c l u s i o n    (1)     The  ke aspec of   the  c onstr uction  of  Pse udo - G ra ph   Feed back   is  to  de fine  the  weig hting   functi on      →  [0   ,1 ]   as  the  m axi m um   of   the  con f idence  of  any  associat ion   ru l R j   fr om   R,  w hich  co ntains  t he  two  ver ti ces t a nd t ’  in  the  pr em ise  and the  concl us io n res pecti ve ly .     , '   ,   ,     C o n   f i d e n c e   ( R ( t , t   ')       j j t t E R R w t t m a x    (2)     Fo r   exam ple,  Figure  il lustr at es  possible  Pseudo - Gr a ph  Feed back  res ul ti ng   f r om   the  ge ner at e ass oci at ion   ru le f or  t he que ry “ W at e r po l luti on ”.             Fig ure   2 A  po rtion o the   pse udo - grap h fee dback  usi ng the   associat ion r ul es  f or the  quer   “water  poll utio n”       2.3.   From  pseu do  graph  feed ba c k to the e xpan ded quer y   On ce  Pseud o - G raph  Fee dba ck  is  buil t,  the   nu m ber   of  ca nd i date  te rm gen e rated  sti ll   is  too   la r ge  for  ex pa nd i ng   the  short  us e qu e ry.  T he  us e can  in flue nce   the  exp a nded  qu e ry  by  sel ect ing   ade qu at te rm s   and   i gnor i ng   ba ones.  So,  to   avo i the  incl us io of  la r ge  nu m ber   of  te r m s   wh ic ca neg at ively   in fluen c e   the  inf or m at ion   retrieval  pe rfor m ance,  the   us er  is  aske to  pro vid fe ed bac inf orm at ion   by  sel ect ing   the  te rm that  bette sat isfy  hi inf o rm at ion   need.  It  is  sim ple  f or  him   to  determ ine  w hi ch  of  the  a vai la ble  te rm s   bette descr ibes  his  in te rest.  The  Pse udo - G raph  Fee db ac is  la belle by  set of   te rm extracte fr om   the  associat io r ules  ge ner a te from   the  do c um ents  in  the  ans wer   set it   al low the  syst e m   to  m anage   a m big uiti es.  O nce  the  us e ha sel ect ed  the  relat ed  te r m to  the  qu e ry  fro m   the  gr ap h,   the  te rm are  a dd e to   the origi nal qu ery an t he  re f or m ulate que r y i s p r ocesse d.       3.   RESU LT S  AND DI SCUS S ION   In  this  la st  s ect ion ,   the  ex per im ental   s tud ie to   te st  t he  retrie val   e ff ect ive ness   is  prese nted.   The  dataset   on  wh ic t he  r un s   ar c ondu ct ed  a nd  the   evaluati on  m etr ic us ed   to   te st  the  a ppr oa ch  a re  descr i bed, the n t he ob ta in ed  re su lt s ar e  d isc usse d.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   6 Dece m ber   201 9   :   5016   -   5023   5020   3.1.   Te st  c ollec tion and e va lu ati on metri cs   The  colle ct io TREC   AP 88 90   c hosen   to  app ly   the  pr opose a pproac is  set   of   eng li s ne ws  arti cl es  published   by  Associ at ed  Pr ess  ( 1988 - 1990).The  colle ct ion   co nt ai ns   242  918  do c um ents   with  15 top ic wic re pr ese nt  the  qu eries  and   rel evan ce  judgm e nts  file   m ade  by  do m ai experts .   O nly  50   t it le of   the  TREC   to pics  are  us ed   as  qu e ries  f or  sim ulati ng   sea rc scenari os   wh e r us er te nd  to  su bm it   sh or queries.     In   this  wor k,   the  colle ct ion   of  docum ents   is  ind e xed   us in Lucen e   [ 2 3 ] ,   wh ic is  an  op en - s ource  Ja va   f ull - te xt  search  li br ary.  The  s am li br ary  is  the us e f or  r et riev ing   the  t op  1 , 000  docum ents, f or  each quer y usin the  TF - I DF   of  the  vector   s pa ce  m od el   [ 2 4 ].   The  fo ll owin m e tric are  us e for  evalu at ing   the  inf orm at io retrieval  perf orm ance  of  the   pro pos ed   ap pro ach  by  c om pari ng   t he  respo nse of  syst em   accor ding  t qu e ry   with a  releva nc e judgem ent   [25] :   a.   Pr eci sio n: m ea su res  the  prop ort ion o f rel eva nt doc um ents am on al l d oc um ents r et rieve d by the  syst em   b.   Re cal l:   m easur es the  pro portion o f rel eva nt  do c um ents am ong  al releva nt  d oc um ents in t he  data base.   c.   MAP: M ean  a ver a ge precisi on, w hich  m easur es  the a rea  unde r neath  t he  e ntire r ec al l pr e ci sion .   d.   recip _r a nk : t he  r a nk of the  f ir st releva nt doc um ent.   Each  que ry  in  TREC   colle ction   is  ex pande with  the  e xp ansio te rm s el ect ed  by  the  us er  f r om   the  Pseud o - Graph   Fee dback .   The  ex pande qu e ries  are  an swer e by  the  inf or m at ion   retrieval  syst e m   base on  Luce ne  [ 2 3 ] F or   t he  ba sel ine  m et ho d,  the  or igi nal  qu e ries  ar in te rr ogat ed   wit hout  a ny  ex pa ns io n.   The follo win g runs a re c ondu ct ed  an t he ge ner at e re spo nse s ar e  ev al uated:   a.   Ba sel ine: The  or i gin al   qu e rie s w it ho ut an y e xp a ns i on.   b.   PG F - ap proac h:   Q uer e xp a nsi on   base on  the  Pse udo  G r aph  Fee db ac and  us e i nter act ion   for  te r m s   sel ect ion .   c.   0 - Fil te rin g :   Query ex pa ns io n ba se d on the  P seu do Grap h F eedb ac k wit ho ut an us e inte racti on.   d.   PRF:  Th e  class ic al  Pseudo - Re le van ce  Fee dback tech ni qu e  im ple m ented  usi ng   Luce ne.   The param et ers  f or  t he  e xperi m ents h a ve be en  set  e xperim ental ly  as f oll ows:   a.   The  nu m ber   of  te xt  doc um ent us e in   ass oc ia ti on   r ules  is  fixe to  20  docum ents  retrieved   at   the  t op  of   resu lt s.   b.   The  value of  m easur es  us e in  ass ociat ion  r ules  gen e rati on   are   determ ined  by  ta ki ng  m i nim a values   f or   no e xclu ding   any  im po rtan ru le m inSu pport   =1;  m inConfide nce=0. 1;  m inLift =0. 1;  m inJacard = 0.1;   m inGI = 0.1;   c.   The  c onfide nc thres ho l f or  te rm sel ect i on   from   the  gen e rated  as soc ia ti on   r ules  in  Pse udo - G ra ph  Feed back b uild ing  is  em pirical ly  set to 0 . 7.   d.   The  num ber   of  exp a ns io te r m s   sel ect ed  by   the  us er  ha ve  been   set   to  to   5   te rm s   at  m os t that  al lows  to  get the  best  res ults becau se  in  this case t he q uer ie s a re sh or t .   The   ai m   pr incipal   of   this  w ork   is  to  pr ese nt  si m ple  fo rm   of   inform ation   to   the  us er  in   ord er  to  sel ect   the  a dequate  te rm fo r   query  exp a ns i on.  F or  this  reason,   w pr op os ed   the   Pse udo  Grap Feed bac bas ed   on   associat ion   ru l es  wh ic descri bes  the  vo ca bula ry  te rm s   relat ed  to  giv en  query  an th relat ion bet ween  them In   order  to  eval uate  the   pe rfor m ance  of  this  pro po se a ppr oach,  it   is  reco m m end e to   com par i with  r ecent  que ry  exp a ns i on   a ppr oach e base on  associat io r ules.  But,  despi te   of   us in the   sa m data  collecti on   and  the   sam appr oach es c on tradict ion s   in   r esults  are   detect ed   wh ic pr e ven t   fair  c omparis on  du e   to   us of   la rg va riet of  co nf i gurati on  par am et ers  li ke   ste m m ing   al gorithm s,  sto words  filt ering,  ra nkin m od e ls,  et c.   Ther e f or e,   f or   com par ing   t he  pro po se a ppr oach,  the  sam search   en gin Luce ne  is  us e for  im ple m ent ing   a   m et ho pro pos ed  by  aut hors  [ 17 ]   a nd  detai le in   intr oduction  sect io n,   us i ng  th sam pa ram et ers  value an d   data set  TREC   AP889 0.     3.2.   Results  and  discussi on   Table  2   s hows   the  dif fer e nt  va lues  of  the  M ean  A ver a ge  P recisi on   (MA P ),   an the  rank   of   the  first   releva nt  docu m ent  (r eci p_ra nk)  ob ta ine by  the  syst em   without  an with  usi ng  the   pro po se e xpansi on   te chn iq ues .   F or  eac qu e ry  the  MA P,  reci p_ra nk   an t he   rate  of   im prov em ent  com par ed   to  t he  ba sel ine   (MAP - Gai n)  a re  cal culat e d.   Re gardin t he  resu lt s obtai ne a nd  s um m arized  i Ta ble 2 ,   it   can b e seen  that  the  pro po se quer exp a ns io te chn i qu e   achie ves  si gn i ficant  im pr ov em ent  in  te rm of  MAP  a nd  reci p_ra nk  com par ed  t o   th e b asel ine  and  oth e r uns  (0 - F il te ring , PR F a nd AG - a ppr oa ch).       Table  2 C om par iso n of t he ru ns   with  res pect to the  b a sel ine  and a e xisti ng alg ori thm   Ru n   MAP   recip_ rank   MAP - Gain   PGF - ap p roach   0 ,20 0 4   0 ,51 0 9   86%   AG - ap p roach  [ 1 0 ]   0 .18 4   0 .44 5 4   71%   PRF   0 ,13 4   0 ,40 4 6   25%   0 - Filtering   0 ,13 6 5   0 ,40 7 1   27%   Bas elin e   0 ,10 7 6   0 ,36 8 5   -   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J  Elec  &  C om En g     IS S N:  20 88 - 8708       A g r aph - ba se d a pp r oac for  text  q ue ry ex pans io n usin g ps eudo re le va nce  feedb ack  and  . ..   ( Si ham  J abri)   5021   The  i ncr ease   of  MA m eans  that  w he nev e the  qu e ry  c on t ai ns   m or relevan t   query   ex pa ns io te rm s   the  nu m ber   of  releva nt  do c um ents  is  increasing.  This  see m s   cl ear  in  PG F - a ppro ac h,   t he   rate  of   im pr ovem ent   is  +86 t han   t he  ba sel ine.  W hile  the  A G - a ppr oac achie v e 71%  of   im prov em ent.  So,  the  use   of  the  P seu do  Gr a ph  Fee dba ck  with  t he  use inter act ion  f or  ex pa ns io t erm filt ering   i m pr ov es  t he  re trie val  ef fecti ve ness.   In   th othe ha nd,  the  MA of  0 - Fil te rin lo ok bette tha the  baseli ne  a nd   PRF,  they   hav a ppr ox im at el 27%  a nd  25%   i m pr ovem ent  ov er   the   baseli ne   res pecti vely This  m eans  tha the  te rm co m po sed  the   Ps eudo - Gr a ph  Fee dba ck  e ve without  filt erin pr ocess  a re  m ore  releva nt  for  refor m ulati ng   the  que ries  th an  PR F   te rm s r et rieved by the  classi ca l Pseu do Rel ev ance Fee dbac k p ro ces s.    Figure  pr ese nts  the  pr eci si on  w hen  X   docu m ents  are  retrieved  (P @ X ).  X   de no te the p r oport ion  o f   releva nt  docu m ents  in  the  to docum ents  in  the  ret urn ed  li st  fo gi ven   queries.  X   is  set   to  5,   10 15 ,   20  and   30   res pec ti vely I i ob ser ve d   that  usi ng   the  P seu do - G ra ph   Fee db ac a nd   the   us er  interact i on   for   sel ect ing   the   e xp a ns i on  te rm s,  le ads   to   the   i m pr ovem ent  of  the   ret riev al   eff ect ive nes w he c om par ed   to   the  baseli ne  a nd   oth e a ppr oa ches.  T he  us e interact io in   this  ap proac h   ens ur e that  t he  exte nded  queries  con ta ini ng a de qu at e te rm s.            Fig ure   3 .   Im prov em ent p e rce ntage  i n P@ X       Fo e xam ple,  the  P GF - a ppr oa ch  preci sio ns   a re  0,3 42  an 0. 293  f or  the  to five  a nd   t op   te retrie ved  do c um ents  resp ect ively w hile  the  baseli ne   br in gs   on ly   0, 19 (+ 78% an 0.1 72   ( +70%).  F or  th AG - appr oach  0.2 67(+ 39)  a nd  0.2 265(+3 2),  a nd  for  0 - filt ering  ap pr oach  0.2 25  (+ 17%)   an 0.197 (+15% ).   These  exp e rim ents  of fer   the  a dv a nta ge  to  ra nk   t he  r el evan doc ume nts  acco rd i ng  to  queries  in  th top   of  res ults.Thi s   perform ance  cou l be  e xp la i ned  by  t he  us e   of  the   ass ociat ion   ru le te c hniq ue  base on  m ulti ple  crit eri f or  bu il di ng  t he  Ps eudo  G ra ph  Fe edb ac k.  T his algorit hm  is eff i ci ent  to r an a nd   a nd   kee p   on ly  i m po rtant r ul es b consi der i ng  m ulti ple  m easur es  an do m inance  relat ion s.   The  value gr a ph  is  sim ple  and  str uctu red  form   of  inf or m at ion r epr ese ntin th cor r el at io ns   betwee query   te r m and   th cand i date’s  on e s,  an the  edg e s   represe nt  the  se m antic   relat ion bet ween   th e m The  nu m ber   of   e xp a ns i on  te rm can  be  too   la rg for   sh ort   qu e ries  e ng e nderi ng   l ow  pe rfor m ance.  F or  ens uri ng  tha the  ex pande que ries  will   co ntain  the  a dequat e   te rm s,  the  ge ne rated  grap is   presente t t he  us er   f or  sel ect ing   t he  best  ex pansi on  te r m s.  This  phase   has   po sit ive  im pact  fo e xpan ding  the  qu e ries  with  ade quat te rm and   i m pr ov i ng   t he  retri eval  eff ect i veness.  F or   AG - ap proac h,   pr ese n te by  bouzi ri  et   al   [1 0]   add te rm s   e xtracted  f r om  t he  associat io ru le to  the  ori gin al   qu e ries.  T he  r ules  ge ner at e by  Charm   alg ori thm   fr om   the  w ho le   doc um ents  colle ction   are  m od el le as  cl assifi cat ion   pro blem   and   r esolve by  the   decisi on   tree  al gorithm   fo detect ing   the  best  te rm fo qu e r y   exp a ns i on.  Des pite  of   the  prec isi on   in  the  pr oc ess  of   sel ect in releva nt  te rm s,  irreleva nt  on es  can  be  ad de to  the origi nal qu ery.       4.   CONCL US I O N   The  pro po s ed  qu e ry  e xp a ns i on  ap proac e xp a nds  qu e rie with  te rm sel ect ed  by  the   us e f r om  Pseudo - Gr a ph   Feedb ac k.   T hi gr ap is  buil us ing   the  associat ion   r ule gen e rated  by   te chn iqu e   us ing  m ul ti ple  crit eria  and  do m inance  relat ion s .   The   ex pe rim ental   stu dy  w as  co nducte on  TREC   AP889 Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  9 , N o.   6 Dece m ber   201 9   :   5016   -   5023   5022   colle ct ion O ur  m et ho le ad to  sign ifi ca nt ly   i m pr ov e retrieval  pe rfo rm ance,  and   e xceeds  the  ba sel ine   sign ific a ntly In   te rm of   Me an  A ver a ge  P r eci sion   (M AP )   the  propose appr oach   has  appr ox im at ely   86 %   ov e the  baseli ne,   al th ough  the  im pr ov em ents  at ta ined  by  the  com par ison   m et ho do n’ ou t perf orm   71% .   This  c onfirm that  the  a sso ci at ion   ru le s   te chn i qu e is  a   si gn i ficant  way  to  prese nt  sim ple  and   str uc ture form   of   in for m at ion ’s  to   th us e in   the  form   of   gr a ph  for  sel ect in adequate   te rm f or   e xpa ns io n.   A s   per s pecti ves ot her   data  s our ces  and   te xt  m ining   al gorithm will  be  us ed  f or   sel ect ing   a nd   rankin quer y   exp a ns i on term s.       REFERE NCE S     [1]   D.  Pal,   et   al . ,   Expl oring  qu er ca t egor isation  f or  quer y   exp ansion:   stud y , ”  a rXiv   preprint   ar Xiv:1509. 05567,   2015.   [2]   C.   Buckl e y ,   et  al .,   The   eff e ct   of  addi ng  r el ev anc i nfor m at ion  in  re le van ce   fe edbac envi ronm ent ,”   SIGIR’94 ,   Sprin ger ,   London pp.   292 - 300 1994.   [3]   J.  Rocc hio    and   G.  Salt on,   “T he  SM ART  r et ri eva s y st em , ”  Re levanc feedbac in  inf or mation  retrie val ,   pp.   313 - 323 ,   19 71.   [4]   A.  I lgarriff ,   e a l . ,   Itri - 04 - 08  the  sketc engi ne , ”  I nformation  Tech nology ,   vol .   105 ,   pp.   116,   2004.   [5]   Y.   Matsuo   and   M.   Ishizuka ,   Ke y word  ex tra c tion  from   singl document  using  word  co - occ urre nce   sta ti sti c al  informati on , ”  In t ernati onal   Journ al  on  Arti f ic ia I nte lligen ce  Tools ,   vol. 13, pp. 15 7 - 169,   2004 .   [6]   E.   Te rra   and  C .   L .   Cl ark e ,   Freque nc y   esti m a te for  sta ti sti c al   word  sim il ar ity   m ea sures , ”  Proc.   The  200 3   Confe renc of  th North  Ame ri ca Chapte of  th e   Associat ion  for  Computati onal  Linguisti cs  on  H uman  Language   Technol ogy ,   As sociation  for   Co m puta ti onal L in guisti c ,   vol .   1 ,   p p.   165 - 172 200 3.   [7]   G.  Cao,   et   al .,   Sele c ti ng  good  expa nsion  t erms   for  pseudo - rele vanc f ee db ac k ,”   Proc ee d ings  of  the   31st  annua int ernati ona l AC SIGIR confe r enc e   on  Re searc and  de velopme nt  in   inf or mation   retrieval ,   pp .   24 3 - 250 2008 .     [8]   S.  E.  Rober tson   and  K .   S.   Jone s,  Rel e v anc e   w ei ghti ng   of  se ar ch  t erms ,”   Journal  of   the  Ame r ic an  So ci e ty  for  Information  sci e nce ,   vol .   27 ,   pp .   129 - 146 1976 .   [9]   Y.  Lv   and  C.   Zha i ,   Pos it iona releva n ce   m odel   f or  pseudo - rel ev ance  feedbac k ,”   Proceed ings  of  the   33rd  int ernati ona l AC SIGIR confe r enc e   on  Re searc and  de velopme nt  in   inf orm ati on   retrieval ,   pp .   57 9 - 586 2010 .   [10]   J.  Alla n ,   Re le v anc e   fe edback  w it too   m uch  d ata ,”   SIGIR ,   v ol .   9 5,   pp .   337 - 343 1995 .   [11]   S.  Yu,  et  al .,   I m proving  pseudo - rel ev ance  fee d bac in  web  inf orm at ion  ret r ie v al   using  w eb  pa ge  segm ent ation ,”   Proce ed ings o f   t he  12th   internati onal  con fe ren ce   on  World  Wid e Web ,   pp .   11 - 18 2003 .   [12]   S.  Jabri,   e al .,   Ranki ng  of  te x documents  using  TF - IDF   weight ing  an association  rul es  m ini ng ,”   2018  4th   Inte rnational   Co nfe renc on   Opti mization  and  Ap pli cations ( ICOA) ,   pp.   1 - 6 2018 .   [13]   C.   Mac dona ld   a nd  I.   Ounis,  Expe rti se  dr ift   and  quer y   expa nsion   in  expe r sea r ch ,   T he  six te en th  ACM  conference   on  Confe ren ce o inf orm ati on   an knowledge   management ,   ACM ,   pp.   341 - 350 20 07 .   [14]   M.  Arian ne zha d ,   e al . ,   It era t i ve  Esti m ation  o Docum ent   Relevance  Score   fo Ps eudo - Rel ev a nce   Fe edba ck ,   European  Conf e renc on   Inform ati on  Re tri ev al .   Springer ,   Cham,   pp.   676 - 683 20 17 .   [15]   J.  Sing h,   et   a l . ,   Fuzz y   logi c   h ybrid  m odel   wi th   sem ant ic  filtering  appr oa ch  for   pseudo  re le van ce   f ee db ac k - bas ed   quer y   exp ansion , ”  Computa ti ona Int el l ige nc ( SSCI) ,   2017  IEEE   Symposium Se ri es  on.   IEEE ,   pp.   1 - 7 2017 .   [16]   F.  Cola ce,  et   al . ,   Im proving  rel eva n ce   fe edba c k‐ba sed  quer y   e xpansion  b y   the  use  of  weig hte word  pai rs   appr oac h ,   Jour nal  of   the A ss ociation  for   Information  S ci en ce an Technol og y ,   v ol.   66 ,   pp .   2223 - 2234 2015 .   [17]   A.  Bouzi r i,   et   al . ,   Le arn ing  quer y   exp ansio from   associa t i on  rule b et we en  term s , ”  Kno wle dge  Dis cov e ry,   Knowle dge   Enginee ring  and   Kn owle dge   Manag eme nt  ( IC3K) ,   2015  7th  In te rnat ional   Joi nt   Conf ere nce  on,   IE EE ,       pp.   525 - 530 20 15 .   [18]   S.  Jabri,   et   al . ,   Im proving  Ret rie va Perform anc Based  on  Qu er y   Expa nsion  with  W ik ipe di and  Te x Minin g   Te chn ique , ”  In t.  J.   In tell. E ng .   S y st ,   vol .   11 ,   pp .   2 83 - 292,   2018 .   [19]   A.  Dahbi,   e al . ,   new  m et hod  for  ran king  association  rul es  with  m ult ipl cri t er ia   base on  dom ina nc relati on ,   Computer  System and  Appl ications  ( AICCSA ) ,   2016  IE EE / ACS  13th  Int ernati onal  Conf ere nce   o f.   I EEE ,   pp.   1 - 7 2016 .   [20]   G.  Salt on,   et   a l . ,   vec tor  s pac m odel   for   aut om at ic   indexing , ”  Comm unic ati ons  of  th e   ACM ,   vol.   18 ,   pp.   613 - 620 19 75 .   [21]   M.  Porter,   PorterSte m m er   (ja va  v ersi on)   [Software] ,”  1980 . .   A vai l abl e htt ps // t artarus.org /   m art in/ PorterSt e m m er/ inde x - old.htm l.   [22]   R.   Agrawal ,   Fast  al gor it hm for  m ini ng  association  rul es , ”  20th  int.  conf.   ve ry  large  da t bases,  VLDB ,   pp.   487 - 499 19 94 .   [23]   Luc en e .   Availab le :   htt p :l uc ene.apac he . o rg/ cor e .   [24]   G.  Salt on  and  C.   Buckl e y ,   T erm - weight ing  a pproa che in  au tomati te x ret r ie va l ,   Informat ion  proce ss in g   &   management vo l.   24 ,   pp .   513 - 52 3 1988 .   [25]   A.  Bacci ni ,   e al . ,   Anal y s des  c rit èr es  d'évalua t i on  des  s y st èmes  de  re che rch d ' in form at ion.   Tech nique   e Sci ence  Inform at ique s ,   vol.   29 ,   pp .   289 - 308 2010 .           Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J  Elec  &  C om En g     IS S N:  20 88 - 8708       A g r aph - ba se d a pp r oac for  text  q ue ry ex pans io n usin g ps eudo re le va nce  feedb ack  and  . ..   ( Si ham  J abri)   5023   BIOGR AP HI ES OF  A UTH ORS        S iham  Jabri   i Business   Inte ll ig ence   Engi ne er,   gra dut ed  fr om   the   fac ulty  of  scie nce   an te chno logi es  (H assan  First  Univer sit y   of  Set ta Morocc o)  in  201 4.   Since   2015 ,   s he  is  pre par ing  h er  Ph.D  in  the   L a bora tor y   of  Info rm at ic s,  Im agi n and  Modeli ng   of  Com ple S y stems   ( LII MCS ) .   She  is worki ng   o Natur a l La nga ge  Proce ss ing   an Data m ini ng .         A z z ed din Da h bi   got  his  Bac hel or  degr ee   in  co m pute scie nce   i 2010  from  the   fac ul t y   of  sci en c e   and  t ec hniqu es  u nive rsit y   H assan  1st  Settat ,   Moro cc o.   Followed   b y   Mast er  d egr e in   m at hemat ic and  app li c at ion   from   the  sam fac u lty .   Now   pre par ing   his  P h. degr ee   in  t he  L abor a tor y   of  Inform at ic s,   Im agi ng  and   Modeling  of  Com ple S y stems   (LI IMCS ).   His  rese arc h   int er ests  includ e   knowledge   d isco ver y   from   da ta b ase .         Taou fiq  Gadi   is   Profess or  on  computer   sci e nce   a th fa cult y   of   scie n ce   a nd  te chno logi es  (Hass an  First  Univer sit y   of  Se ttat  Morocc o) .   Si nce   2014,   he  is   the   Dire ct or  of   the   Inform atics ,   Im agi ng  and  Modeli ng  of  Com ple S y st ems   La bora tor y .   He  h as  conduc t ed  m ore   tha t ens  PhD  the ses  and  writte fifty   of  sci en ti fic   p ape rs  in  th dom ai of  3D  m odel ana l y s is,   m odel Driving  Archi tectur e ,   D a ta m ini ng  and  Da ta base   Anal y sis,   Modeli ng  of   Co m ple S y st ems .       Evaluation Warning : The document was created with Spire.PDF for Python.