I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   7 ,   No .   1 Feb r u ar y   201 7 ,   p p .   4 3 2 ~ 4 5 0   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v7 i 1 . p p 4 3 2 - 4 5 0          432       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Co ntext  Se nsitiv Sea rch St ring  Co m po sitio Alg o rit h m  using   User Int ention  to  H a ndle  A m big uo us K ey w o rds       U m a   G a j endra g a d k a r 1 , S a ra ng   J o s hi 2   1 COEP ,   S a v it rib a i   P h u le   P u n e   Un iv e rsit y ,   P u n e ,   M a h a rsh tra,  In d ia   2 P ICT ,   S a v it rib a i   P h u le  P u n e   U n i v e rsit y ,   P u n e ,   M a h a rsh tra,  In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   5 ,   2 0 1 6   R ev i s ed   No v   1 2 ,   2 0 1 6   A cc ep ted   No v   2 6 ,   2 0 1 6       F in d in g   th e   re q u ired   URL   a m o n g   th e   f irst   f e w res u lt   p a g e s o f   a   se a rc h   e n g in e   is  stil a   c h a ll e n g i n g   tas k .   T h is  m a y   re q u ire  n u m b e o f   re f o r m u latio n o f   th e   se a rc h   strin g   th u a d v e rse l y   a ff e c ti n g   u se r' se a r c h   ti m e .   Qu e r y   a m b ig u it y   a n d   p o ly se m y   a re   m a jo re a so n f o n o o b tai n in g   re lev a n re su lt in   th e   to p   f e w   r e su lt   p a g e s.  Eff icie n q u e ry   c o m p o siti o n   a n d   d a ta  o rg a n i z a ti o n   a re   n e c e ss a r y   f o g e tt in g   e ff e c ti v e   r e su lt s.  Co n tex o f   th e   in f o r m a ti o n   n e e d   a n d   th e   u se in ten m a y   i m p ro v e   th e   a u to c o m p lete   fe a tu re   o f   e x isti n g   se a rc h   e n g in e s.   T h is  re s e a rc h   p ro p o se a   F u n n e M e sh - 5   a lg o rit h m   (F M 5 to   c o n stru c t   a   se a rc h   strin g   tak in g   i n to   a c c o u n t   c o n tex o f   in f o rm a ti o n   n e e d   a n d   u se in ten ti o n   w it h   th re e   m a in   ste p 1 P re d ict  u se in ten ti o n   w it h   u se r   p ro f il e a n d   t h e   p a st   se a rc h e v ia  we ig h ted   m e sh   stru c tu re   2 Re so lv e   a m b ig u it y   a n d   p o ly se m y   o f   s e a rc h   strin g w it h   c o n tex a n d   u se i n ten ti o n   3 )   G e n e r a te  a   p e rso n a li z e d   d isa m b ig u a ted   se a rc h   strin g   b y   q u e r y   e x p a n sio n   e n c o m p a ss in g   u se r   in ten ti o n   a n d   p re d icte d   q u e ry .   Ex p e ri m e n tal  r e su lt f o r   th e   p r o p o se d   a p p ro a c h   a n d   a   c o m p a riso n   w it h   d irec u se   o f   se a rc h   e n g in e   a re   p re se n ted .   A   c o m p a riso n   o f   F M 5   a lg o rit h m   w it h   Ne a re st   Ne ig h b o r   a lg o rit h m   f o u se in ten ti o n   i d e n ti f ica ti o n   is   a lso   p re se n ted .   T h e   p ro p o se d   s y ste m   p ro v id e b e tt e p re c isio n   f o se a rc h   re su lt f o a m b ig u o u se a rc h   strin g w it h   i m p ro v e d   id e n ti f ica ti o n   o f   th e   u se in ten ti o n .   Re su lt a re   p re se n ted   f o En g li sh   lan g u a g e   d a tas e a w e ll   a M a r a th (a n   In d ia n   lan g u a g e d a tas e o f   a m b ig u o u s se a rc h   strin g s.   K ey w o r d :   Au to co m p letio n     C o n te x t   Data   m i n i n g   Sear ch   User   in te n tio n     Co p y rig h ©   2 0 1 7   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   U m Gaj en d r ag ad k ar ,   C OE P ,     P h o n +9 1 9 8 2 2 4 7 9 1 2 8 G7 /9   O m k ar   Gar d en ,   Ma n i k b au g ,   P u n e,   Ma h ar s h tr a,   I n d ia .   E m ail:   u m ag ad k ar @ g m a il.c o m       1.   I NT RO D UCT I O N   C u r r en s ea r c h   en g i n es  c h u r n   lar g v o l u m o f   d ata  to   o b ta in   m ea n in g f u l   in f o r m a tio n ;   h o w e v er ,   th e   m ai n   ch alle n g is   to   g et  r ele v an r es u lt s   in   t h to p   f e w   r esu lt  p ag e s   [1 ] ,   [ 2] .   Sear ch   en g in e s   ch ec k   f o r   th e   p r esen ce   o f   k e y w o r d s   i n   d o cu m e n t s .   Me r p r esen ce   o f   k e y w o r d s   in   d o cu m e n m a y   n o m atc h   th e   u s er ' s   s ea r ch   i n te n tio n   a n d   n ee d .   U s er   s atis f ac tio n   i n cr ea s es   w h en   m o r r ele v an t   an d   e x ac t   in f o r m atio n   is   p r esen ted   in   th to p   f e w   r es u lts .   An   ap p r o p r iately   co m p o s ed   q u er y   is   th s tar ti n g   p o in   f o r   h an d li n g   th i s   ch alle n g e   [ 3 ] P er f o r m a n ce   o f   s ea r c h   e n g in e s   ca n   b i m p r o v ed   w it h   t h u s o f   ap p r o p r iate  k e y w o r d s   o r   p r ed ictio n   o f   s u c h   k e y w o r d s   [4 - 6] .   Sear c h   en g i n es u s s ea r c h   lo g s   a n d   m o s t p o p u lar   q u er ies;   h o w ev er ,   t h ese   ar n o t s u f f icien t   to   p r ed ict  th u s er ' s   i n ter est s   o r   in ten tio n   [ 7 ] .   User s   ar o f   th r ee   t y p e s ,   f ir s -   I n ter n e s k illed   u s er s ,   s ec o n d   -   I n ter n et  a w ar u s er s   a n d   th ir d   -   I n ter n et  u n s k illed   u s er s .   Ma n y   ti m es,  u s er s   d o   n o k n o w   t h p r o p e r   k e y w o r d s   f o r   s ea r ch i n g   i n f o r m a tio n   an d   th e y   ca n n o t   ex p r ess   t h eir   i n f o r m atio n   n ee d   o r   in ten t     o f   s ea r ch   [8 ] ,   [ 9] .   T h is   r es u lts   i n   s ea r c h   r es u lt s   o f ten   n o t   s atis f y in g   u s er ' s   in f o r m a tio n   n ee d .   T h is   p r o b lem   ca n   b ad d r ess ed   b y   q u er y   e x p an s io n   a n d   r ef o r m u latio n   [ 3 ] Sear ch   e n g i n e s   p r o v id a u t o co m p letio n s   o f   q u er ie s   b ased   o n   p o p u lar it y   [ 1 0 ] h o w e v er ,   th e y   ar e     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   4 3 2     450   433   in ad eq u ate   [ 1 1 ] ,   [ 12] .   A lt h o u g h   d if f er en u s er s   m a y   u s t h s a m q u er y   k e y w o r d ,   t h eir   in te n a n d   co n te x t   m a y   b d if f er en t.  C u r r en s ea r ch   en g i n es   p r o v id th s a m e   r esu lt s   to   all  u s er s   u s i n g   th e   s a m k e y w o r d s   at  a   g iv e n   p o in t i n   ti m e.   P er s o n aliz atio n   is   d esira b le  to   b etter   s atis f y   t h n ee d s   o f   t h u s er   [ 1 3 - 15]   T h f o llo w i n g   ex p er i m en ill u s tr ates  t h is   f u r th er .   I f   u s er   s e ar ch es  f o r   ' Mic h ae J ac k s o n '   t h en   s ea r ch   en g i n e s   r etu r n   r esu lts   f o r   th f a m o u s   s i n g er   Mic h ae J ac k s o n   i n   m aj o r it y   o f   r e s u l p ag es.  T h ese  r esu lt s   w o u ld   b tr ea ted   as ir r elev an t a n d   in c o r r ec t if   th u s er   in te n w as to   s ea r ch   f o r   p r o f ess o r   Mic h ae l J ac k s o n .         T ab le  1 .   E x am p le  s ea r c h   q u er y   d o n o n   Go o g le   [1 6 ]   o n   2 9 t h   Ma y   2 0 1 5   r esu lt r o w s   Q u e r y   S t r i n g   M i c h a e l   Jac k so n   M i c h a e l   Jac k so n   p r o f e sso r   T o t a l   R e su l t s   A b o u t   3 9 , 0 0 , 0 0 , 0 0 0   A b o u t   7 , 8 9 , 0 0 , 0 0 0   r e su l t s   S e a r c h   R e s u l t s a s   S i n g e r   F i r st   1 3   p a g e s a n d   a f t e r   P a g e   3   -   5 t h   r e su l t   S e a r c h   R e s u l t s a s   P r o f e sso r   P a g e   1 7   8 t h   r e su l t   F i r st   p a g e   S e a r c h   R e s u l t s a s   S o f t w a r e   D e v e l o p me n t   P a g e   1 3   l a s t   r e su l t   S e c o n d   p a g e   2 n d   r e su l t   S e a r c h   R e s u l t s a s   V P     P a g e   1 6   4 t h   r e su l t   N o t   p r e se n t   i n   t h e   f i r st   2 0   p a g e s       As  s h o w n   i n   T ab le  1 ,   w h e n   o n s ea r ch e s   f o r   t h q u er y   s tr in g   'M ich ae l J ac k s o n ' ,   r es u lt s   f o r   th s i n g er   ' Mic h ae J ac k s o n '   ar r etu r n e d   in   th f ir s 1 3   p ag es  w h er ea s   n o   r esu lt  is   r et u r n ed   f o r   th e   p r o f ess o r   ' Mic h ae l   J ac k s o n ' .   W ith   ea c h   p ag co n tai n in g   1 0   r esu lt s ,   th r elev an r esu lts   s tar ap p ea r in g   af t er   1 3 0   r esu lt  r o w s .   Ho w e v er ,   w h e n   w o r d   ' p r o f ess o r '   i s   ad d ed   to   th q u er y   s tr in g   ' Mic h ae J ac k s o n ' ,   th r esu lt s   f o r   p r o f ess o r   Mic h ae J ac k s o n   ar s ee n   i n   th f ir s r es u lt  p a g its e lf .   T h is   d e m o n s tr ates  th at  if   k e y w o r d s   b ase d   o n   u s er   in te n tio n   ar u s ed   th e n   b etter   h its   ca n   b o b tain ed   in   th f ir s f e w   s ea r ch   r esu lt  p ag es.  Qu e r y   e x p an s io n   b ased   o n   u s er   i n ten tio n   h as s h o w n   to   g iv b etter   s ea r c h   r esu l ts   o v er   lar g d ata  s ets li k W eb   [ 7 ] ,   [ 1 7 ]   T h u s   u s er   in te n tio n   ca n   b u s ed   to   d is am b i g u a te  q u er y   [ 1 8 ] .   User   co n tex ca n   i n cl u d p ar am eter s   s u c h   as  'g e n d er ' ,   ' a g e ' ,   ' to p ic' ,   l o ca tio n '   etc.   I t c an   b s h o r t - ter m   [ 1 1 ]   o r   l o n g - ter m   [ 1 8 ] .     I n   th p r o p o s ed   m et h o d ,   u s er   in ten t io n   is   id e n ti f ied   w it h   th h elp   o f   u s er   p r o f ile  co n tain i n g   p ar am eter s   li k 'g e n d er ' ,   ' p r o f ess io n ' ,   ' i n ter ests ' ,   ' lo ca tio n a n d   p ast   s ea r c h e s .   U s er   i n te n ti o n   id en t if ied   w it h   FM5   alg o r it h m   is   u s ed   to   r ef o r m u late  t h q u er y .   T h is   p ap er   b r in g s   to g et h er   d i f f er e n I R   ( I n f o r m atio n   R etr iev al)   ar ea s   li k Q AC   ( Qu er y   a u to co m p letio n ) ,   Qu er y   P er s o n aliza tio n   a n d   au to m atic  q u er y   e x p an s io n .   Ou r   co n tr ib u tio n s   ar e :   1 )   A   n o v el  u s er   i n te n tio n   id e n t if icatio n   alg o r it h m   is   p r o p o s ed   to   p r e d ict  u s er   in te n tio n .   2 )   Qu er y   ex p a n s io n   is   d o n u s in g   id en ti f ied   u s er   in te n tio n   to   g et  i m p r o v ed   p r ec is io n   f o r   a m b i g u o u s   s ea r c h   s tr in g s .   3 )   E x p er im e n tal  ev al u atio n   o f   th m eth o d   is   co n d u cted   w it h   d ataset  co llected   f r o m   u s er s .   T h r esu lts   r ef lec t   i m p r o v e m en t i n   u s er   in ten tio n   id en tific atio n   a n d   p r ec is io n   o f   s ea r ch   r esu l ts .   4 )   R esu lts   o f   q u er y   e x p an s io n   u s i n g   t h id en tifie d   u s er   i n ten tio n   ar co m p ar ed   w it h   t h r esu lt s   o f   Go o g le   s ea r ch   en g i n [ 1 6 ]   d i r ec tly   a s   f ir s b aseli n an d   also   w it h   r esu l ts   o b tain ed   f o r   a m b ig u o u s   q u er ie s   b y   C h ir ita   et  al  [ 7 ]   as a   s ec o n d   b aselin e.   I n   th is   p ap er ,   Sectio n   2   d escr i b es  th r elate d   w o r k .   Sectio n   3   ex p lain s   d ata  d escr ip tio n   an d   h o w   it  is   u s ed   b y   th p r o p o s ed   s y s te m   w h ile  Sectio n   4   d escr ib es  th FM5   u s er   in te n tio n   id en ti f icatio n   alg o r ith m .   R es u lts   a n d   d is cu s s io n   ar d escr ib ed   in   Sectio n   5 .   C o n cl u s io n   is   p r esen ted   in   Sectio n   6 .       2.   R E L AT E WO RK   2 . 1 .   Aut o co m p let io ns   a nd   P er s o n a liza t io n   B h atia  et  a l.  [ 1 9 p r esen ts   w o r k   w h er p h r a s es a n d   n - g r a m s   ar m i n ed   f r o m   te x t c o llec tio n s   an d   u s ed   f o r   g en er ati n g   au to co m p letio n s .   Mo s p o p u lar   co m p let io n   i.e .   au to co m p let io n s   b ased   o n   p ast  p o p u lar ity   o f   q u er ies  in   q u er y   lo g s   ar m o d eled   in   B ar - Yo s s e f   an d   Kr au s 's  w o r k   [ 20 ],   [ 2 1 ] .   C o m m er cial   s ea r ch   en g in e s   u s e   MP C   ( m o s p o p u lar   co m p leti o n )   f o r   q u er y   au to co m p leti o n   [ 20 ].   Oth er   q u er y   a u to co m p let io n   m eth o d s   in cl u d p er s o n alize d   au to co m p letio n ,   co n tex b ased   au to co m p letio n   u s in g   p r ev io u s   q u er i es  b y   u s er   [ 20 ] ,   ti m e   b ased   au to co m p l etio n   [ 22 ] ,   ti m a n d   co n te x t   b ased   a u to co m p letio n   [ 21 ].   Ho m o l o g o u s   q u er ies   an d   s e m a n tical l y   r elate d   ter m s   ar u s ed   to   g e n er ate  au to co m p leti o n s   b y   C a i e t a l.   [ 1 2 ]   P er s o n aliza tio n   o f   q u er y   r es u l ts   b y   u s in g   th i n ter est s   o f   u s e r s   is   d o n b y   m an y   r esear ch er s   [ 23 - 26 ] .   User   p r ef er en ce s   ar co llect ed   b y   eit h er   i m p lici o r   ex p licit  m et h o d .   Gen d er   an d   ag ar u s ed   f o r   p er s o n alizin g   t h r esu lt s   b y   Kh ar ito n o v   an d   Ser d y u k o v   [ 27 ] .   User   co n tex b ased   o n   th e ir   r ec en q u er ies  is   g en er ated   an d   u s ed   to   r an k   th q u er y   r es u lts   i n   s ess io n   b y   Xian g   et  al   [2 8 ] .   Mo s o f   th r esear ch   co n d u cted   is   f o r   p er s o n alizi n g   th q u er y   r esu lt s   b y   r er an k in g   t h e m   u s i n g   u s er   p r o f ile  r at h er   th a n   q u er y   a u t o co m p letio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     C o n text  S en s itive  S ea r ch   S tr in g   C o mp o s itio n   A lg o r ith u s in g   User   I n ten tio n   to     ( Uma   Ga jen d r a g a d ka r )   434   T h is   p ap er   p r o p o s es  an   alg o r ith m   th at  u s e s   p er s o n aliza ti o n   f o r   q u er y   co m p letio n   o r   au to co m p letio n s   i n   s ea r ch .   An   i m p r o v e m e n i n   a u to co m p letio n   r an k i n g   is   clai m ed   b y   p er s o n aliza tio n   i n   S h o k o u h i ' s   w o r k   [ 2 9 ] .   Sh o k o u h et  al.   also   p r esen t ed   r an k in g   o f   a u to co m p letio n s   w it h   ti m e - s e n s i tiv ap p r o ac h   as  p er   th eir   ex p ec ted   p o p u lar it y   [ 30 ] .   Am b ig u o u s   q u er ie s   ar h an d led   b y   S h o u k h o et   al.   b y   p r o v id in g   u s er   co n te x i n   ter m s   o f   s es s io n   co n te x t.  Q u er y   s u g g esti o n   is   ac h ie v ed   b y   u s in g   clic k   i n f o r m atio n   al o n g   w it h   p r ev io u s   q u er ies i n   s ess io n   a s   co n te x t   an d   t h en   m in i n g   q u er y   lo g   s e s s i o n s   f o r   q u er y   r e f o r m u latio n s   [ 31 ] .   T h is   w o r k   is   s i m ilar   to   u s   b u t   it  d o es  n o c o n s id er   lo n g - ter m   u s er   co n te x in s tead   f o c u s e s   o n   s es s io n   b ased   u s er   co n tex i n   ter m s   o f   cl ick   i n f o r m atio n   an d   p r ev io u s   q u er ies.     2 . 2 .   User  I nte ntio n   Ma n y   s t u d ies  h av tr ied   to   id en ti f y   u s er   i n te n tio n   in   d i f f er en w a y s .   Mo s o f   th e m   tr y   to   ca teg o r ize  th q u er ies  as  i n f o r m atio n a l,  n av i g atio n al  an d   tr an s ac tio n al   as  p r o p o s ed   b y   J an s en   et   al  [ 32 ] .   Giv en   q u er y   s u g g e s tio n ,   ef f o r ts   h av b ee n   d o n to   u n d er s ta n d   t h u s er   in te n tio n   u s in g   d i f f er e n m ea n s   li k w eb   s ea r ch   lo g s   [ 26 ] ,   [ 33 - 36 ] ,   p r ev io u s   u s er 's  s ea r c h   lo g   f o r   s a m e   q u er y   [ 37 ] ,   click ed   p ag e s   [ 3 8 ] ,   u s er ' s   s ea r ch   s es s io n   h is to r y   [ 3 9 ] ,   W ik ip ed ia  [ 40 ] ,   W o r d n et  an d   Go o g le  n - g r a m   [ 41 ] .   Usi n g   s ea r ch   q u er y   lo g s   f o r   ex is ti n g   u s er s   to   id en ti f y   i n te n tio n   ca n n o g u ar an tee  t h c o r r ec tn es s   o f   s ea r c h   r es u lts   [ 37 ] .   Sear ch   i n ten p r ed ictio n   alo n g   w it h   q u er y   a u to co m p letio n   i s   a   le s s   e x p lo r ed   ar ea .   A cc o r d in g   to   C h en g   e al. ,   m a n y   s ea r c h es  ar tr i g g er ed   b y   b r o w s ed   w eb   p ag e s   [ 42 ] .   Ko n g   et  al.   tr ied   to   p r ed ict  s ea r ch   in te n u s i n g   r ec e n tl y   b r o w s ed   n e w s   ar ticle  b e f o r s ea r ch   [ 4 3 ] .   lar g e   n u m b er   o f   q u er ie s   ar tr i g g e r ed   b y   n e ws  ar ticle  d ail y   [ 43 ] .   P r ed ictin g   s ea r ch   i n te n u s in g   b r o w s ed   p ag es  is   i n ad eq u ate   [ 43 ]. Ou r   p r o p o s ed   m et h o d   u s e s   liv R SS   n e w s f ee d   f o r   q u er y   p r ed ictio n .   I m ak e s   u s o f   u s er   p r o f iles   to   p r ed ict  th s ea r ch   i n ten t.     2 . 3 .   Q uery   E x pa n s io n   Qu er y   e x p an s io n   is   u s ed   to   r ef o r m u late  t h o r ig in al   u s er   q u er y   s o   as   to   i m p r o v e   r etr iev al  o f   s ea r ch   r es u lts   to   b etter   s atis f y   u s er   n ee d s .   On o f   th e m   is   r ele v a n ce   f ee d b ac k   u s i n g   th r et u r n ed   r esu lts   a n d   ad d in g   n e w   ter m s   r elate d   to   th o r ig in al  q u er y   a n d   s elec ted   d o cu m e n t s   [ 44 ] .   Oth er   m et h o d s   in cl u d ad d in g   r elev an ter m s   b ased   o n   ter m   f r eq u e n c y ,   d o cu m e n f r eq u e n c y   f r o m   to p   r an k ed   d o cu m e n ts   [ 45 ] ,   [ 46 ] ,   c o - o cc u r r en ce   b ased   tech n iq u es  [ 47 ] ,   th esa u r u s   b ased   tech n iq u es  [ 48 -   51 ] ,   d esk to p   s p ec if ic  tech n iq u e s   [ 7 ] ,   p r o b ab ili ty   o f   ter m s   o v er   s ea r ch   lo g s   [ 52 ] .   Ou r   a p p r o ac h   u s es  u s er   in te n tio n   b ased   k e y w o r d   ad d itio n   to   e x p an d   t h o r ig i n al   q u er y   to   h a n d le  a m b i g u o u s   q u er y   ter m s .       3.   DATA D E SCR I P T I O N   3 . 1 .   Da t a   co llect io M et ho do lo g y   a nd   Da t a   Reso urce s   T h s y s te m   u s e s   d if f er en t y p es  o f   d ata  s o u r ce s .   Fo r   tem p o r al  co n tex tu al  co r p u s t w o   el e m en ts   ar co n s id er ed .   On i s   s tatic  co n t ex tu a d ata  b ased   o n   c u r r en t   m o n t h   a n d   t h s ec o n d   is   d y n a m ic  co n tex tu al   d ata  b ased   o n   d aily   cu r r en ev e n ts .   B ased   o n   th p ar am e ter   p er io d ' ,   m o n t h - w i s lis o f   o cc asio n s   f r o m   Hi n d u   an d   C h r i s tia n   ca len d ar   is   ta k e n   an d   th e ir   ass o ciate d   k e y w o r d s   lis is   b u ilt.  Seco n d l y   b ase d   o n   d aily   c u r r en t   ev en t s ,   R SS   n e w s   f ee d   f r o m   R eu ter s   [ 5 4 ]   is   p r o ce s s ed   an d   d ataset  o f   k e y w o r d s   i s   b u il [ 1 ] .   T h te m p o r al  d ata  is   r ef r es h ed   ev er y   d a y   a n d   also   at  r estar t o f   s er v er .   T h is   co n tex t u al  d ata  i s   g en er at ed   f o r   b o th   E n g li s h   an d   Ma r ath i - an   I n d ia n   lan g u ag p o p u lar ly   u s ed   in   t h s tate  o f   Ma h ar as h tr b y   m o r th a n   7 0   m illi o n   p eo p le.   Ma r ath n - g r a m   d ata s et  i s   al s o   cr ea ted   b y   cr a w li n g   Ma r at h w eb s ite s   f o r   ab o u f o u r   m o n th s   an d   p r o ce s s in g   th w eb   p ag es a n d   is   av ailab le   [ 5 5 ].   T h p r o p o s ed   alg o r ith m   al s o   u s es  d ata  f r o m   v ar io u s   s o u r ce s   lik Go o g le  n - g r a m   [ 5 6 ]   an d     W o r d n et  [ 5 7 ]   f o r   E n g l is h   a n d   Ma r ath W o r d n et  d ata  [ 5 8 ] .   Ho w   to   u s e   ab o v ed escr ib ed   co n tex tu al   d ata  to   m i n p o s s ib le  q u er y   au to co m p letio n s   is   d is cu s s ed   b y   U m Gaj en d r ag ad k ar   et   al   [ 1 ] .   A u t o co m p letio n s   f o r   all   s a m p le  test   q u er ies  ar co llected   f r o m   p o p u lar   s ea r ch   en g i n es  f o r   co m p ar is o n .   T h is   is   d o n f o r ea ch   ch ar ac ter   k e y   p r ess   o f   all  th te s t q u er ie s .     3 . 2 .   User  I nte ntio B a s ed  Q uery   E x pa ns io n   K‟   u s er   p r o f iles   r etu r n ed   b y   KNN  ( Nea r est  Nei g h b o r )   alg o r ith m   ar u s ed   as  in p u to   th FM5   alg o r ith m .   L et                   ̅   }                   ( 1 )     b s et  o f   p r o f iles   s u ch   t h at     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   4 3 2     450   435                                 ̅     }               ( 2 )     w h er e   P ( Z )   is   th p r o b ab ilit y   o f   th k n o w n   u s er   p r o f iles   an d         ̅     is   th p r o b ab ilit y   o f   u n k n o wn   u s er   p r o f iles .   L et               |                                   ( 3 )     b th s et  o f   q u er y   w o r d s   an d   let         {     |                                   ( 4 )     b th s et  o f   in ten tio n s   id en ti f ied .   A   tr ial  is   co n d u cted   b y   co llect in g   r an d o m   s a m p les <a i;   b j> .   Fo r   ea ch   s a m p le  q u er y   k e y w o r d   ai ,   th er co u ld   b e   m u ltip le  u s er   in te n tio n s       s to r ed   in   in ten tio n   m a tr ix .   I f   k e y w o r d         h as  t w o   p o s s ib le  in ten tio n s   th en   t h e y   ar i n d icate d   b y   ' T '   a n d   all  o th er   in te n tio n s   t h o s ar e   n o ap p licab le  ar in d icate d   b y   ' F ' .   T o tal  3 4   d if f e r en u s er   in te n tio n s   ar co n s id er ed .   Fo r   ex a m p le   co n s id er   k e y w o r d   -   ' J ag u ar ' .   I t   ca n   h a v t w o   p o s s ib le  u s er   in ten tio n s   -   'Au to m o b ile '   a n d   'W ild lif e ' .   I n itiall y       0   an d       0   w h e n   n o   q u er y   k e y w o r d   is   t y p ed   o r   p r ed icted   an d   h en ce   n o   u s er   in te n tio n s   a r p r esen t.     3 . 3 .   L ea rning   M et ho d a nd   K no wledg G ener a t io n   Ass o ciatio n   r u le  b ased   lear n in g   m et h o d   is   u s ed   f o r   u s e r   in ten tio n   id en ti f icatio n .   Su p p o r an d   co n f id e n ce   f o r   an   in ten t io n   ar co m p u ted   f o r   t h e   p r ed icted   k e y w o r d .   A s s o ciatio n   r u le  lea r n in g   i s   u s ed   to   f i n d   in ter esti n g   r elatio n s   b et w ee n   d if f er e n p ar a m eter s   i n   t h d ata  [ 5 9 ] .   I f in d s   s tr o n g   r u le s   in   d ata  b ased   o n   s u p p o r an d   co n f id en ce   m ea s u r es.  I f   r u le  s u c h   as                                       is   f o u n d   in   th d ata,   it  in d icate s   th a c u s to m er   i s   li k el y   to   b u y   co f f ee   i f   t h c u s to m er   h as  b o u g h b o th   m ilk   an d   s u g ar .   Ass o ciatio n   r u le  is   u s ed   in   m a n y   ap p licatio n s   li k m ar k et  a n al y s is ,   b io in f o r m at ics,  w eb   u s a g m i n in g   et c.     Min i m u m   t h r es h o ld   v alu e s   o n   s u p p o r an d   co n f id en ce   ar u s ed   to   f in d   th in ter e s ti n g   r u le s   o u o f   all  p o s s ib le   r u les.  I f                                       is   s et   o f   ite m s   a n d                                                 is   s et  o f   tr a n s ac tio n s   in   d atab ase     ,   th en   r u le  ca n   b d ef i n ed   lik             w h er             I   an d                     .     Su p p o r ca n   b ca lcu lated   as  p r o p o r tio n   o f   tr an s ac tio n s   co n tain i n g   th ite m   s et  U.   Sa y   f o r   illu s tr atio n ,   t h ite m   s et  { m ilk , s u g a r h as  s u p p o r o f   6 /1 0   0 . 6   s in ce   it  o cc u r s   i n   6 0 o f   all  tr an s ac tio n s .   C o n f id en ce   o f   r u le            ca n   b ca lcu lated   as t h p r o p o r tio n   o f   th tr an s ac tio n s   t h at  co n tai n   b o th   an d   V.                                                                         ( 5 )     Fo r   illu s tr atio n ,   t h r u le  h as                                          co n f id en ce   o f   0 . 9   m ea n s   i n   9 0 o f   t h e   tr an s ac tio n s   th a co n tain   m il k   an d   s u g ar   th r u le  h o ld s   tr u e.   Oth er   u s er   i n ten tio n   id en ti f ica tio n   m et h o d s   h a v e   f e w   d r a w b ac k s .   Usi n g   w eb   s e ar ch   lo g s   f o r   in te n id e n ti f icat io n   lac k s   i n   co r r ec o u tco m es   as  t h s a m q u er y   r esp o n s es  h a v b ee n   p r o v i d ed   to   th u s er s .   Usi n g   click   p ag es  [ 3 8 ]   is   n o v er y   e f f ec tiv e   a s   u s er   cl ick s   d o   n o t   al w a y s   tr a n s late  to   th r esu l b ein g   r ele v an to   s ea r ch   in ten t.   User   s ea r ch   s es s io n   h i s to r y   [ 3 9 ]   w o r k s   o n l y   f o r   a   s ess io n .   No   u s er   in ten t io n   p r ed ictio n   w a s   d o n f o r   a m b i g u o u s   q u er y   i n   ca s o f   in ten i d en ti f icatio n   w i th   W ik ip ed ia  [ 4 0 ].   T ab le  2   s h o w s   f e w   r ec o r d s   f r o m   s a m p le  d ata  co n s id er ed   f o r   lear n i n g   i n ten o f   a   u s er   f o r   g iv e n   k e y w o r d .       T ab le  2 .   E x am p le  D ata  f o r   A s s o ciatio n   R u le  Mi n i n g   W o r d   I n t e n t   G e n d e r   L o c a t i o n   P r o f e ssi o n   I n t e r e st   b o n d   l e g a l   M   I n d i a   L a w y e r   C o o k i n g   c o u r t   l e g a l   M   I n d i a   En g i n e e r   G a r d e n i n g   j u d g e   l e g a l   M   U S A   L a w y e r   B o o k s   l a w   l e g a l   F   UK   F a r mer   TV   n o t a r y   l e g a l   F   I n d i a   D o c t o r   P a i n t i n g   n o t i c e   l e g a l   M   I n d i a   L a w y e r   P o e ms   se a r c h   l e g a l   F   I n d i a   En g i n e e r   G a r d e n i n g   j a v a   p o l i t i c a l   F   U S A   D o c t o r   P o e ms   j a g u a r   A u t o mo b i l e   M   U S A   En g i n e e r   A r t   d i a b e t e s   h e a l t h   M   UK   D o c t o r   T h e a t r e   i n t e r e st   so c i a l   M   I n d i a   F a r mer   P h o t o g r a p h y   a p p l e   t e c h n o l o g i c a l   F   I n d i a   En g i n e e r   W i l d l i f e   j a v a   t e c h n o l o g i c a l   M   I n d i a   En g i n e e r   S p o r t s   b o n d   mo v i e   M   I n d i a   En g i n e e r   M o v i e s   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     C o n text  S en s itive  S ea r ch   S tr in g   C o mp o s itio n   A lg o r ith u s in g   User   I n ten tio n   to     ( Uma   Ga jen d r a g a d ka r )   436   Fro m   th s a m p le  d ata,   all  r u l es  h a v in g   s u p p o r an d   co n f i d en ce   m o r th a n   th t h r es h o l d   v alu ar e   co n s id er ed .   T h ese  r u les ar u s ed   to   lear n   ab o u t th p o s s ib le  in ten tio n   o f   u s er   ab o u t a   k e y w o r d .   L et                  |                             (6 )     b th r etu r n ed   in te n tio n s   a n d                  in   E q u atio n   4   th e n   h o w   o n o u o f   th e s is   s elec ted   i s   ex p lai n ed   in   s ec tio n   4   o f   th p ap er .   Fo r   th p u r p o s o f   ex p er im e n tat io n ,   t w o   t y p es  o f   u s er s   ar co n s id er ed   f o r   th s y s te m   -   r eg is ter ed   u s er   an d   u n r eg i s ter ed   u s er .   First  ca s is   w h en   u s er   lo g s   i n   to   th s y s te m   ( r eg is ter ed   u s er   w it h   k n o w n   u s er   p r o f ile  i n   Z ' )   an d   th s ec o n d   ca s is   u s er   w h o   d o es  n o lo g   i n   to   th s y s te m   ( u n r e g is ter ed   u s er s   w it h   u n k n o w n   u s er   p r o f ile s   in   ̅ as in   E q u atio n   1 .   I n   th s ec o n d   ca s e,   if   u s er   d o es n o t lo g i n   to   th s y s te m   t h e n   th u s er   p r o f ile  is   n o av ailab le  h en ce   n o   p er s o n aliza tio n   c an   b d o n an d   n o   lear n in g   h ap p en s .   I n   th f ir s t   ca s e,   User   P r o f ile  is   cr ea ted   d u r in g   r eg is tr atio n   to   th s ea r ch   s y s te m .   T h is   p r o f ile  '     '   is   cr ea ted   b y   o b tain in g   u s er   p r ef er e n ce s   f o r   s et  o f   q u e s tio n s .   T h v al u e s   ar f illed   i n   b y   a n   e x p licit  q u esti o n n a ir as k in g   q u esti o n s   li k ' W h a t is  y o u r   P r o f ess io n ? '   a n d   an s w er   w ill  s et  th v alu e.   User   p r ef er en ce s   ar s to r ed   in   t h u s er   p r o f i le  an d   t h e   p ast  s ea r ch e s   d o n b y   t h u s er   ar also   s to r ed   in   t h i s   p r o f ile.   A   b it   v ec to r   r ep r esen tin g   u s er   p r o f ile  is   s to r ed   in   t h s y s te m   f o r   ev er y   r eg is ter ed   u s er .   T h is   v ec to r   o f   d if f er e n p ar a m ete r s   f o r m s   k e y   f o r   ea ch   u s er .         is   th s et  o f   u s er   p r o f i le  p ar a m eter s   to   b co n s id er ed   f o r   tak in g   d ec is io n   o f   n e x p r o b ab le   alp h ab et/  n u m er ical /s y m b o l.  T h co m p o s itio n   o f   s ea r ch   s tr in g   is   d o n u s i n g   ele m e n ts   o f   s et         .                                                                                             (7 )     T h s y s te m   p er s o n alize s   s ea r ch   s tr i n g s   b ased   o n   th e s u s er   p r ef er en ce s   an d   lear n s   f r o m   p ast   s ea r ch es.  Af ter   p r ess i n g   k e y   ch ar ac ter   in   s ea r c h   b o x ,   t h s y s te m   tr ie s   to   p r ed ict  th n e x t   ch ar ac ter   b y   u s in g   th p ast  s ea r ch es  o f   t h r eg is t er ed   u s er   in itiall y   a n d   later   b y   u s in g   th p o o o f   s ea r ch es  d o n b y   o th er   u s er s   h av i n g   s i m ilar   p r o f ile s   to   th c u r r en t u s er .     C o m p ar is o n   o f   th i s   m et h o d   i s   d o n w it h   KNN  ( K   Nea r est  Nei g h b o r )   a lg o r ith m .   T h g r ap h s   in   Fig u r 1   s h o w   th e   p er f o r m a n ce   o f   K NN  f o r   u s er   i n te n tio n   id en ti f icatio n   w i th   d if f er en K   v alu e s   o n   s a m p le   d ata.   As  s ee n   in   Fi g u r 1 ,   K NN  s h o w s   b etter   p er f o r m a n c w it h   s m aller   K   v al u f o r   i d en tify i n g   t h u s er   in te n tio n   b u t   th e   ac cu r ac y   o f   th id e n ti f icatio n   is   les s   ( ab o u 3 9 %).   T o   b etter   p r ed ict  th u s er   in ten t io n ,   we   h av p r o p o s ed   th FM5   alg o r i th m .         Fig u r 1 .   P er f o r m a n ce   o f   KN w i th   Sa m p le  Data   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   4 3 2     450   437   4.   P RO P O SE M E T H O D   T h o b j ec tiv is   to   f in d   ap p r o p r iate  u s er   in te n tio n   f o r   s ea r ch   s tr i n g   b ei n g   e n ter ed   b y   u s er   in   th e   s ea r ch   b o x .   I n   FM5   al g o r ith m ,   u s er   p r o f iles   ar u s ed   to   id en ti f y   u s er   in te n tio n   f o r   s ea r ch   s tr in g   b ein g   en ter ed   in   t h e   s ea r c h   b o x .   Fo r   ea ch   u s er   u s er   p r o f ile  i s   cr ea ted   d u r in g   r e g is tr at io n   to   th s ea r ch   s y s te m   a s   d is cu s s ed   in   s ec tio n   3 .   FM5   i m p le m en t s   f u n n el  f ilter   co n s i s ti n g   o f   d i f f er en m es h es  m ap p ed   to   th u s er   p r o f ile  p ar a m eter s .   W ei g h t s   a r ap p lied   to   th ese  m e s h e s   to   d is a m b i g u ate  d i f f er e n u s er   i n ten tio n s   o f   q u er y   w o r d         as  g iv e n   in   E q u atio n   22 .   User   ca n   s elec th p ar am e ter   o r   m u ltip le  p ar a m eter s   to   b u s ed .   I f   u s er s cu r r en s ea r ch   i n ten t io n   is   r el ated   to   h i s   { ' I n ter est ' }   r ath er   th an   h is   { ' P r o f ess io n ' t h en   o n l y   t h p ar a m e ter s   lik { ' I n ter est,  Ge n d er ,   L o ca tio n ' co u ld   b s elec ted   an d   o th er   p ar am eter s   li k {' P r o f es s io n ' co u ld   b o m itted .     L et                                                                    (8 )     b th s et  o f   p ar a m eter s   co n s id er ed   f o r   th ex p er i m en t.  Fo r   ex a m p le,   u s er   p r o f ile  co n s i s ts   o f   5   p ar a m eter s -   ' P r o f ess io n ' ,   ' I n ter es ts ' ,   ' Ge n d er ' ,   'L o ca tio n '   a n d   ' P ast  s ea r ch es ' .   Fo r   ill u s tr atio n   p u r p o s e,   h ig h er   w eig h i s   ass i g n ed   to   {' P r o f es s io n ' p ar am eter   f o llo w ed   b y   { ' G en d er ' ,   ' I n ter es ts ' ,   'L o ca tio n ',   ' P ast  s ea r ch e s ' }   r esp ec tiv el y .   T h is   i s   co n f i g u r a b le  an d   m o r p ar am eter s   ca n   b ad d ed   t o   th f u n n el  s h o w n   i n   Fig u r 2         Fig u r 2 .   User   I n ten t io n   I d en ti f icatio n   Fu n n el       L et                                                                 (9 )     b th s et  o f   w ei g h ts   s u c h   th at                                |                                   ( 1 0 )     T h co m p u ta tio n   o f   t h ese  w e i g h t s   is   e x p lain ed   i n   E q u atio n   22 .   L et  Q   b t h p r e f ix   q u er y   i n p u t   s tr i n g   w h ic h   i s   p r o g r es s iv el y   a ttach ed   w it h   a n   alp h an u m er ic   ch ar ac ter   to   co m p lete  t h s ea r ch   s tr i n g .                     |                           ( 1 1 )     w h er                   ,   ….   ar e   ch ar ac ter s   t o   co m p o s t h s ea r ch   s tr in g   a s s u m in g   { n ch ar ac ter   k e y   p r ess es.  I n itia l   s tate  o f   t h is   s et  is   e m p t y .         can   b an y   c h ar ac ter   r an g in g   f r o m   a   to   z   an d   0   to   9 o r   ch ar a cter s   lik :,  ;,  ~,   …‟   etc.   L et               is   p ar tial  s ea r c h   s tr i n g . T h e   co m p o s itio n   o f   s ea r ch   s tr i n g   an d   r elate d   s elec tio n   o f           ar e   d o n u s i n g   ele m e n ts   o f   s et        as p er   E q u atio n   7     4 . 1 .   P ro po s ed  Circ ula Str uct ure   f o User  P ro f ile  P a r a m et er s   T h u s er   p r o f iles   ar e   o r g an ized   in   cir cu lar   lin k ed   lis as  s h o w n   in   Fi g u r 3 .   A   c ir cu lar   li n k ed   lis is   u s ed   a s   o n e   ca n   ad d   o r   r e m o v p ar a m eter s   f r o m   t h e   lis t   ea s il y   a n d   ea s y   to   tr a v er s to   r ea ch   a n   o b j ec t.  L ea r n i n g   w ill  ad d   o r   s u b tr ac p ar am eter s   f r o m   c ir cu lar   li n k e d   lis t.  Sizeo f   t h cir cu lar   lin k e d   lis w ill  i n cr ea s e   o r   d ec r ea s ac co r d in g l y .   L et  ' r b th e   r ad iu s   o f   t h cir cle  o n   w h ich   v ar io u s   u s er   p r o f ile s   ar ar r an g ed .   T h e   p o in ter   in   t h cir c u lar   li n k ed   l is i s   p lace d   a s   p er   t h w e ig h ca lcu lated   b y   as s o ciatio n   r u le   in   ter m s   o f   s u p p o r as sh o w n   i n   E q u atio n   2 0 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     C o n text  S en s itive  S ea r ch   S tr in g   C o mp o s itio n   A lg o r ith u s in g   User   I n ten tio n   to     ( Uma   Ga jen d r a g a d ka r )   438   L et        b th co s                         |                                     ( 1 2 )     ass o ciat ed   w ith   ele m e n t s   o f   s u c h   th a t                                                 ( 1 3 )     C 1   w h e n   p ar tial  o r   co m p let s ea r ch   s tr i n g   d o es  n o ex i s i n   th s ea r ch   s et  o r   th alg o r it h m   f a ils   to   p r ed ict  th s ea r ch   s tr in g .   C   0   w h en   s ea r ch   s tr i n g   i s   d is ti n ctl y   k n o w n   t h en   n o   s ea r ch   s tr in g   p r ed ictio n   an d   co m p o s i tio n   is   r eq u ir ed .   T h s o r tin g   o f   s ea r ch   s tr i n g   is   d o n s u c h   th a t it  al w a y s   h a s   t h ce n tr al  ten d en c y .         Fig u r 3 .   C ir cu lar   Str u ctu r u s ed   f o r   FM5   -   u s er   I n t e n tio n   I d en ti f icatio n   A lg o r it h m       Sin ce   t h s ea r c h   s tr i n g   i s   co m p u ted   a n d   m ap p ed   in   th r an g [ 0 , 1 ] ,   th ce n tr al  te n d en c y   p r ed icts   m o s l ik el y   s ea r ch   s tr in g .   C o m p u tat io n   o f   lo g ical   s ea r ch   s t r in g   is   d o n w i th   th v ar io u s   p ar am eter s   o f   u s er   p r o f ile. Gr ee d y   al g o r ith m   is   u s ed   f o r   i n ten tio n   s elec tio n   u s in g   co s ( w ei g h t) .   E ac h   ti m th e   m es h   w it h   lar g es t   co s t a n d   g r ea ter   th a n   o r   eq u al  to   th r esh o ld   v al u i s   s elec ted   a s   ex p lai n ed   in   E q u atio n   21.     4 . 2 .   M a t he m a t ica l M o del f o F u nn el  M esh   5   ( F M 5 )   Alg o rit h m   T h alg o r ith m   i n   p s e u d o   co d f o r m   is   r e p r ese n ted   in   t h A lg o r ith m   1 .   R es t o f   th s ec tio n   e x p lain s   it  in   d etail.   T o   illu s tr ate  it  f u r t h er ,   if             P r o fess io n   th en               {E n g i n ee r ,   Do cto r ,   L a w y er ,   A r c h itect,   . . }             ( 1 4 )     or   co m b in at io n   o f   t h e s e.   T h s y s te m   a s s u m es  t h at  o n u s er   h as  o n p r o f es s io n .   I f   6 b it s   ar u s ed   to   s to r e   p r o f ess io n   p ar a m e ter   th e n   2 6   co m b i n atio n s   ar p o s s ib le.   Fo r ex a m p le,   let  t h b it  s eq u en ce   ' 0 0 0 0 0 1 '   in d icate s   p r o fess io n   = E n g in ee r . T h p r o b ab ilit y   o f   ch o o s i n g   co r r ec t p r o f ess io n   is                                               ( 1 5 )     w h er e t   n u m b er   o f   b its   u s ed   t o   s to r th p ar am eter .   L et                                                                      ( 1 6 )     b th p ast s ea r ch es a s s o ciate d   w it h   t h u s er   p r o f ile  v ec to r s   i n   cir cu lar   li n k ed   li s t.  L e t                                                                                       ( 1 7 )     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   4 3 2     450   439   b th p ast s ea r ch   s tr i n g s   as s o ciate d   w it h   X 3 .   T h en                                               ( 1 8 )     w h er w ei g h W is   th s u p p o r v alu ca lcu lated   u s i n g   ass o ciatio n   r u le  f o r   s ea r ch   s t r in g S as  s h o w n   i n   E q u atio n   20 .     S     X 3 lis t o f   p ar am eter s   is   g i v en   b y                                                                      ( 1 9 )     W eig h t i s   co m p u ted   u s i n g   ass o ciatio n   r u le  o f   t h f o r m           h a v i n g   v al u     0 . 5 as  th ce n tr al  ten d en c y   i s   b ein g   ca lc u lated   in   cir c u lar   li n k ed   lis t.            A l g o r i th m   1 .   Fu n n el  Me s h   5   ( FM5 )   A l g o r ith m       Her e                      an d                 an d   s u p p o r t v alu i s   g i v en   b y                                                          ( 2 0 )     w h er e   N   to tal  n u m b er   o f   r e co r d s   in   th cir cu lar   lin k ed   lis an d   X   is   co m b in atio n   o f   p ar a m eter s   f r o m     X w h o s   s u p p o r t       0 . 5 .     T h en ,     cu r r en t u s er ,             s tar ti n g   w i th   th p r ef ix   Q ,                                                            |                             ( 2 1 )                                              ( 2 2 )                            l et                                                                       ( 2 3 )     Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     C o n text  S en s itive  S ea r ch   S tr in g   C o mp o s itio n   A lg o r ith u s in g   User   I n ten tio n   to     ( Uma   Ga jen d r a g a d ka r )   440   b th s e o f   p o s s ib le  u s er   in te n tio n s . T o tal  3 4   in ten tio n s   ar co n s id er ed   f o r   th e x p er i m e n tal  s et u p .     T ab le  3   s h o w s   u s er   in ten t io n   tax o n o m y   an d   e x a m p le   k e y wo r d s   f o r   ea ch   o f   t h i n ten t io n s .   Fo r   ex a m p le,   t h e   k e y w o r d   Seed f alls   u n d er   in t en tio n   Gar d en i n g   w h er ea s   S tan za   b elo n g s   to   P o e m s .   Fo r   a i   as  in   E q u atio n   3 ,   all  s ea r ch   s tr in g s   s tar ti n g   w i th   p r ef i x   Q   w o u ld   b co n s id er ed .   L ett h s et  o f   s ea r ch   s tr in g s   s tar tin g   w it h   p r ef i x   b e                                                                        ( 2 4 )     I n itial p r o b ab ilit y   o f   ch o o s i n g   th n e x t c h ar ac ter   is                         |       |                   ( 2 5 )     W ith   ea ch   c h ar ac ter   k e y p r e s s qi +1 ,   th is   p r o b ab ilit y   in cr ea s e s   as  |       |   ( co u n o f   p o s s ib le  s ea r ch   s tr in g s )   k ee p s   o n   r ed u cin g   a s   s h o w n   i n   Fi g u r 4 .   A s   in   Fi g u r 4 ,   w i th   e v er y   p ar a m eter   h av in g   w ei g h ( s u p p o r t)   g r ea ter   th an   th t h r es h o ld ,   m es h   f ilter i n g   is   d o n a n d   u s er   in te n tio n   li s k ee p s   o n   r ed u ci n g   a n d   al g o r ith m   m ak e s   u s o f   th ce n tr al  te n d en c y   to   id en ti f y   m atc h i n g   in te n tio n s .   Fro m   E q u atio n   2 3 ,   it is   s ee n   t h at   t h er e   ar ' h '   i n te n tio n s .   I n itiall y   t h er ar ' h '   i n te n tio n s .   Hen ce   p r o b ab ilit y   o f   c h o o s in g   m atc h i n g   in te n tio n   w ill b e                                        ( 2 6 )     w h er e   MI   m atc h i n g   i n te n tio n .         Fig u r 4 .   User   I n ten t io n   I d en ti f icatio n       Fo r   th p u r p o s o f   ex p er i m e n t al  tr ial,   to tal  3 4   in ten tio n s   ar co n s id er ed   as sh o w n   in   U s er   i n ten tio n   ta x o n o m y   in   T ab le  3 .   T ab le  3   s h o w s   ex a m p le  k e y w o r d s   f o r   ea ch   o f   t h e   in ten t io n s .   Fo r   ex a m p le,   t h k e y w o r d   s ee d   ca n   f all  u n d er   Ag r ic u lt u r e‟ i n te n ti o n ,   s o n g '   i n   Mu s ic .       T ab le  3 .   User   i n ten tio n   ta x o n o m y   a n d   ex a m p les   I n t e n t i o n   Ex a mp l e   I n t e n t i o n   Ex a mp l e   I n t e n t i o n   Ex a mp l e   S o c i a l   d i w a l i   A g r i c u l t u r e   se e d   M o v i e s   a c t r e ss   T e c h n i c a l   j a v a   B a d   me a n i n g   w o r d s   sh i t   T h e a t e r   c a st   R e se a r c h   su r v e y   M u s i c   so n g   A r t   p a i n t i n g   P o l i t i c a l   p a r l i a me n t   C o o k i n g   c h e f   C r a f t   w e a v i n g   P h i l o so p h y   t h o u g h t   S p o r t s   c r i c k e t   P a i n t i n g   c o l o r   M e d i c a l   l i v e r   G a r d e n i n g   p l a n t s   T r a v e l   d e st i n a t i o n   M i l i t a r y   a r se n a l   H e a l t h   n u t r i t i o n   H i k i n g   h a r n e ss   R e l i g i o u s   scri p t u r e   B o o k s   a u t h o r   S o c i a l   w o r k   so c i e t y   S c i e n t i f i c   e x p e r i me n t   W r i t i n g   a r t i c l e   S c u l p t i n g   i d o l   L e g a l   b a t t l e   P o e ms   p o e t   P h o t o g r a p h y   l i g h t   N e w   G e n e r a t i o n   t w i t t e r   TV   sh o w   L i t e r a t u r e   n o v e l           W i l d l i f e   l e o p a r d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   4 3 2     450   441   B ased   o n   w ei g h t s   ca lcu lated   in   E q u atio n   22 ,   p ar am e ter s   ar ch o s en   f r o m   s et  X 5i   f o r   ea ch   p ast  s ea r c h   s tr in g   a n d   f u r th er   f u n ctio n         Q        is   ap p lied .         g iv e s   r ed u ce d   s et  o f   m a tch i n g   i n ten tio n s   f r o m   in itial   {‟ h i n te n tio n s   as s h o w n   i n   F ig u r 4 .   L et  t h r et u r n ed   m u lti s et  b g iv e n   as                                                            |                     ( 2 7 )     So   w it h   r ec u r s iv ap p licatio n   o f           ,   u s i n g   ele m e n ts   o f           ,   th p r o b ab ilit y   b ec o m e s                                        ( 2 8 )     Af ter   t h la s ap p licatio n   o f         ,   w h ate v er   m u lt is et  o f   m atc h i n g   in te n tio n s   i s   o b tain ed ,   f r o m   t h at  t h f i n al  u s e r   in te n tio n   is   ch o s e n .   Fo r   t h i s ,   m u ltip lici t y   o f   ea c h   m e m b er   o f   t h m u lti s et  i s   f o u n d   an d   th m e m b er   w it h   h ig h e s m u lt ip licit y   i s   ch o s en   as th f in a l u s er   in te n tio n .                                                          ( 2 9 )     w h er e   f( mi)   f r eq u e n cies o f   i n ten tio n s   in           4 . 3 .   Q uery   E x pa n s io n   L et  Q   b th o r ig i n al  q u er y   s el ec ted   b y   u s er . L e A   b th s et  o f   a m b i g u o u s   q u er ie s   s u c h   t h a       .   L et  C   b t h s et  o f   co n tex t b as ed   w o r d s   f o r   ea ch   a m b i g u o u s   w o r d                         {         |                             ( 3 0 )     w h er e   m   is   m ax i m u m   n u m b er   o f   m ea n i n g s   ass o ciate d   w it h   t h w o r d       .   Qu er y   ex p a n s io n   p atter n s   ar u s ed   to   ex p an d   th q u er y   s ele cted   b y   u s er   b ased   o n   u s er   in t en tio n .   L et      b th e   s et  o f   q u er y   e x p an s io n   p atter n s   av ailab le  g iv e n   b y           {                 |                                     ( 3 1 )     L et                                     ( 3 2 )     b th f u n ct io n   w h ich   m ap s   t h id en tifie d   u s er   i n ten t io n   to   an   ex p an s io n   p atter n   f r o m         .   T h FM5   alg o r ith m   id e n ti f ies  th u s er   in te n tio n   f o r   q u er y   u s i n g   ass o ciatio n   r u le  a n d   u s er   p r o f iles .   T h o r ig in al  q u er y   i s   m o d i f ied   as                                     ( 3 3 )     an d   g i v en   to   s ea r c h   en g i n e.       T ab le  4 .   FM5   I n ten tio n   I d en ti f icatio n   E x a m p les   K e y w o r d   C o st      M e sh   se l e c t e d   I n t e n t i o n s   o f   f i n a l   u se r   se t   a f t e r   f i l t e r i n g   M a t c h i n g   I n t e n t i o n   Jag u a r   {U se r     F e mal e ,   En g i n e e r ,   M u s i c ,   I n d i a }   0 . 6   -   P r o f e ssi o n     Jag u a r   0 . 7   -   L o c a t i o n   →Jag u a r   A u t o mo b i l e   W i l d l i f e   A u t o mo b i l e   A u t o mo b i l e   A u t o mo b i l e   A u t o mo b i l e   Jav a   {U se r     F e mal e ,   En g i n e e r ,   S p o r t s,  I n d i a }   0 . 6 3   -   P r o f e ssi o n   →  J a v a   0 . 6   -   G e n d e r   →  Jav a   0 . 7   -   L o c a t i o n   →  J a v a   R e se a r c h   T e c h n o l o g y   T e c h n o l o g y   T e c h n o l o g y   B o n d   {U se r     M a l e ,   En g i n e e r ,   M o v i e s,  I n d i a }   0 . 7 6   -   L o c a t i o n     B o n d   M o v i e   L e g a l   M o v i e   M o v i e   L e g a l   M o v i e   M o v i e   Evaluation Warning : The document was created with Spire.PDF for Python.