I nte rna t io na l J o urna l o f   I nfo r m a t ics a nd   Co mm u n ica t io n T ec hn o lo g y   ( I J - I CT )   Vo l. 7 ,   No . 1 A p r il   201 8 ,   p p .   8 ~ 12   I SS N:  2252 - 8776 ,   DOI 1 0 . 1 1 5 9 1 /i j i ct. v 7 i1 . p p 8 - 12        8       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / I JI C T   An  O pti m u m   Ap pro a ch f o r P repr o cess ing   o Web  User  Q uery       Su nn y   S ha r m a , S un it a Arj u n K u m a r,   Vij a y   Ra na *   De p a rtme n o f   Co m p u ter S c ien c e   &   En g in e e rin g ,   A rn Un iv e rsity   K a th g a rh ,   In d o ra ,   I n d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   J an   1 8 ,   2 0 1 8   R ev i s ed   Feb   2 7   ,   2 0 1 8   A cc ep ted   Mar   7 ,   2 0 1 8       T h e   e m e r g e n c e   o f   th e   W e b   tec h n o l o g y   g e n e ra ted   a   m a s siv e   a m o u n o f   ra d a ta  b y   e n a b li n g   In tern e u se rs  to   p o st  t h e ir  o p in i o n s,  c o m m e n ts,  a n d   re v iew s   o n   t h e   w e b .   T o   e x tr a c u se f u in f o rm a ti o n   f ro m   th is  ra w   d a ta  c a n   b e   a   v e r y   c h a ll e n g in g   tas k .   S e a rc h   e n g in e s   p lay   a   c rit ica ro le  in   t h e se   c ircu m sta n c e s .   Us e q u e ries   a re   b e c o m in g   m a in   issu e f o th e   se a rc h   e n g in e s.  Th e re f o re   a   p re p ro c e ss in g   o p e ra t io n   is  e ss e n ti a l.   In   t h is  p a p e r,   w e   p re se n a   f ra m e w o rk   f o r   n a tu ra lan g u a g e   p re p r o c e ss in g   fo e f f icie n d a ta  re tri e v a a n d   so m e   o f   th e   re q u ired   p ro c e ss in g   f o e ff e c ti v e   re tri e v a su c h   a e lo n g a ted   w o rd   h a n d li n g ,   sto p   w o rd   re m o v a l,   ste m m in g ,   e tc.  T h is  m a n u sc rip sta rts  b y   b u il d in g   a   m a n u a ll y   a n n o tate d   d a tas e a n d   t h e n   tak e th e   re a d e t h ro u g h   th e   d e t a il e d   ste p o f   p ro c e ss .   Ex p e rim e n ts  a re   c o n d u c ted   f o sp e c ial  sta g e o f   th is  p ro c e ss   to   e x a m in e   th e   a c c u ra c y   o f   th e   s y ste m .   K ey w o r d :   NL P   Ste m m i n g     Sto p w o r d s   Sp ellin g   co r r ec tio n   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   Vij ay   R an a   Dep ar t m en t o f   C i v il E n g i n ee r i n g ,     A r n i U n iv er s it y   Ka th g ar h ,   I n d o r a,   I n d ia.   E m ail:  v ij a y . r an a9 3 @ g m a il.c o m       1.   I NT RO D UCT I O N     W ith   th lar g a m o u n o f   i n f o r m atio n   a v ailab le  o n   t h W eb ,   it  is   m u c h   tire s o m tas k   to   l o ca te  an d   r etr iev th d esire d   i n f o r m atio n .   Ho w e v er   t h u s er   n ee d s   to   i n v e s t h ti m i n   h o u r s   to   m a k h i m s el f   s at is f y   f o r   h is   n ee d s .   I n   s u c h   ca s es,  W eb   S ea r ch   en g i n es  p la y   g r ea r o le  in   r etr iev in g   m ea n i n g f u r esu lt s   f o r   th u s er   q u er y .   A   s ea r ch   en g in e   is   a   s o f t w ar s y s te m   t h at  is   d esi g n ed   to   s ea r ch   f o r   in f o r m atio n   o n   th W o r ld   W id W eb   co r r esp o n d   to   k ey w o r d s   o r   c h ar ac ter s   s p ec if ied   b y   t h u s er   [ 1 - 3 ] .   T h e s s ea r ch   en g i n es  b u ilt  o n   v ar io u s   I n f o r m a tio n   R etr ie v al  tec h n i q u es  h av e   th o r o u g h l y   ch a n g ed   th e   w a y s   t h at  p eo p le  s ea r ch   a n d   ac q u ir in f o r m atio n .   Ne v er t h eles s ,   in   m an y   s itu a tio n s   s ea r ch   e n g in e s   h a v d if f ic u ltie s   in   r etr ie v in g   r elev an a n d   q u alit y   in f o r m atio n   d u to   n o is y   n at u r o f   u s er s   q u er y   [ 4 ] .   T h is   p r o b lem   o cc u r s   in   m an y   w a y s ,   f o r   in s tan ce   w h en   a   u s er   s ea r ch e s   th s a m q u er y   i n   d if f er en w a y s   o r   en ter s   a m b ig u o u s   q u er ie s .   Mo r eo v er ,   th u s er   q u er y   i s   o f te n   m u c h   a m b i g u o u s   to   b ea s il y   u n d er s to o d   b y   th s y s te m .   So   in   d u co u r s e,   th r esu lt s   r etr iev ed   b y   th s ea r c h   en g i n ar d ef icie n t.  T h er ef o r e,   it  is   i m p o r tan to   p r ep r o ce s s   th q u er y   b y   ex p lo iti n g   i m p er ativ alg o r it h m s   b ef o r p ass in g   it to   t h s ea r ch   en g i n [ 5 ] .   I n   q u er y   p r o ce s s in g   p h a s s et  o f   k e y w o r d s   i s   g iv en   as   an   in p u f o r   p r ep r o ce s s in g ,   w h ich   d escr ib es  th u s er   i n f o r m atio n   n ee d s .   W h av cr ea ted   an   o p ti m u m   s y s te m   f o r   p r ep r o ce s s in g   o f   W eb   u s er   q u er y .   A   s et  o f   k e y w o r d s   i s   g i v e n   as  a n   in p u w h ic h   d escr ib es  th u s er   in f o r m atio n   n ee d s .   I n   co n tr ast  to   u s u a l   s ea r ch   e n g in e s   t h at  r etr ie v o n l y   t h r es u lts   o n   t h b as is   o f   th l ik el y   s ea r ch   w h i le  i g n o r i n g   th e   s e m a n tics   o f   th u s er   r eq u ir e m en t s ,   o u r   s ch e m u n iq u el y   co n tr ib u te s   s p ec ial  an d   n o v el  alg o r it h m   t h at  f o cu s   o n   f i n d in g   th e   r elev an t   m ea n i n g   t h a d escr ib es  th e   u s er s   d esire s .   T h al g o r ith m   tr ies  to   f i n d   t h u s er   b e h av io r   a n d   p r ev en ts   f r o m   t h r ep etitio n   o f   ac ce s s e d   d ata.   T h u s   it  is   a n   in tel lig e n t   m o d u le  as  it  i m p r o v es  t h p r o b ab ilit y   o f   s u cc e s s   b y   f in d i n g   t h ap p r o p r iate  r es u lts .   I p er f o r m s   s ev e r al  tas k s   to   ac h iev th p r ep r o ce s s in g   p h ase:  Sto p   w o r d s   r e m o v al,   Ste m m i n g ,   Sp elli n g   C o r r ec tio n ,   T o k en izatio n   an d   p ar o f   s p ee ch .   T o k en izatio n   is   t h p r o ce s s   o f   s p litt i n g   u p   q u er y   s tr in g   i n t o   s et  o f   to k e n s   o r   w o r d s .   I t   u s u all y   s p lits   w o r d s   b y   b lan k ,   p u n ct u atio n   a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       A n   Op timu A p p r o a ch   fo r   P r ep r o ce s s in g   o f W eb   Use r   Qu ery   ( V ija R a n a )   9   q u o tatio n   m ar k s   at  b o th   s id es  o f   s en ten ce .   T h to k en s   n o o n l y   co n s id er ed   as  w o r d s   b u also   n u m b er s ,   p u n ct u atio n   m ar k s ,   p ar en t h ese s   an d   q u o tatio n   m ar k s .   P ar s i n g   i s   t h p r o ce s s   o f   a n al y zin g   a   s tr in g   o f   s y m b o ls ,   eith er   in   n at u r al  lan g u ag o r   in   co m p u ter   la n g u a g es,  co n f o r m i n g   to   t h r u les o f   f o r m a l g r a m m ar .   Ou r   m ea n   to   f o cu s   o n   f i n d i n g   th r elev an m ea n i n g   th at  d escr ib es  th u s er s   b eh av io r   an d   p r ev en t s   f r o m   t h r ep etitio n   o f   ac ce s s e d   d ata  [ 6 ] .   I im p r o v es  th p r o b ab ilit y   o f   s u cc es s   b y   f i n d i n g   th ap p r o p r iate  an d   co n ce r n ed   r es u lts .   I t   p er f o r m s   s ev er al   tas k s   to   ac h ie v th p r ep r o ce s s in g   p h ase   s u ch   as  s t o p   w o r d s   r e m o v al,   s te m m i n g ,   s p elli n g   co r r ec tio n ,   to k en izatio n .   Sto p w o r d s   ar e   w o r d s   w h ich   ar r e m o v ed   a f ter   p r o ce s s in g   o f   n atu r al  lan g u ag e.   T h p r o ce s s   o f   r ed u cin g   w o r d s   to   t h eir   s te m   k n o w n   as  Ste m m i n g   a n d   w h er ea s   to k e n izatio n   is   th m et h o d   o f   s p litt i n g   t h s en ten ce   i n to   ter m s .       2.   Q U E RY  P RE P RO CE SS I N G   T E CH NI Q U E S   2 . 1 .   Sto p w o rds   Re m o v a l:   Sto p w o r d s   [7 ]   ar th s u p er f l u o u s   ter m s   w h ic h   ar d etac h ed   af ter   p r o ce s s i n g   o f   n atu r al  lan g u a g e.   T h e   m o tiv a tio n   is   au to m ati n g   th p r o ce s s   o f   id en tify i n g   an d   r em o v i n g   th s to p   w o r d s   an d   p r o d u ce s   th lis o f   m ea n in g f u w o r d s .   Sto p   w o r d s   ar li k ( t h e,   o f ,   a n d ,   o r ,   etc. ) .   T h ese  t y p es  o f   w o r d s   d o n ca r r y   a n y   w eig h t,   h en ce   n ee d   to   b r em o v ed .   I f   th tex ts   ar b ased   o n   a   tem p late,   it m ig h t b u s ef u l to   r em o v th w o r d s   th at  m a k u p   th tem p lat e   to   r ed u ce   th ese  w o r d s   i m p ac o n   th s i m i lar it y   m ea s u r [ 8 ].               2 . 2 .   Ste mm ing :     I is   th p r o ce s s   o f   r ed u cin g   th ter m s   to   th eir   s te m .   I ts   aim   at   id en tify   t h b asic  f o r m s   o f   w o r d .   Du r in g   th is   p h a s af f i x es  a n d   o th er   lex ical  co m p o n e n ts   ar r e m o v e d   f r o m   ea c h   to k en ,   a n d   o n l y   t h s te m   r e m ai n s   [ 8 ] .   Fo r   ex a m p le,   p la y ed   an d   p la y i n g   ar b o th   s te m m ed   in to   p la y .     Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2252 - 8 7 7 6   I J - I C T   Vo l.  7 ,   No .   1 ,   A p r il   20 1 8   :   8   12   10           2 . 3 .     Sp elling   co rr ec t io n:   T h p r o p o s al  is   to   u s th co r r ec s p ellin g   [ 9 ]   o f   t h w o r d   th a is   m o s r eg u lar   a m o n g   q u er ie s   t y p ed   i n   b y   o t h er   w eb   u s er s .   I is   m o r e   p r o b a b le  th at  t h u s er   w h o   t y p ed   lo v   in te n d ed   to   t y p th q u er y   lo v e.   T h er is   lis o f   co r r ec ted   w o r d s   in   th d i ctio n ar y .   T h s y s te m   f in d s   t h d is tan ce   b et w ee n   m is s p el led   w o r d s   an d   co r r ec ted   w o r d   an d   r etu r n s   co r r ec ted   w o r d ,   w h er t h er is   s m alle s d is ta n ce   b et w ee n   m is s p elled   w o r d   an d     co r r ec ted   w o r d .   T h ed it  d is tan ce   b et w ee n   t wo   s tr in g s   ( o r   w o r d s )   an d   o f   len g t h s   m   a n d   n   r esp ec ti v e l y ,   ca n   b e   d ef in ed   [ 1 0 ]   as f o llo w s.                 Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       A n   Op timu A p p r o a ch   fo r   P r ep r o ce s s in g   o f W eb   Use r   Qu ery   ( V ija R a n a )   11   2 . 4 .   T o k eniza t io n:    T o k en izatio n   is   th s ch e m o f   s p litt i n g   th s e n te n ce   in to   t er m s .   Di f f er e n p o licies  ca n   b ch o s en   r eg ar d in g   h o w   to   s p lit  i n to   w o r d s ,   an d   t h ch o ice  d ep en d s   o n   th t y p o f   d ata  to   to k en ize  [ 8 ] .   T h m ai n   ch ar ac ter is tic  o f   to k e n izatio n   is   to   r em o v n o i s y   w o r d s ,   s y m b o ls   an d   n u m b er s   t h at  ca n   af f ec th p er f o r m a n ce   o f   th s ea r c h   q u er y .             3.   E F F E C T I V E   AP P RO ACH   F O P RE P RO CE S SI N G   I n   th s u p er v i s ed   ap p r o ac h ,   w h ic h   is   also   k n o w n   as  t h co r p u s - b ased   ap p r o ac h ,   m ac h i n lear n in g   class i f ier s   s u c h   as  S u p p o r Vec to r   Ma ch in ( SV M) ,   Naïv e   B ay e s   ( NB ) ,   Dec is io n   T r ee   ( D - T r ee ) ,   K - Nea r est  Neig h b o r   ( KNN) ,   etc. ,   ar e   ap p lied   to   a   m a n u a ll y   a n n o tated   d ataset  [ 1 1 ] .   A f ter   b u ild i n g   t h d ataset,   s o m p r e - p r o ce s s in g   tec h n iq u e s   ar au to m atica ll y   ap p lied   to   it.             4.   I M P L E M E NT AT I O N   T h i m p le m e n tatio n   h a s   d o n e   o n   E clip s I DE   u s i n g   J a v la n g u a g w it h   j d k   ( j av d ev elo p m e n k it).   E clip s is   an   f u n d a m e n tal  to o l f o r   an y   J av d ev elo p er ,   in clu d in g   J av I DE ,   Git c lien t,  XM L   E d ito r ,   Ma v en   an d   Gr ad le  in te g r atio n .   Fig u r e   1   illu s tr ates  t h r es u lts   o b tain ed   o n   th q u er y   I   w a n to   p u r ch ase  p h o n ee   o f   h ig h   q u al iti es  f r o m   t h m ar k ee tes o f   Mu m b ai” .       Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2252 - 8 7 7 6   I J - I C T   Vo l.  7 ,   No .   1 ,   A p r il   20 1 8   :   8   12   12       Fig u r 1 .   P r ep r o ce s s in g   o f   Us er   Qu er y       Ste p - w is I llu s t ra t io n   Step   1 . I n p u t u s er   q u er y : I   w a n t to   p u r ch ase  p h o n ee   o f   h i g h   q u alities   f r o m   t h m ar k ee tes  o f   m u m b ai   Step   2 .   E x ec u te  Sto p w o r d s   r e m o v al  m o d u le:   Ou tp u t:  w an p u r ch a s e   p h o n ee   h ig h   q u ali ties   m ar k ee te s   m u m b ai  ( q u er y   w it h o u t a n y   s to p w o r d )     3 .   E x ec u te  Ste m m i n g   Ou tp u t : 3   w a n t p u r c h ase  p h o n ee   h ig h   q u ali t y   m ar k ee te  m u m b ai  ( q u er y   a f ter   p er f o r m i n g   s te m m in g )   Step   4 .   E x ec u te  Sp elli n g   C o r r ec tio n   m o d u le :   Ou tp u t:4   w a n t   p u r c h ase   p h o n e   h ig h   q u ali t y   m ar k e m u m b ai  ( q u er y   w it h   co r r ec ted   w o r d )     5 .     T o k en izatio n :   :’ w a n t   p u r ch a s e’   p h o n e’   h i g h   q u alit y   m ar k et   m u m b ai   ( T o k en s )         5.   CO NCLU SI O N   T h is   p ap er   h as  g i v en   co m p lete  in f o r m a tio n   ab o u t   p r ep r o ce s s in g   tec h n iq u es,   i.e .   s t o p   w o r d s   eli m i n atio n   an d   s te m m i n g   alg o r ith m s .   W h o p th is   p ap e r   w ill  h elp   tex m i n in g   r esea r ch er s   co m m u n it y .   W b eliev t h at,   w h a v atte m p ted   to   p r esen t   an   e s s e n tial,   d y n a m ic,   r o b u s t   an d   n o v el   to o f o r   clas s i f icatio n   o f   W eb   u s er   b eh av io r   an d   o u r   r esu lt s   an d   f in d i n g s   s u p p o r th s tr en g th   o f   th s y s te m .   T h e   s e m a n tics   a n al y s i s   f ea t u r ca n   b f u r th er   en h a n ce d   b y   p r o v id in g   n at u r al  la n g u a g p r o ce s s in g   tec h n iq u es.       RE F E R E NC E S   [1 ]   S h a rm a ,   S u n n y ,   Vijay   Ra n a .   " Web   P e rso n a li z a ti o n   th r o u g h   S e m a n ti c   A n n o tatio n   S y ste m . "   A d v a n c e in   Co mp u t a ti o n a S c ien c e s a n d   T e c h n o l o g y   2 0 1 7 1 0 (6 ) 1 6 8 3 - 1 6 9 0 .   [2 ]   Ma h a jan ,   S u n it a ,   S u n n y   S h a r m a ,   V ij a y   Ra n a .   " De si g n   a   P e rc e p ti o n   Ba se d   S e m a n ti c M o d e l   f o Kn o w led g e   Ex trac ti o n . "   In ter n a ti o n a J o u rn a o C o mp u ta t io n a In telli g e n c e   R e se a rc h   2 0 1 7 1 3 ( 6 ) 1 5 4 7 - 1 5 5 6 .   [3 ]   Brin ,   S e rg e y ,   L a w r e n c e   P a g e .   " R e p rin o f T h e   a n a to m y   o f   a   lar g e - sc a le  h y p e rtex tu a w e b   se a rc h   e n g in e . "   Co mp u te r   n e two rk s   2 0 1 2 5 6 (1 8 ) 3 8 2 5 - 3 8 3 3 .   [4 ]   S o n g ,   R u ih u a ,   e a l.   " Id e n t if y in g   a mb ig u o u q u e rie in   we b   se a rc h . "   P r o c e e d in g o f   th e   1 6 th   in ter n a ti o n a c o n f e re n c e   o n   W o rl d   W id e   W e b .   A CM ,   2 0 0 7 .   [5 ]   S riv a sta v a ,   Ja id e e p ,   e a l.   " W e b   u sa g e   m in in g Disc o v e r y   a n d   a p p li c a ti o n o f   u sa g e   p a tt e rn f ro m   w e b   d a ta."   Acm   S ig k d d   Exp lo ra ti o n s Ne wsle tt e r   2 0 0 0 1 ( 2 ) 1 2 - 2 3 .   [6 ]   G ra n k a ,   L a u ra   A . ,   T h o rste n   Jo a c h im s,  a n d   G e ri  Ga y .   " Ey e - tra c k i n g   a n a lys is  o f   u se b e h a v io in   W W W   s e a rc h . "   P r o c e e d in g o f   th e   2 7 th   a n n u a l   in tern a ti o n a l   A CM   S IG IR  c o n f e re n c e   o n   Re se a rc h   a n d   d e v e lo p m e n in   in f o rm a ti o n   re tri e v a l.   A CM ,   2 0 0 4 .   [7 ]   W il b u r,   W .   Jo h n ,   Ka rl  S iro tk in .   " T h e   a u to m a ti c   id e n ti f ica ti o n   o f   st o p   w o rd s."   J o u rn a o i n f o rm a ti o n   sc ien c e   1 9 9 2 18( 1 ) 4 5 - 5 5 .   [8 ]   Ru n e so n ,   P e r,   M a g n u A lex a n d e rss o n ,   Os k a Ny h o lm .   " De tec ti o n   o d u p li c a te  d e fec re p o rts  u si n g   n a tu ra la n g u a g e   p ro c e ss in . " .   P ro c e e d in g o f   th e   2 9 th   i n tern a ti o n a c o n f e re n c e   o n   S o f tw a re   En g in e e rin g .   I EE Co m p u ter     S o c iety ,   2 0 0 7 .   [9 ]   P e ters o n ,   Ja m e L .   " Co m p u ter  p ro g ra m f o d e tec ti n g   a n d   c o rre c ti n g   sp e ll in g   e rro rs " .   Co mm u n ica ti o n o th e   AC M   1 9 8 0 23( 12 ) 6 7 6 - 6 8 7 .   [1 0 ]   h tt p : // ww w . jan d a c iu k . p l/ t h e sis/n o d e 3 9 . h tm l   [1 1 ]   A b d u ll a ,   Na w a f   A . ,   e a l.   " Ara b ic  se n ti me n a n a lys is:  L e x ico n - b a se d   a n d   c o rp u s - b a se d . "   A p p li e d   El e c tri c a En g in e e rin g   a n d   Co m p u ti n g   T e c h n o l o g ies   (A EE C T ),   2 0 1 3   IE EE   Jo rd a n   Co n f e re n c e   o n .   IEE E,   2 0 1 3 .   Evaluation Warning : The document was created with Spire.PDF for Python.