I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   8 ,   No .   4 A u g u s t   201 8 ,   p p .   2 3 9 0 ~ 2 3 9 8   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 8 i 4 . p p 2 3 9 0 - 2398           2390       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   M ining  t he  Web  Da ta for Clas sify i ng  and Pred icting  Users’   Requests       G iri s S ,   Ra m a m urt hy   B Senthilna t ha n T   De p a rtme n o f   Co m p u ter S c ien c e ,   Ch rist   U n iv e rsity ,   Ho su Ro a d ,   Be n g a lu ru ,   Ka rn a tak a ,   In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   J an   31 ,   2 0 1 8   R ev i s ed   A p r   2 ,   2 0 1 8   A cc ep ted   A p r   20 ,   2 0 1 8     Co n su m e rs are   th e   m o st i m p o rtan a ss e o f   a n y   o rg a n iza ti o n .   T h e   c o m m e r c ial  a c ti v it y   o f   a n   o rg a n iza ti o n   b o o m w it h   th e   p re se n c e   o f   a   lo y a c u sto m e w h o   is  v isib ly   c o n ten w it h   th e   p ro d u c a n d   se rv ice b e in g   o f f e r e d .   In   a   d y n a m ic   m a rk e t,   u n d e rsta n d i n g   v a riatio n s   in   c li e n t‟s  b e h a v io c a n   h e lp   e x e c u ti v e s   e sta b li sh   o p e ra ti v e   p ro m o ti o n a c a m p a ig n s.  A   g o o d   n u m b e o f   n e c o n su m e rs  a re   f re q u e n tl y   p ick e d   u p   b y   trad e rs  d u ri n g   p r o m o ti o n s.  T h o u g h ,   se v e r a o f   th e se   e n g ro ss e d   c o n su m e rs  a r e   o n e - ti m e   d e a s e e k e rs,  th e   p ro m o ti o n u n d e n iab ly   lea v e   a   p o siti v e   im p a c o n   sa les .   It  is  c ru c ial  f o r   trad e rs  to   i d e n ti f y   w h o   c a n   b e   c o n v e rted   to   lo y a c o n su m e a n d   th e n   h a v e   th e m   p a tro n ize   p ro d u c ts  a n d   se rv ice to   re d u c e   th e   p ro m o ti o n   c o st  a n d   in c re a se   th e   re tu rn   o n   in v e stm e n ts.   T h is  stu d y   in teg ra tes   a   c las sif ier  th a t   a ll o w p re d ictio n   o f   th e   ty p e   o p u rc h a se   th a a   c u st o m e w o u ld   m a k e ,   a w e ll   a th e   n u m b e o f   v is it th a h e /sh e   w o u ld   m a k e   d u rin g   a   y e a r.   T h e   p ro p o se d   m o d e a lso   c re a te o u tl in e o f   u se rs   a n d   b ra n d o it e m u se d   b y   th e m .   T h e se   o u tl in e m a y   n o b e   u se f u o n ly   f o th is   p a rti c u lar  p re d ictio n   tas k ,   b u c o u ld   a lso   b e   u se d   f o o t h e im p o rtan tas k in   e - c o m m e rc e ,   su c h   a c li e n se g m e n tatio n ,   p ro d u c re c o m m e n d a ti o n   a n d   c li e n b a se   g ro w th   f o r   b ra n d s .   K ey w o r d :   C u s to m er   Se g m en tatio n   C las s i f icatio n   P r ed ictio n   T r en d   E - co m m er ce   P r o d u ct  R ec o m m e n d atio n     Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Gir is h   S,    Dep ar t m en t o f   C o m p u ter   Scie n ce ,   C h r i s t U n iv er s it y ,   Ho s u r   R o ad ,   B en g al u r u ,   Kar n atak a,   I n d ia.   E m ail:  g ir is h . s @ cs.c h r is t u n iv e r s it y . i n       1.   I NT RO D UCT I O N     E - co m m er ce   w ith   t h h elp   o f   th W o r ld   W id W eb   h as  tak en   w o r ld   b u s i n ess e s   to   th n ex le v el,   w h er t h tr ad itio n al  ap p r o ac h   i s   o v er s h ad o w ed   b y   t h e   s ea m les s ,   q u ic k ,   e f f icie n an d   m in d - b lo w in g   ass is tan ce   o f   tec h n o lo g y .   I h as  p av ed   th w a y   f o r   co n v en ie n f o r m   o f   co n d u ct in g   b u s i n ess .   No w ,   th a t     E - co m m er ce   is   t h tr en d   i n   b u s in e s s   o r g a n izatio n s   an d   it  i s   h er to   s tay   f o r   th co m in g   y ea r s ,   f ir m s   in   g e n er al  m u s g ea r   to   a u to m atin g   th eir   co n s u m er   d ata  a n d   t h v ar ied   i n f o r m atio n   o n   t h eir   p r ef er e n ce s   i n   o r d er   to   r etain   th eir   e x is t in g   cl ien t s   a n d   attr ac th e   n e w   clie n ts .   C u s to m ized   Ser v ici n g   is   p r ed icted   to   b th o n l y   w a y   f o r w ar d   in   th e s ti m es  o f   d e m an d in g   co n s u m er s ,   w h o   to d a y   n o o n l y   lo o k   f o r w ar d   to   th b est  s er v ice  i n   t h e   least  p o s s ib le   ti m b u co s t - ef f ec ti v e   s er v ice  to o .   Data - m in i n g   tec h n iq u es   an al y s e   lar g a m o u n o f   d ata   w it h o u an y   p r e - d e f in ed   h y p o th esi s   to   ex tr ac m ea n i n g f u i n f o r m at io n ,   r u les  an d   c o n s tr ain t s .   Data   Min in g   is   a   p r o ce s s   o f   ex tr ac ti n g   k n o w led g f r o m   d atab ase s ,   in v o l v in g   p atter n   ex tr ac ti o n   a lg o r it h m s .   Data - m i n i n g   h as  a   co llectio n   o f   v ar io u s   tech n iq u es  to   e x tr ac p atter n s   a n d   to   b u ild   m o d el s   f r o m   lar g d ata - s ets.  T h ch al len g i n g   p ar f o r   m o s o f   t h b u s i n es s es   to d ay   i s   to   u n d er s ta n d   th n ee d s   o f   th e ir   cu s to m er s   i n   d y n a m ic  e n v ir o n m e n t.   I n   s u c h   s it u atio n ,   c h a n g m i n in g   i s   u s ed   b y   a n al y s t s   t o   u n d er s ta n d   cu s to m er s   n ee d s . As  d ec is io n - tr ee   alg o r ith m   i s   clas s i f icatio n - b ased   alg o r ith m ,   it  d o es n i n v o l v co m p lete   ch a n g in   th d ata - s et.   R u l e   E x tr ac tio n   w as  t h m o s w id el y   u s ed   tech n iq u es  i n   u n d er s tan d in g   t h r elatio n s h ip   b et wee n   v ar io u s   p r o d u ct  ite m s   p u r c h ased   b y   th e   cu s to m er s   p r o p o s ed   s y s te m   t h at  c an   id en tify   c h a n g e s   i n   c u s to m er s   b e h av io u r .   T h Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Min in g   th W eb   Da ta   fo r   C la s s ifyin g   a n d   P r ed ictin g   User s   R eq u ests   ( Gi r is h   S )   2391   s y s te m   u s e s   p r ev io u s   p u r ch a s e   r ec o r d s   to   d eter m i n an d   id en tify   p r o d u cts th at  c u s to m er   m a y   lik e.   C u s to m er   b eh av io u r   g i v es  u s   d e m o g r ap h ic  v ar iab les  u s ed   to   an al y s p atter n s .   R ec en c y ,   Fre q u e n c y   a n d   m o n etar y ( R FM)   ca n   b u s ed   to   d if f er en tiate  b e t w ee n   co n s u m er s .   T h is   s tu d y   i n te g r ates  class i f ier   w h ic h   ca n   p r ed ict  th n ee d s   o f   th cu s to m er s   an d   t h t y p e   o f   p u r ch ase s   th e y   m i g h m a k e.   I n   th i s   p ap er ,   w h a v ca teg o r ized   b o th   p r o d u cts  an d   cu s to m er s   b ased   o n   th eir   p r ev io u s   r ec o r d s   an d   th en   s i m ilar   u s er s   w er g r o u p ed   to g eth er .   T h ex tr ac ted   in f o r m a t io n   ca n   b u s ed   f o r   v ar io u s   e - co m m er ce   ap p lic atio n s   s u c h   as  p r o d u ct  r ec o m m e n d atio n ,   C u s to m er   I n s i g h ts ,   C u s to m er   s eg m e n tatio n   a n d   User - b ased   b r an d   id en tif icatio n .   T h g e n er ated   u s er   p r o f iles   o r   f ea tu r es  ca n   b u s ed   b y   m er ch a n ts   to   k n o w   t h eir   cu s to m er s   b etter .       2.   RE L AT E WO RK       Min i n g   is   t h p r o ce s s   o f   e x tr ac tin g   k n o w le d g o r   i n f o r m a t io n   f r o m   th w eb   [ 1 ] .   W eb   Min i n g   a ls o   h as  its   o w n   t y p e s   o r   w a y s   i n   w h ic h   it  is   tr ea ted   ac co r d in g   t o   w h at  k in d   o f   d ata  it   co n tain s   [ 2 ] .   C o n ten Min in g   is   k n o w led g o r   in f o r m atio n   g ain ed   f r o m   t h co n te n o f   t h s ite   [ 3 ] .   Stru ctu r Mi n in g   i s   th to p o lo g y   o f   t h s ite  o r   w a y   in   w h ic h   t h r ef er en ce s   o r   lin k s   ar p u at  t h e   s ite;  Usa g Mi n i n g   i s   ex tr ac t io n   o f   I n f o r m atio n   f r o m   t h u s er   lo g i n - i n   cr ed en tials   an d   s to r ed   as  u s er   d etail s   ac co r d in g l y .   A l s o   th co n c ep o f   w eb   m i n i n g   f r o m   s er v er   lo g   d etai l s   w as   th r o w n   i n to   li g h [ 4 ] .   A n   atte m p w a s   m ad to   clas s if y   u s er s   b ased   o n   th e   s ite s   v is i to r s   b u it  lac k ed   ac cu r ac y   b ec au s co n te n w as n ta k en   in to   co n s id er atio n .   C las s i f ica tio n   atte m p t s   w er e   also   m ad o n   te x co n te n ts   o f   th u s er s   v is ited   s ite s   w it h   th h elp   o f   t h lo ca ca c h an d   co o k ies   [ 5 ] Ho w e v er ,   as  th i s   w as  o n l y   b a s ed   o n   th r ec en v is i ts   an d   cli ck s   a n d   u s er s   i n ten tio n s   ar s u b j ec to   ch an g at   an y   ti m e,   it  w as n ea s y   to   g iv ex ac p r ed ictio n   ea ch   ti m a s   u s er s   tas te  o r   in ter est s   te n d   to   ch an g r ap id l y .   I t   b ec am d i f f icu l to   ca ch p ag es  an d   p r ed ict  th e m .   C l u s ter i n g   B ased   o n   p ag es‟   ac ce s s   an d   p ag s eq u en ce   w a s   also   an   atte m p m ad w h er r esu lt s   w er d r a w n   b ased   o n   th s e s s io n   ti m in g s   [ 6 ] .   T h er ar s o m alr ea d y   ex is t in g   s y s te m s   w h ic h   h el p   th w eb   d esi g n er s   i n   o r g an izi n g   th eir   w eb s i tes  ac co r d in g l y   i n   b o th   r ec o m m e n d at io n s   m eth o d   a n d   o f f li n m et h o d s   [ 7 ] .   R ec o m m en d atio n s   ar g e n er all y   b ased   o n   p r ev io u s   u s er s   i n ter est   an d   i f   t h p atter n -   m a tch   o cc u r s ,   r ec o m m e n d atio n   is   p u f o r w ar d   to   t h u s er .   A cc o r d in g   to   [ 8 ]   th er ar f e w   w a y s   i n   w h ic h   C o n te n Mi n i n g   ca n   h ap p en P r e - m in in g ,   w h er th e   s es s io n s   o n l y   i n v o l v e   co n ten t s   f r o m   t h s ite  an d   P o s t - m i n i n g ,   w h er th co n te n an d   th r esu l ts   ar in d ep en d en t   [ 9 ] .   Min in g   is   th e   p r o ce s s   o f   ex tr ac tin g   k n o w led g o r   in f o r m atio n   f r o m   th w e b .   W e b   Min in g   also   h a s   its   o w n   t y p es  o r   w a y s   i n   w h ic h   it   is   tr ea ted   ac co r d in g   t o   w h at  k i n d   o f   d a ta  it  co n tain s .   C o n ten t   Mi n in g ,   i s   n o th i n g   b u k n o w led g o r   in f o r m atio n   g a in e d   f r o m   th e   c o n ten t   o f   th e   s ite   [ 1 0 ] .   A ls o   th co n ce p o f   w eb   m in in g   f r o m   s er v er   lo g   d etail s   w a s   th r o w n   i n to   lig h [ 1 1 ] .   W h ich   is   co m b i n atio n   o f   d i f f e r en s y s te m s   p u to g e th er   f o r   b etter   r esu lts   [ 12] ,   [ 1 3 ] .   W eb   m in i n g   h elp s   i n   i m p r o v in g   t h s ca lab ilit y   an d   ef f ec t iv e n es s   o f   s ite.   An   ap p r o ac h   o f   u s in g   s e m a n ti d ata  g at h er ed   f r o m   w eb   m in i n g   an d   s h o w   h o w   s e m an tic  d ata  ca n   b u s ed   to   p er s o n alize   o n e‟ s   w eb s i te.   A l s o   s h o w s   h o w   to   u s s e m a n tic  d ata  to   i m p r o v th tr af f ic  attr ac ted   to w ar d s   s it [ 1 4 ] [ 1 5 ] .   A   r u le   b ased   p ag class i f icatio n   w a s   p r o p o s ed   [ 1 6 ] .   A   m o d el  w h er u s er   n a v i g atio n   p r o f ile s   ar g en er ated   w it h   t h h elp   o f   w eb   m in i n g   f r o m   th d ata  ac q u ir ed   f r o m   th s er v er s .   T h is   ap p r o ac h   is   b ased   o n   b y te - lev el  a n d   lan g u a g is   in d ep en d e n t,  th p r o f ile  s ize  is   li m ited   an d   t h ac cu r ac y   r ate  i s   b ased   th la n g u a g i n p u t ted   [ 1 7 ] T h r ec o r d   o f   ev en ts   o cc u r r in g   o v er   p er io d   o f   ti m i s   co llected   f r o m   t h s er v er   d o m ai n s   [ 1 8 ] .   T h e   p r o b lem s   i n   r ec o r d in g   th s eq u en tial  o cc u r r en ce s   o f   e v en t s   an d   ea ch   o f   t h is   ac ti o n s   ar s p lit  in to     s ess io n s   th e y   s h o w   th a o n s u ch   s es s io n s   h av e   t h d ata  wh ich   w ca n   u s e   to   f o r m   r u le s   f o r   d escr ib i n g   th e   n ex t   o cc u r r en ce   o f   an   ev e n t.  T h ey   p r o v id a n   al g o r ith m   wh ich   is   u s ed   to   h elp   r ec o r d   th ev en ts   a n d   p r o v id d escr ip tio n   f o r   it   [ 1 9 ] ,   [ 2 0 ]       3.   P RO P O SE M E T H O DO L O G Y   T h is   p ap er   ai m s   at   an a l y s in g   t h co n te n t o f   a n   E - co m m er ce   d atab ase.   B ased   o n   th a n al y s i s ,   m o d el   w a s   b u ilt to   p r ed ict  th p u r ch a s es o f   n e w   c u s to m er   b ased   o n   h i s / h er   ea r lier   p u r ch asi n g   tr a ck   r ec o r d .     3 . 1 .   Da t a   p re pa ra t io n   T h d ataset  w a s   s elec ted   f r o m   a n   E - co m m er ce   d ataset  co m p r i s i n g   4 0 0 , 0 0   en tr ies.  Fi g u r e   1   s h o ws   th at  t h d ata  co n tai n ed   4 3 7 2   u s er s   a n d   t h e y   h ad   p u r c h ase d   ab o u 3 6 8 4   p r o d u cts  an d   th to tal  n u m b er   o f   tr an s ac tio n s   ca r r ied   o u w er 2 2 0 0 0 .   T h n ex t   s tep   w a s   to   ar r iv a t   th e,   n u m b er   o f   p r o d u cts  b o u g h t   p er   tr an s ac t io n   a n d   a f ter   t h is   a ll  t h n u l v al u es  a n d   tr an s ac tio n s   wh er o r d er s   h ad   b ee n   ca n ce lled   w er r e m o v ed   f r o m   t h d ata  s et.   A   v ar iab le  w a s   th en   cr ea ted   to   s h o w   t h to tal  p r ice  o f   ea ch   p u r ch ase  m ad b y   th c u s to m er .   Fi g u r e   2   s h o w s   s a m p le  o f   h o b ask et  p r ice  is   ca lcu lated   f o r   ea ch   tr an s ac tio n .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t   201 8   :   2 3 9 0     2 3 9 8   2392       Fig u r 1 .   Su m m ar y   o f   t h w h o le  d ata  s et   Fig u r 2 s a m p le  o f   b as k et  p r ice  f o r   ea ch   tr an s ac tio n         3 . 2 .   Understa nd ing   pro du ct   ca t eg o ries   T o   b eg in   w it h ,   w f ir s e x tr ac in f o r m atio n   r eg ar d in g   p r o d u cts  f r o m   th d escr ip tio n   Var iab le.     Fig u r e   3   s h o w s   h o w   th b as k et  p r ice  o f   ea ch   tr an s ac tio n   is   d iv id ed   f o r   th w h o le  d ata s et.   T h p r o ce s s   o f   ex tr ac tio n   o f   i n f o r m atio n   is   as   f o llo w s :   a.   E x tr ac t th ter m s   f r o m   t h d es cr ip tio n   b.   Fo r   ea ch   o f   th e s ter m s ,   tr y   to   f i n d   o u t th r o o t a n d   co llectio n   o f   s et  o f   ter m s   r elate d   w it h   i t   c.   C alcu late  th o cc u r r e n ce   o f   ter m   in   t h d ata  s et         Fig u r 3 .   A   p ie - c h ar t d is p la y i n g   t h p r ice  ag ai n s t e ac h   in v o i c e         Fig u r 4 C o u n t o f   ea ch   w o r d   in   th p r o d u ct  d escr ip tio n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Min in g   th W eb   Da ta   fo r   C la s s ifyin g   a n d   P r ed ictin g   User s   R eq u ests   ( Gi r is h   S )   2393   Fig u r e   4   s h o w s   th n u m b er   o f   o cc u r r en ce s   o f   ea ch   w o r d   in   th d ataset.   W ith   th h el p   o f   th ese   k e y w o r d s ,   w co u ld   n o w   g r o u p   th p r o d u cts.  Firstl y ,   th p r o d u cts  w er g r o u p ed   in to   an   m * n   m a tr ix w h er e   th a{ m , n co ef f ic ien t   is   1   i f   t h d escr ip tio n   o f   t h p r o d u ct  m   c o n tai n s   th e   w o r d   n ,   a n d   0   o th er w is e.   Fig u r e   is   m atr i x   s h o w in g   h o w   t h k e y w o r d s   ar m ap p ed   w it h   th p r o d u cts.         Fig u r 5 A   m atr ix   d ep icti n g   h o w   k e y w o r d s   ar m ap p ed   w it h   r esp ec tiv p r o d u cts       3 . 3 .   Clus t er   p ro du ct s   I n   t h is   s ec tio n ,   p r o d u cts   o f   s i m ilar   k i n d   w er g r o u p ed   i n to   r esp ec tiv cla s s e s .   Fo r   g r o u p i n g   o f   t h ese   p r o d u cts,  w u s ed   K m ea n s   te ch n iq u e,   w h er it  u s ed   E u clid ea n   Di s tan ce   to   ca lc u late  t h d is tan ce   a n d   g r o u p   th p r o d u cts  ac co r d in g l y .   W h ile  C l u s ter i n g ,   it  w a s   f o u n d   th at  w h e n   t h n u m b er   o f   clu s ter s   h ad   g o n e     b ey o n d   5 ,   th n u m b er   o f   ele m en ts   i n   ea c h   cl u s ter   b ec a m e   v er y   lo w .   T h er ef o r e,   it  w as   d ec id ed   to   s eg r eg ate   th e m   in to   5   clu s ter s .   Fi g u r e   6   s h o w s   n u m b er   o f   ele m e n ts   i n   ea ch   clu s ter .       Fig u r 6 Nu m b er   o f   ele m e n ts   in   ea ch   C l u s ter       W n o ticed   t h at  ea c h   c lu s ter   co n tai n ed   o b j ec ts   th at   co u l d   b ass o ciate d   w i th   ter m s   w h ic h   h ad   m ea n in g .   Fi g u r 7   s h o w s   w o r d   clo u d   w it h   v ar io u s   ele m en t s   in   ea ch   cl u s ter .           Fig u r 7 A   w o r d   clo u d   o f   v ar i o u s   ele m en t s   in   d i f f er en t c l u s t er s       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t   201 8   :   2 3 9 0     2 3 9 8   2 394   3 . 4 .   P rincipa l c o m po nent  a na ly s i s   I n   o r d er   to   ch ec k   th u n iq u e n ess   o f   ele m e n ts   in   t h cl u s ter .   P C A   w a s   p er f o r m ed   to   u n d er s tan d   its   d is tin ct n es s .   Fi g u r e   8   s h o w s   h o w   ele m e n t s   ar s ca tter ed   w it h i n   t h eir   g r o u p s .   Fi g u r e   9   s h o w s   t h p r o d u cts  clu s ter ed   af ter   P C A .         Fig u r 8 Un iq u e n es s   o f   t h el e m en ts   w it h   t h clu s ter             Fig u r 9 C lu s ter   o f   v ar io u s   p r o d u cts       3 . 5 .   Cus t o m er   c a t eg o ries   W n ee d ed   to   f ir s t   g r o u p   th e   v ar io u s   p r o d u cts   i n to   5   cl u s ter s .   Fo r   a n al y s is ,   t h is   in f o r m atio n   w a s   ad d ed   to   th d ataset  in   th e   f o r m   o f   ca t_ p r o d ,   w h er ea c h   c lu s ter   w as  d e n o ted .   Nex t,   C at _ v ar iab les  w er e   cr ea ted ,   w h ich   in d icate d   t h a m o u n s p en i n   ea c h   p r o d u ct  ca teg o r y .   B y   d o i n g   th i s ,   w h ad   all  th d ata  t h at   w a s   r eq u ir ed   in   o n Data   f r a m o r   tab le.   Fig u r e   1 0   s h o ws  h o w   ea c h   cu s to m er s   in v es t m e n i n   d if f er en t   ca teg o r ies.          Fig u r 1 0 A   s a m p le  s h o w i n g   h o w   ea c h   cu s to m er s   in v est m en t v ar ie s   in   v ar io u s   ca te g o r ie s       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Min in g   th W eb   Da ta   fo r   C la s s ifyin g   a n d   P r ed ictin g   User s   R eq u ests   ( Gi r is h   S )   2395   Hav i n g   d o n e   all  t h is ,   w co u l d   n o w   f i n d   t h o th er   v ar iab les   lik m a x ,   m in ,   m ea n   a n d   last _ p u r ch ase   f o r   ev er y   u s er   w h ic h   h elp ed   i n   id en ti f y i n g   a n   i n d iv id u al  u s er   w h o   h ad   m ad j u s o n e   s i n g le  p u r c h ase.   On e   o f   th o b j ec tiv w as  to   tar g et  th e s cu s to m er s   an d   tr y   to   r etain   th e m .   F ig u r e   1 1   s h o w s   Un iq u en es s   o f   cu s to m er s   af ter   clu s ter in g .       Fig u r 1 1 Un iq u en e s s   o f   cu s t o m er s   w h e n   cl u s ter ed       T h n u m b er   o f   c lu s ter s   c h o s e n   w er b ased   o n   t h s ilh o u ett s co r an d   t h b est   s co r w a s   o b tain ed   w it h   1 1   clu s ter s .   I is   e v id en th at  c u s to m er s   in   th cl u s ter s   w er d is ti n ct  a n d   th co n te n t s   w er av er a g ed   b y   s elec ti n g   v ar io u s   cl ien t s .   W h e n   ch ec k ed   af ter   cl u s ter i n g   t h to tal  n u m b er   o f   cu s to m er s   w er 3 6 0 8 .       4.   E VA L UA T I O AND  R E SU L T S     4 . 1 .   Cla s s if ica t io n o f   c us t o m er s   Th o b j ec tiv h er w as   to   b u ild   a   m o d el  th at   w o u ld   cla s s i f y   c u s to m er s   i n to   d i f f er en cu s to m er   ca teg o r ies  b ased   o n   th e   r ec o g n itio n   o f   th eir   ea r lier   p u r ch a s i n g   p atter n s .   T h m ai n   ai m   w a s   to   m ak s u r th is   class i f icatio n   h ap p en ed   at  th e   v er y   f ir s t   v i s it  i ts el f .   Fo r   th is ,   w to o k   th h elp   o f   th at tr ib u tes  o f   ea c h   cla s s   an d   class if ied   b ased   o n   th e s attr ib u tes.  As  t h ai m   w as  to   d ef in cla s s   a th f ir s v is it,   o n l y   t h co n ten t   o f   th ite m   w as c o n s id er ed   an d   v ar iab les s u c h   as  f r eq u en c y   an d   all  w er i g n o r ed .   1 )     Su p p o r Vec to r   Ma ch in class if ier :   At  f ir s t,  SVC   cla s s i f ier   w a s   u s ed   to   cr ea te  an   I n s ta n ce   o f   C L ASS_ FIT   an d   th e n   ca ll g r id _ s ea r ch   ( ) .   P r o v id ed   P ar am eter s   w er e:   a.   H y p er p ar am e ter s   w it h   o p ti m al   v alu e s .   b.   Nu m b er   o f   f o ld s   f o r   cr o s s   v a li d atio n .   W h en   T ested   th m o d el   g a v p r ec is io n   o f   8 7 . 4 0 %.   2 )     C o n f u s io n   Ma tr i x :   F ig u r e   12 ,   is   co n f u s io n   m atr i x   th at  s h o w s   t h p r ed icted   v alu e s   ar p lo tted   o n   th x   ax is ,   t h tr u v a lu e s   ar p lo tted   o n   th y   ax is   an d   t h ele m e n ts   p lo tted   ac r o s s   th d i ag o n al  ar r ig h tl y   class i f ied .   Fo r   ex a m p le,   w h e n   s ee n   i n   th ab o v m a tr ix   f o r   T r u L ab el  2   an d   f o r   P r ed icted   L ab el  2   t h e   clas s i f ied   co u n t o f   ele m en ts   is   2 7 2 .           Fig u r 1 2 A   co n f u s io n   m atr i x   s h o w i n g   t h tr u v al u es a n d   p r ed icted   v alu es     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t   201 8   :   2 3 9 0     2 3 9 8   2396   4 . 2 .   L ea rning   c urv e   Fig u r e   13   is   lear n i n g   c u r v an d   lear n i n g   c u r v i s   t y p ical  w a y   to   test   t h q u ali t y   o f   f it .     I n   p ar ticu lar ,   th e s t y p o f   c u r v es  allo w   to   d etec p o s s ib le  d r a w b ac k s   i n   m o d el,   li n k ed   f o r   ex a m p le  to   o v er -   o r   u n d er - f itti n g .   T h is   al s o   s h o w s   to   w h ic h   ex te n t t h m o d c o u ld   b en ef it  f r o m   lar g er   d ata   s a m p le.               Fig u r 1 3 A   s et  lear n in g   cu r v es d if f er en tiat in g   b et w ee n   v ar i o u s   clas s i f ier s       Fin all y ,   t h r esu lt s   o f   t h d if f er en class i f ier s   p r esen ted   in   t h p r ev io u s   s ec tio n s   co u ld   b co m b i n ed   to   i m p r o v th clas s if icatio n   m o d el.   T h is   co u ld   b ac h iev e d   b y   s elec ti n g   th c u s to m er   ca teg o r y   as  t h o n e   in d icate d   b y   t h m aj o r ity   o f   cl ass i f ier s .   T o   d o   th is ,   th Vo ti n g   C la s s i f ier   m eth o d   o f   t h s k lear n   p ac k ag w as   u s ed .   A s   f ir s s tep ,   th p a r a m eter s   o f   t h v ar io u s   clas s if ier s   u s i n g   th b est  p r ev io u s   p ar am e ter s   w er ad j u s ted .   T h en ,   class i f ier   w a s   d ef i n ed   th at  m er g ed   th r es u lts   o f   t h v ar io u s   clas s i f ier s   an d   tr ain ed   th e m .   A   f e w   c lass if ier s   w er tr ai n e d   to   ca teg o r ize  cu s to m er s .   U n til  t h at  p o i n t,  t h w h o le   an al y s i s   w a s   b ased   o n   th d ata  o f   th f ir s 1 0   m o n t h s .   I n   th i s   s ec tio n ,   th e   m o d el  f o r   th last   t w o   m o n t h s   o f   th d ataset  t h at   h ad   b ee n   s to r ed   in   th e   s et_ test   d ataf r a m w a s   test ed .   I n   f ir s t   s tep ,   t h is   d ata  w as   r eg r o u p ed   an d   r e f o r m atted   ac co r d in g   to   t h s a m p r o ce d u r as  w as   u s ed   o n   t h tr ai n i n g   s et.   Ho w ev er ,   to   tak e   in to   ac co u n th e   d if f er en ce   i n   ti m b et w ee n   t h t w o   d atasets   a n d   w ei g h   th v ar iab les  co u n an d   s u m   t o   o b tain   eq u iv alen ce   w it h   th e   tr ain in g   s et,   th d ata  w a s   co r r ec ted .   Fig u r e   1 4   s h o w s   t h co n s o lid ated   d ataf r a m tak e n   f o r   test i n g .           Fig u r 1 4 A   s a m p le  d ata  tak e n   f o r   test i n g       T h en ,   th d ataf r a m e   w a s   co n v er ted   in to   m atr i x   an d   o n l y   v ar iab les  t h at  d ef i n t h ca teg o r y   to   w h ic h   co n s u m er s   b elo n g   w er r etain ed .   A th i s   le v el,   th m et h o d   o f   n o r m al izatio n   u s ed   o n   th tr ai n i n g   s et   w a s   r ec alled .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Min in g   th W eb   Da ta   fo r   C la s s ifyin g   a n d   P r ed ictin g   User s   R eq u ests   ( Gi r is h   S )   2397   E ac h   lin i n   t h is   m atr ix   co n t ain ed   co n s u m er ' s   b u y i n g   h a b it s .   A t h i s   s ta g e,   it  w a s   q u esti o n   o f   u s i n g   t h ese   h ab it s   i n   o r d er   t o   d ef in e   ca te g o r y   to   w h ic h   t h is   co n s u m er   b elo n g s .   Fi g u r e   1 5   s h o w s   t h e   p r ec is io n   v al u o f   o u r   m o d el  w h e n   test ed   w it h   v ar io u s   clas s if ier s .       Fig u r 1 5 P r ec is io n   v alu o f   m o d el  w h e n   test e d   w it h   v ar io u s   cla s s i f ier s       5.   CO NCLU SI O N     T h w o r k   d escr ib ed   in   th is   p a p er   w a s   b ased   o n   d atab ase  p r o v id in g   d etails  o n   p u r c h ase s   m ad o n   an   E - co m m er ce   p latf o r m   o v e r   p er io d   o f   o n y ea r .   E ac h   en tr y   i n   t h d ataset   d escr ib ed   th p u r c h ase  o f   p r o d u ct,   b y   p ar ticu lar   cu s t o m er   a n d   at  g iv e n   d ate.   Giv e n   th a v ailab le  in f o r m at io n ,   m o d el  w a s   d ev elo p ed   th at  allo w ed   th p r ed ictio n   o f   th t y p o f   p u r c h ase  t h at  cu s to m er   w o u ld   m ak a s   w e ll  as  th e   n u m b er   o f   v i s it s   th at  h e/ s h wo u ld   m ak d u r in g   y ea r ,   r ig h t   f r o m   i ts   f ir s v i s it to   th E - co m m er ce   s ite.   Fin all y ,   t h q u alit y   o f   t h ese  p r ed ictio n s   o f   th d i f f er e n c lass i f ier s   w er tes ted   o v er   th last   t w o   m o n t h s   o f   th d ataset.   T h d ata  w as  t h e n   p r o ce s s ed   in   t w o   s t ep s f ir s t,  all  t h d ata  w as  co n s id er ed   ( o v er   th 2   m o n t h s )   to   d ef i n th e   ca teg o r y   to   w h ich   ea ch   clie n b e lo n g s ,   a n d   th e n ,   t h e   clas s if i er   p r ed ictio n s   w er e   co m p ar ed   w it h   t h is   ca te g o r y   a s s i g n m e n t.  I w as  f o u n d   t h at  7 5 % o f   clie n ts   w er a w ar d ed   th r ig h t c lass e s .   T h e   p er f o r m a n ce   o f   th c lass if ier   t h er ef o r s ee m ed   c o r r ec g iv e n   th p o ten tia s h o r tco m i n g s   o f   th c u r r en m o d el.   I n   p ar ticu lar ,   b ias  th at  h ad   n o b ee n   d ea lt  w it h ,   w er t h co n ce r n s   o n   t h s ea s o n al it y   o f   p u r ch a s es  an d   th e   f ac t h at  p u r ch a s in g   h ab it s   wo u ld   p o ten tiall y   d ep en d   o n   t h ti m e   o f   y ea r   ( f o r   ex a m p l e,   f esti v al   ti m es  lik e   C h r i s t m as,  Di w a li  etc. ) .   I n   p r ac tice,   th i s   s ea s o n al  e f f ec m a y   ca u s t h ca te g o r ies  d ef i n ed   o v er   1 0 - m o n t h   p er io d   to   b q u ite  d if f er e n f r o m   t h o s ex tr ap o lated   f r o m   th e   last   t w o   m o n t h s .   I n   o r d er   to   co r r ec s u ch   b ias,  it   w o u ld   b b en ef icial  to   h a v d a ta  th at  w o u ld   co v er   lo n g er   p er io d   o f   tim e.       RE F E R E NC E S   [1 ]     O.  Et z io n i,   T h e   w o rld - w id e   w e b Qu a g m ire  o g o ld   m in e Co mm u n ica ti o n o th e   ACM ,   v o l .   39 ,   n o .   11 ,   1 9 9 6   pp.   65 - 6 8 .   [2 ]     M .   Ei rin k i,   M .   V a z irg ian n is,   Web   m in in g   f o w e b   p e rso n a li z a ti o n ACM   T ra n sa c ti o n o n   In ter n e T e c h n o lo g y v o l.   3 ,   n o .   1 2 0 0 3 ,   p p .   1 - 2 7 .   [3 ]     M .   He n z in g e r,   L in k   a n a l y s is  in   w e b   in f o rm a ti o n   re tri e v a l ,   Bu ll e ti n   o f   th e   tec h n ica c o m m it tee   o n   d a ta  e n g in e e rin g ,   IEE Co m p u ter  S o c iet y ,   v o l.   23 2 0 0 0 ,   p p .   3 - 9.   [4 ]     D.  S h e n ,   Y.  C o n g ,   J. - T .   S u n ,   Y. - C.   L u ,   S t u d ies   o n   C h i n e se   w e b   p a g e   c las si f ica ti o n ,   in :   Pro c e e d i n g o t h e   2 0 0 3   In ter n a t io n a C o n fer e n c e   o n   M a c h in e   L e a rn i n g   a n d   Cy b e rn e ti c s ,   v o l.   1 ,   2 0 0 3 ,   p p .   2 3 - 27.   [5 ]     P .   V a h d a n A m o li   a n d   O.   S o j o o d S h . ,   S c ien ti f ic  Do c u m e n ts  Clu ste rin g   Ba se d   o n   T e x S u m m a ri z a ti o n ,   In t e rn a t io n a J o u rn a o E lec trica a n d   C o mp u ter   En g in e e rin g   ( IJ ECE ) v o l.   5 ,   n o .   4 ,   p p . 7 8 2 - 7 8 7 ,   2 0 1 5 .   [6 ]     H.  M a n n il a ,   H.  T o iv o n e n ,   A . I.   V e rk a m o ,   Disc o v e rin g   f re q u e n e p iso d e in   se q u e n c e s” ,   in Pro c e e d in g o t h e   Fi rs In ter n a ti o n a Co n fer e n c e   o n   Kn o wle d g e   a n d   Da t a   M in i n g ,   1 9 9 5 ,   p p .   2 1 0 - 2 1 5 .   [7 ]     Ra v k u m a V . ,   a n d   K.   Ra g h u v e e r,   L e g a Do c u m e n ts  Clu ste rin g   a n d   S u m m a riz a ti o n   u sin g   Hie r a rc h ica L a ten Dirich let  A ll o c a ti o n ,   IA ES   I n ter n a ti o n a J o u rn a o Arti fi c ia I n te ll ig e n c e   ( IJ - AI) ,   v o l.   2 ,   n o .   1 ,   p p .   2 7 - 3 5 ,   2 0 1 3 .   [8 ]     R .   Bu rk e ,   H y b rid   re c o m m e n d e s y ste m s: su rv e y   a n d   e x p e ri m e n ts ,   Us e M o d e ll in g   a n d   Us e r - Ad a p ted   In ter a c ti o n ,   v o l.   12 ,   n o .   4 2 0 0 2 ,   p p .   3 3 1 - 3 7 0 .   [9 ]     H.  Da i,   B.   M o b a sh e r,   A   ro a d   m a p   to   m o re   e ff e c ti v e   w e b   p e rso n a li z a ti o n In teg ra ti n g   d o m a in   k n o w l e d g e   w it h   w e b   u sa g e   m in in g ,   in I n ter n a ti o n a l   Co n fer e n c e   o n   In ter n e t   Co mp u ti n g ,   2 0 0 3 ,   p p .   5 8 - 6 4 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t   201 8   :   2 3 9 0     2 3 9 8   2398   [1 0 ]     W .   L in ,   S . A .   A l v a re z ,   C.   Ru iz,  Co ll a b o ra ti v e   re c o m m e n d a ti o n   v ia  a d a p t iv e   a ss o c iatio n   r u l e   m in in g ,   in :   W EB KDD 2 0 0 0     W e b   M in in g   fo E - Co mm e rc e     Ch a ll e n g e a n d   Op p o rtu n it ies ,   S e c o n d   In ter n a ti o n a W o rk sh o p Bo sto n ,   M A ,   USA ,   2 0 0 0 .   [1 1 ]     O.R.   Zaia n e ,   M .   X i n ,   J.   Ha n ,   Disc o v e rin g   W e b   a c c e ss   p a tt e rn a n d   tren d b y   a p p ly in g   OLA P   a n d   d a ta  m in in g   tec h n o l o g y   o n   W e b   lo g s” ,   in A d v a n c e s in   Dig it a L ib ra ries ,   S a n ta   Ba rb a ra ,   CA ,   US A ,   1 9 9 8 ,   p p .   1 9 - 29.   [1 2 ]     B.   Zh o u ,   S . C .   Hu i,   K.   Ch a n g ,   A n   in telli g e n re c o m m e n d e s y st e m   u sin g   se q u e n ti a w e b   a c c e ss   p a tt e rn s” ,   i n :   Pro c e e d in g o t h e   2 0 0 4   IEE Co n fer e n c e   o n   Cy b e rn e t ics   a n d   I n tel li g e n S y ste ms ,   S in g a p o re ,   2 0 0 4 ,   p p .   1 - 3.   [1 3 ]     H.  Ish ik a w a ,   T .   Na k a ji m a ,   T .   M izu h a ra ,   S .   Y o k o y a m a ,   J.  Na k a y a m a ,   M .   Oh ta,  K.  Ka tay a m a ,   A n   in telli g e n w e b   re c o m m e n d a ti o n   sy ste m A   w e b   u sa g e   m in in g   a p p ro a c h ,   in :   IS M I S ,   2 0 0 2 ,   p p .   3 4 2 - 3 5 0 .   [1 4 ]     R.   M e tere n ,   M .   S o m e re n ,   Us in g   c o n ten t - b a se d   f il terin g   f o re c o m m e n d a ti o n ,   i n Pro c e e d in g o f   M L n e t/ ECM L 2 0 0 0   W o rk sh op ,   Ba rc e lo n a ,   S p a in ,   3 0   M a y   2 0 0 0 .   [1 5 ]     J.  L i,   O.R.   Zaı¨a n e ,   c o m b in in g   u sa g e ,   c o n ten t,   a n d   stru c t u re   d a ta  to   im p ro v e   we b   site  re c o m m e n d a ti o n ,   in EC - W e b ,   2 0 0 4 ,   p p .   3 0 5   3 1 5 .   [1 6 ]     W .   Co h e n ,   A .   M c Ca ll u m ,   D.  Qu a ss ,   L e a rn in g   to   u n d e rsta n d   t h e   w e b IEE Da ta   En g in e e r in g   B u ll e ti n ,   v o l.   23 ,   2 0 0 0 ,   p p .   17 - 2 4 .   [1 7 ]     S . K.  M a d ria,  S . S .   B h o w m ic k ,   W. K.  Ng ,   E. P .   L im ,   Re se a rc h   issu e in   W e b   d a ta  m in in g ,   in Pr o c e e d in g o t h e   Fi rs In ter n a ti o n a Co n fer e n c e   o n   Da ta   W a re h o u sin g   a n d   K n o w led g e   Disc o v e ry   ( Da W a K’9 9 ) ,   1 9 9 9 ,   p p .   3 0 3 - 3 1 2 .   [1 8 ]     V .   Ke sˇe lj ,   F .   P e n g ,   N.  Ce rc o n e ,   C.   T h o m a s,  “N - g ra m - b a se d   a u th o p ro f il e f o a u th o rs h ip   a tt rib u ti o n ,   in :   Pro c e e d in g o t h e   Co n fer e n c e   P a c if ic A ss o c ia t io n   f o r Co mp u t a ti o n a L in g u isti c s ,   No v a   S c o ti a ,   Ca n a d a ,   2 0 0 3 .   [1 9 ]     Da s,  S . ,   M a th e w ,   M .   a n d   V ij a y a r a g h a v a n ,   P .   ( 2 0 1 7 ).   A Eff icie n t   A p p ro a c h   f o F in d in g   n e a Du p li c a te W e b   p a g e u sin g   M in im u m   Weig h Ov e rla p p i n g   M e th o d .   In ter n a ti o n a J o u rn a o El e c trica a n d   C o mp u ter   En g in e e rin g   ( IJ ECE ) ,   v o l.   1 ,   p p .   1 8 7 - 1 9 4 ,   2 0 1 1 .   [2 0 ]     Zh a n g ,   L . ,   Ya n g ,   S .   a n d   Zh a n g ,   M .   (2 0 1 8 ).   E - c o m m e rc e   W e b sit e   Re c o m m e n d e S y ste m   Ba s e d   o n   Diss im il a rit y   a n d   A ss o c iatio n   Ru le” .   In d o n e sia n   J o u rn a o El e c trica a n d   Co m p u ter   En g i n e e rin g   ( IJ ECE ) v o l.   1 2 ,   p p .   3 5 3 - 3 6 0 ,   2 0 1 4 .       Evaluation Warning : The document was created with Spire.PDF for Python.