I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m p u t er   Science   Vo l.   10 ,   No .   2 May   201 8 ,   p p .   7 7 8 ~7 8 5   I SS N:  2502 - 4752 DOI : 1 0 . 1 1 5 9 1 / i j ee cs . v 1 0 . i2 . p p 778 - 7 8 5          778       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / ijeec s   Selective  Co llig a tion a nd Selec tive  Scra m bl ing   for  P riv a cy   Preserva tion  in   D a ta M ining       I s hw a ry a   M . V 1 ,   K . Ra m esh   K u m a r 2   H in d u sth a n   In st it u te  o f   T e c h n o lo g y   a n d   S c ien c e ,   P a d u r   CS De p t ,   S ri   S a iRam   En g in e e rin g   Co ll e g e   T a m b a ra m ,   Ch e n n a i,   T a m il N a d u ,   In d ia   De p a rtm e n o f   In f o r m a ti o n   T e c h n o l o g y , H in d u sth a n   In stit u te o f   T e c h n o l o g y   a n d   S c ien c e ,   P a d u r       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   No v   2 5 ,   2 0 1 7   R ev i s ed   J an   1 2 ,   2 0 1 8   A cc ep ted   F eb   2 1 ,   2 0 1 8       T h e   w o rk   is  to   e n h a n c e   th e   ti m e   e ff icie n c y   in   re tri e v in g   th e   d a ta  f ro m   e n o rm o u b a n k   d a tab a se .   T h e   m a jo d ra w b a c k   in   re tri e v in g   d a ta  f ro m   larg e   d a tab a se is  ti m e   d e la y .   T h is  ti m e       h in d ra n c e   is  o w e d   a th e   a lrea d y   e x isti n g   m e th o d   ( S VM),   A b stra c Da ta  Ty p e   ( A D T tree   p u rsu e so m e   e lo n g a ted   S e q u e n t ial  ste p s.  T h e se   tec h n iq u e tak e a d d it io n a siz e   a n d   w it h   a   re d u c ti o n   o f   sp e e d   in   train in g   a n d   tes ti n g .     A n o th e m a jo n e g a ti v e   a sp e c o f   th e s e   tec h n iq u e is  it A lg o rit h m i c   c o m p lex it y .   T h e   c l a ss i f ica ti o n   a lg o rit h m h a v e   f iv e   c a teg o ries .   T h e y   a re   ID3 ,   k - n e a re st  n e ig h b o u r,   De c isio n   tree ,   A NN ,   a n d   Na ïv e   B a y e a lg o rit h m .   T o   tri u m p h   o v e th e   d ra w b a c k s   in   S V M   t e c h n iq u e s,  w e   w o rn   a   tec h n iq u e   c a ll e d   Na ïv e   Ba y e Clas si f ica ti o n   (NBC)  A l g o rit h m   th a w o rk in   p a ra ll e m a n n e ra th e th a n   se q u e n ti a l   m a n n e r.   F o f u rth e r   e n h a n c e m e n we   c o m m e n c e d   a   Na ïv e   Ba y e u p d a tab le  a lg o rit h m   w h ich   is  th e   a d v a n c e d   v e r sio n   o f   Na ïv e   Ba y e c l a ss i f ica ti o n   a lg o rit h m .   T h u th e   p ro p o se d   tec h n i q u e   Na ïv e   b a y e s   a lg o rit h m   e n su re th a m in e c a n   m in e   m o re   e ff ici e n tl y   f ro m   th e   e n o rm o u s d a t a b a se .   K ey w o r d s :   A N N   B ay e s ian Alg o r it h m   Data   Min i n g   P r iv ac y P r eser v atio n   SVM   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e .     Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   I s h w ar y a   M. V,   Hin d u s t h an   I n s tit u te  o f   T ec h n o lo g y   an d   Scie n ce ,   P ad u r ,   C SE  Dep t,  Sri  Sai R a m   E n g in e er in g   C o lleg e,   T am b ar a m ,   C h e n n ai,   T a m ilNa d u ,   I n d ia   E m ail: i s h w ar y a. cse @ s air a m . ed u . in       1.   I NT RO D UCT I O N   I n   th e x is tin g   s y s te m ,   i w o r k s   i n   ch r o n o lo g ical  p r o g r ess io n .   I w i ll  en s u r o n l y   o n p r o ce s s   at  a   ti m eit h er   co m p ar is o n   o r   cla s s i f icatio n   an d   ex tr ac tio n   o r   p r ed ictio n .   So   it  tak es  ad d itio n al  ti m to   r elay   t h e   r eg r ess io n . T h f o r e m o s p h a s o f   Su p p o r V ec to r   Ma ch in alg o r ith m   is   to   class i f y   th e   r elev an d ata  a n d   ir r elev an t   d ata  f r o m   t h u n s tr u ctu r ed   m as s i v d atab ase.   T h en ,   it  co m p ar es  t h g i v en   q u e r y   w it h   t h r ele v a n d ata.   Af ter   ca r r y in g   o u t   th e   co m p ar is o n   p r o ce d u r t h en   it   ten d s   to   p r ec ed t h e x tr ac t i o n   p r o ce s s .   I n   t h e   ex tr ac tio n   p r o g r ess io n ,   it   r etr iev es   th e   r eq u ested   d ata  w h ic h   is   g i v e n   b y   t h u s er .   Su b s eq u en tl y ,   it   p r o ce ed s   to   co m p lete   t h p r ed ictio n   p r o ce s s   b y   r ati n g .   I ta k es   ad d itio n al  s ize   an d   ad d itio n al  ti m e   to   co m p u te.   As  i n   th e   ex is t in g   s y s te m   t h p r o ce s s   wo u ld   b in   s eq u e n tial o r d er ,   lead s   to   in cr ea s in   ti m a n d   in c r ea s in   m e m o r y .   Yan g   et  al. [ 1 ]   ex p r ess ed   d esig n   m ec h a n i s m s ,   w h e n   g i v e n   p r ef er en ce   p r o f ile  s u b m itte d   b y   u s er   th at  s ea r ch   p er s o n   w it h   m atc h in g   p r o f ile   in   d ec en tr alize d   m u lti - h o p   m o b ile   s o cial  n et w o r k s .   T h m ec h a n i s m s   ar p r iv ac y - p r ese r v in g n o   p ar ticip an ts   p r o f ile   an d   th s u b m itted   p r ef er e n ce   p r o f ile  ar ex p o s ed .   Go g et  al. [ 2 ]   ex p lo r ed   th r eliab l y   m atch   p r o f i les  i n   p r ac tic al  k n o w led g e,   ac r o s s   r ea l - w o r ld   s o cial  n et w o r k s ,   b y   e x p lo itin g   p u b lic  attr ib u te s ,   p u b licl y   p r o v id ab o u th em s el v es.  I also   d ef in ed   s et  o f   p r o p er ties   f o r   p r o f ile  attr ib u te s A v ailab il it y ,   C o n s is te n c y ,   n o n - I m p r ess io n ab ilit y ,   a n d   Dis cr i m i n ab ilit y   ( AC I D) th at  ar e   b o th   n ec e s s ar y   a n d   s u f f icien to   d eter m i n t h r eliab ili t y   o f   m atc h i n g   s c h e m e.   Su n   e al.   [ 3 ]   co m p o s ed   ar ea   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       S elec tive  C o llig a tio n   a n d   S ele ctive   S cra mb lin g   fo r   P r iva cy   P r eser va tio n   in   Da ta   Min in g   ( I s h w a r ya   M.V )   779   b ased   in f o r m al  o r g a n izatio n   a d m in i s tr atio n s   ( L B SNS)  h a v b ee n   ex p lo r ed th is   r e v ie w   co n s tr u cts   m o d el  to   an al y ze   t h s ec u r it y   m a th ,   ad v an tag s tr u ct u r e,   an d   s e x   co n tr asts .     P r ak ash   et  al.   [ 4 ]   im p le m en ted   an   ap p r o x i m atio n   au to m ated   s tr u ct u r e,   ca lled   Fil ter ed   W all   ( FW )   an d   it  f il ter ed   d is p o s ed   o f   s u b s ta n ce   f r o m   OSN  cl ien s u b s tan ce s .   T h g o al  is   to   u t ilize  e f f icien cla s s i f icatio n   p r o ce d u r to   s ta y   a w a y   f r o m   o v er p o w er ed   b y   u n s u cc ess f u m es s ag e s .   I n   OSN s ,   co n ten t   f i lter in g   ca n   also   b ab u s ed   f o r   u n iq u e,   m o r r ea ctiv e.   I n   [ 5 ]   ex p lai n ed   in te g r at io n   o f   A d ap tiv W ei g h R a n k i n g   P o lic y   ( A W R P )   w it h   i n telli g e n class if ier s   ( NB - A W R P - D A   a n d   J 4 8 - AW R P - D A )   v ia  d y n a m ic  ag i n g   f ac to r   to   i m p r o v class i f ier s   p o w er   o f   p r ed ictio n .   T h m et h o d s   ar u s ed   to   ch o o s th b est  s u b s e o f   f ea t u r es .   I n   [ 6 ]   in tr o d u ce d   n e w   f r a m e w o r k   ca lled   F u zz y   b ased   co n tex t u al  r ec o m m en d atio n   s y s te m   f o r   class i f icatio n   o f   cu s to m er   r ev ie w s .   I ex tr ac t s   th i n f o r m atio n   f r o m   t h r ev ie w s   b ase d   o n   th co n tex g i v e n   b y   u s e r s .   I n   [ 7 ]   s tu d ied   to   id en ti f y   t h b est  class i f ier s   f o r   class   i m b ala n ce d   h ea lth   d atas ets  th r o u g h   co s t - b a s ed   co m p ar is o n   o f   class i f ier   p er f o r m a n ce .   T h u n eq u al  m is class i f icatio n   co s ts   w er r ep r esen ted   i n   co s m atr i x ,   an d   co s t - be n ef it.    Dh i v ak ar   et   al  [ 8 ]   elab o r ated   r ec en ap p r o ac h es  w h ic h   ar e   in v o lv ed   i n   p r iv ac y   p r eser v a tio n   li k r an d o m izatio n ,   An o n y m iza tio n ,   p er tu r b atio n   an d   d is tr ib u te d   p r iv ac y   p r eser v atio n   m eth o d s .   J an b an d h u   et   a l   [ 9 ]   ex p r ess ed   p r iv ac y   p r eser v in g   in   d ata  m i n i n g   o f   m a n y   tec h n iq u es   alo n g   w ith   t h e ir   ad v an ta g e s   a n d   d is ad v an ta g es.     I t   also   d is c u s s ed   ab o u p r esen t   li m itat io n s   a n d   s co p f o r   f u t u r r esear c h   i n   p r iv ac y   p r eser v i n g   d ata  m i n i n g .   P atel  et  a [ 1 0 ]   in tr o d u ce d   ce r tai n   tr an s f o r m atio n   ap p r o ac h   to   d ea w i th   th e   p r iv ac y   d u r i n g   m i n in g .   T h is   ap p r o ac h   m ai n   o b j ec tiv is   to   p r o v id m o r ac cu r ac y   o f   s p ec i f ic  d ata  an d   p r eser v i n g   p r iv ac y   o f   o r ig in al  d ata.   T o   o v er co m th e s li m itatio n s   w w il in tr o d u ce   an   al g o r ith m   ca lled   Naïv B a y es  cla s s i f icatio n   alg o r ith m .   T h is   al g o r it h m   d o e s   th e   ab o v p r o ce s s   i n   p ar allel  m a n n er .   T h u s   t h p r o p o s ed   tech n iq u Naï v e   b ay e s   alg o r it h m   en s u r e s   th at   m i n er   ca n   m in m o r ef f ici en tl y   f r o m   th e n o r m o u s   d at ab ase. Naïv B a y e s   C las s i f icatio n   al g o r ith m   i s   u s ed   to   p er k   u p   th ti m ef f icie n c y .   I h as  w o r k ed   q u i te  w ell   in   m an y   i n tr icate   r ea l - w o r ld   cir cu m s ta n ce s .     N aïv eb a y e s   cla s s i f icatio n   al g o r ith m   c h ar ac ter izes   lo o f   le ar n in g   al g o r it h m s .   Naiv B a y e s   is   a n   k ee n   f ast  le ar n in g   clas s i f ier .   T h u s ,   it c o u l d   b u s ed   f o r   m a k i n g   p r ed ictio n s   i n   r ea l ti m e.   I t i ea s y   to   b u ild   a n d   p r ed o m i n a n t l y   p o s iti v f o r   v er y   b u lk y   cla s s y   c lass if ica tio n   m et h o d s . Naï v B a y e s   clas s i f ier s   in   lear n i n g   p r o b le m s   r eq u ir es  lo o f   co n s tr ain t s   lin ea r   in   lo o f   v ar iab les.  Naïv B a y e s   is   r ep r esen ted   in   ter m s   o f   p r o b ab ilit ies.  T h ese  p r o b ab i liti es  ar co llected   to   f o r m   f ile.   Fo r   lear n ed   n ai v esb a y e s   m o d el  t h ese  f ile s   w er u tili ze d . Fi n all y   n v b ay es  al g o r ith m   is   ea s y   to   i m p l e m en an d   it  w o r k s   i n   m o r b en ef icial  w a y .   I is   p r ef er r ed   to   ch o o s th i s   n v b a y es  al g o r it h m   r ath er   t h a n   o th er   cl as s i f icatio n   al g o r ith m s .   T h i s   m eth o d   i s   p o p u lar ly   k n o w n   as  p u n c h i n g   b ag ”  f o r   s m ar ter   alg o r it h m s .       2.   RE S E ARCH   M E T H O D   I n   b an k   d atab ase  m a n a g e m e n s y s te m ,   w ar g o in g   to   ap p l y   Naï v B a y es  clas s i f icatio n   alg o r ith m   esp ec iall y   i n   lo a n   s ec to r .   I f   t h p er s o n   ap p l ies  f o r   p ar ticu l ar   lo an   in   b a n k ,   t h b an k   m an ag e m e n c h ec k s   th p r ev io u s   h i s to r y   o f   t h p er s o n .   W h et h er   t h p er s o n   p aid   th p r ev io u s   lo an   b ala n ce   o r   n o an d   w h eth er   th e   p er s o n   is   ab le  to   p a y   th c u r r en lo an   b ased   o n   t h p r o p er ty   o f   t h p er s o n .   T h cu s to m er   s h o u ld   p r o v id th p r o p er   r ea s o n   f o r   ac q u ir in g   th lo an   an d   th en   t h e y   s h o u ld   s atis f y   t h lo an   cr iter ia  an d   f o l lo w ed   b y   th i s ,   th e   lo an   w i ll  b af f o r d ed . I f   w ap p ly   n v b a y es  al g o r ith m   in   b an k   d atab ase  th p r ed ictio n   w i ll  b ac cu r ate.   T h e   m aj o r   u s o f   n v b a y es   alg o r ith m   i n   d atab ase   m an a g e m en t   s y s te m   is   to   i n cr ea s t h e   ti m e   ef f icie n c y   b ec au s e   th NB C   alg o r it h m   f o llo w s   p ar allel  p r o ce s s in g .   W ar g o in g   to   i m p le m e n to o ca lled   w ek to   r u n   ar f f   f o r m at  o f   t h b a n k   d atab ase.   T h o u tp u o f   o u r   p r o j ec s h o w s   t h r etr ie v al  ti m e,   tr u e   p o s itiv a n d   f als e   p o s itiv r ate.   T h m aj o r   u s o f   t h alg o r it h m   is   to   in cr ea s t h ti m e f f icien c y   a n d   ac cu r at p r ed ictio n   o f   lo an   s ec to r   in   b a n k   d atab ase  u s i n g   n aïv e   b a y es   clas s i f icatio n   alg o r ith m .   U s i n g   n v b a y es   alg o r it h m   w ca n   r ed u ce   th e   ti m co n s u m p tio n   in   lar g s ec to r s .   F ig u r 1   s h o w   t h s y s te m   ar c h itect u r with   d ata   p r o ce s s in g   s tep - w i s e.       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  10 ,   No .   2 Ma y   2 0 1 8   :   7 7 8     7 8 5   780       Fig u r 1 .   S y s te m   A r c h itect u r Diag r a m       2. 1 .     P r o po s ed  T ec hn i qu e   L et  P T   b th p r iv ate  tab le  co n tai n in g   a ttrib u te s   A 1 , …,   An   w h er A 1   i s   t h f ir s a ttrib u te  an d   A n   i s   th las attr ib u te.   L et  A i,…. , A j   b th s et  o f   q u as id en ti f i er s   o f   P T   s u ch   th at  ( A i, …. , A j )     ( A 1 , …, A n ) . L et   th to tal   n u m b er   o f   t u p les   in   P T   b d en o ted   as  r   . Hen ce   let   t1 , …, tr r ep r esen t th e   t u p les o f   P T .   T h alg o r ith m   i s   as f o llo w s :   a.   Select  th q u a s i id en tifie r   w i th   th h i g h est  n u m b er   o f   u n iq u v alu e s   s a y   Am   s u ch   t h at  Am   A i,…. , A j .   b.   P er f o r m   s e lectiv C o lli g atio n   o n   Am   as d escr ib ed   in   p o in t s   to   2.   1)   L et  G1 , …, G n b eg r o u p s   s u c h   t h at  t u p les  i n   ea ch   g r o u p   h a v s a m v al u eo f   Am .   T h tu p les  n o in   a n y   g r o u p   o f   G1 , …. , Gn   ar g e n er a lized .   2)   Fo r   th t u p les  i n   G1 , …. , G n   we  co n s id er   th e   r e m ai n i n g   q u as id en ti f ier s   o f   A i,…. , A j .   Fo r   ea ch   g r o u in   G1   to   Gn   r ep ea t step   2 . 2 . 1   F o r   in   1   to   n   in   2 . 2 . 1   a)   Fo r e a ch tup le in G rep eat  st eps  2 .3. 1 .1  to  2 . 3 .1.2 .   2 . 2 . 1 . 1 .   Fo r tu p le  en s u r t h at   it  h a s   at  least  o n m o r tu p le  in   t h s a m e   g r o u p   w h ic h   s h o u ld   h av e   all  th q u as i id en ti f ier   v al u e s   ( Ai, …. , A j )   s a m as i t.  I f   s o   g o   to   s tep   2 . 2 . 1 . E ls g o   to   s tep     2 . 2 . 1 . 2 .   Gen er alize   th tu p le.   3 .   Fo r   ea ch   g en er alize d   tu p le  i n   P T   r ep ea t step   3 . 1   .   3 . 1 .   Select  tu p les  w h ic h   h a v u n iq u q u as i id en ti f ier   s et  A i, …. , A j .     4 .   Sli ce   PT   s u ch   th a ea ch   s lic ed   tab le  co n tain s   h ig h l y   co r r elate d   v alu e s .   L e th s liced   tab les  o f   P T   b B 1 , …. , B k ,   s u ch   t h at  k   is   t h to tal  n u m b er   o f   s liced   tab les.   5 .   I n   th s liced   tab les s elec t a   t ab le  B h   in   B 1 , …. , B k   s u ch   t h at   it h as a t le as t o n q u as i id en ti f ier .   6 .   P e r f o r m   s elec ti v s h u f f li n g   o n   th s elec ted   tab le  B h .   T h is   is   d o n b y   s h u f f lin g   t h tu p le s   s elec ted   in   s tep   3 .       2. Select iv Co llig a t io n   B ased   o n   th ab o v alg o r ith m   w p er f o r m   s elec ti v C o lli g a tio n   to   o u r   tab le  to   s h o w   h o it  w o r k s .   T h s elec ted   q u asi  id en tif ier   ( s a y   in   o u r   tab le  ag e)   to   g en er alize   w     p er f o r m   s elec ti v e   C o llig atio n .   Firstl y   w e   tr y   to   id en t if y   t h t u p les  th at   h av e   th e   s a m a g v a lu e.   I n   t h f o llo w in g   tab le  t h s a m e   c o lo r ed   tu p les  h a v s a m a g v al u e.   No w   th e   tu p le s   i n   b lac k   co lo r   ar u n iq u tu p les,   ea ch   h a v in g   u n iq u a g v al u es.  So ,   s u ch   t u p les   ca n n o t   b ev icted   f r o m   C o l lig atio n .   C o n s id er i n g   g r o u p ed   tu p les   w f ir s c h ec k   t h ei r   r e m ai n in g   q u asi   id en ti f ier s   ( s e x ,   B ill Am o u n t,  A d d r ess ) . A s   p er   th p r o p o s ed   alg o r ith m   i n   g i v e n   g r o u p   ( s a m co lo r )   f o r ev er y   T u p le  in   g r o u p   en s u r th at  it   h as  at  least  o n m o r tu p le  i n   th s a m g r o u p   w h ich   s h o u ld   h av all  t h q u as i   id en ti f ier   v al u es  s a m a s   it.  F o r   ex a m p le  co n s id er i n g   r ed   g r o u p   tu p les  w ca n   s XX  t h at  th t u p les  Z Z Z   a n d   VVV  h a v s a m q u asi  id e n ti f i er   v alu es  ( 2 3 ,   M,   1 6 0 0 0 ,   Z Z )   an d   th t u p les  UUU  a n d   W W W   h av s a m q u a s i   id en ti f ier   v al u es  ( 2 3 ,   F,  2 0 0 0 0 ,   T T ) ,   s o   w n XXd   n o g e n er alize   it  as  it  ca n b id en ti f ied   b ec au s o f   it s   co m m o n n e s s   i n   all  q u asi  id en tif ier   v al u es  w i th   at  least  o n m o r t u p le.   C o n s id er i n g   t h y ello w   g r o u p   tu p les,   tu p les  XXX  a n d   QQQ  h av s a m q u asi  i d en ti f ier   v al u es  ( 2 7 ,   F,  2 6 0 0 0 ,   XX) ,   w h ic h   n XXd   n o b g en er alize d   b u th tu p le  Z Z Z   h a v in g   d if f er en q u asi  id en t if ier   v alu e s   ( 2 7 ,   M,   3 1 0 0 0 ,   Z Z )   f r o m   XXX  an d   QQQ,   n XXd   to   b g en er alize d .   C o n s id er in g   t h g r XX n   g r o u p   tu p les  s i n ce   b o th   o f   th e m   h av d if f er en v alu es  f o r   th q u asi  id en ti f ier   “A d d r ess ”  w g e n er alize   th e m .   T ab le  1   ex p r ess es t h s elec ti v co lli g atio n   f o r   p atien t.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       S elec tive  C o llig a tio n   a n d   S ele ctive   S cra mb lin g   fo r   P r iva cy   P r eser va tio n   in   Da ta   Min in g   ( I s h w a r ya   M.V )   781   T ab le  1 : Sam p le  P atien Data s et  f o r   Selectiv C o lli g atio n   N a me   A g e   S e x   B i l l   A mo u n t   N o   o f   c h e c k   ups   A d d r e ss   C r i t i c a l i t y   r a t e   o f   D i se a se ( O u t   o f   1 0 )   ZZZ   23   M   1 6 0 0 0   2   ZZ   7   YYY   35   M   2 0 0 0 0   2   YY   5   XXX   27   F   2 6 0 0 0   2   XX   9   W WW   31   M   2 0 0 0 0   2   YY   6   ZZZ   27   M   3 1 0 0 0   2   ZZ   10   VVV   23   M   1 6 0 0 0   1   ZZ   8   XXX   30   M   2 0 0 0 0   1   YY   8   UUU   23   F   2 0 0 0 0   1   TT   7   T T T   35   M   2 0 0 0 0   3   YY   7   QQQ   27   F   2 6 0 0 0   2   XX   9   W WW   23   F   2 0 0 0 0   3   TT   7   RRR   29   M   3 5 0 0 0   1   ZZ   8   SSS   33   M   3 1 0 0 0   2   ZZ   8       T ab le  2 : Sam p le  P atien Data s et  f o r   C o llig a tio n     N a me   A g e   S e x   B i l l   A mo u n t   N o   o f   c h e c k   ups   A d d r e ss   C r i t i c a l i t y   r a t e   o f   D i se a se ( O u t   o f   1 0 )   ZZZ   23   M   1 6 0 0 0   2   ZZ   7   YYY   30 - 40   M   2 0 0 0 0   2   YY   5   XXX   27   F   2 6 0 0 0   2   XX   9   W WW   30 - 40   M   2 0 0 0 0   2   YY   6   ZZZ   20 - 30   M   3 1 0 0 0   2   ZZ   10   VVV   23   M   1 6 0 0 0   1   ZZ   8   XXX   30 - 40   M   2 0 0 0 0   1   YY   8   UUU   23   F   2 0 0 0 0   1   TT   7   T T T   30 - 40   M   2 0 0 0 0   3   YY   7   QQQ   27   F   2 6 0 0 0   2   XX   9   W WW   23   F   2 0 0 0 0   3   TT   7   RRR   20 - 30   M   3 5 0 0 0   1   ZZ   8   SSS   30 - 40   M   3 1 0 0 0   2   ZZ   8       2 . 3   Scra m bli ng   a nd   Se lect iv Co llig a t io n   I n   t h ab o v T ab le   2   af ter   p er f o r m i n g   s elec ti v C o lli g ati o n ,   w ca n   s XX   t h at   s o m e   g en er alize d   tu p les  s t ill  h a v u n iq u q u asi  id en ti f ier   s et  w h ich   i s   th r ea t   to   p r iv ac y .   Fo r   ex a m p le  t u p les  lik Z Z Z   ( y ello g r o u p )   an d   R R R   b o th   h a v a g in   th r a n g 2 0 - 3 0 ,   b u     th e y   d if f er   in   t h q u a s id en ti f ier   B ill  Am o u n w h ic h   m ak e s   th e m   u n iq u e   an d   h e n ce   id en ti f iab le.   Si m ilar l y   S SS   a l s o   d if f er s   in   b o th   B il Am o u n an d   lo ca tio n   w ith   th s i m ilar   r an g ed   tu p le s   YY an d   W W W .   So   b ef o r s licin g   w s elec s u c h   tu p les  as  p er   th alg o r ith m   a s   in   tab le  3 .   Af ter   s elec tio n   w e   s li ce   th tab le  u s in g   o n e   o f   t h ex is t in g   s lici n g   alg o r it h m s   t h at  h as   th e   b est  ti m e   ef f icien c y   an d   it  s h o w n   i n   tab le  4 .   I n   th s liced   tab les  w s el ec an y   tab le  as  p er   o u r   w is h   ( w it h   t h co n s tr ai n t   th at  i s h o u ld   h a v at   least   o n q u asi   id en ti f ier )   a n d   s h u f f le  th t u p les   th at   w s el ec ted   b ef o r s licin g   p r o ce s s .   B y   d o in g   s e lecti v s h u f f l in g   w e   h a v e li m in a ted   t h p o s s ib ilit y   o f   p r iv ac y   b r XXc h   to   ce r tain   r ec o r d s   t h at   th e   p o s s ib ilit y   o f   b ein g   id e n ti f ie d   ( eg   r ec o r d s   lik e   S SS ,   R R R )   ev e n   a f ter   th e   C o lli g atio n   p r o ce s s .   Mo r eo v er   s elec ti v C o llig a tio n   co n s u m e s   les s   ti m e   as   co m p ar ed   to   f u ll  C o lli g atio n   a s   n o   e x is ti n g   s h u f f li n g   al g o r ith m   ca n   g u ar an tX ti m ef f icie n c y   o f   O( 1 )   an d   h en ce   th ti m e   ef f icie n c y   o f   s h u f f li n g   p r o ce s s   d ep en d s   o n   in p u t   s ize.   T ab le  3   ex p lain s   t h tu p l es to   b s h u f f led   af ter   ap p l y i n g   p r o p o s ed   alg o r ith m .       T ab le  3 : Sele ctio n   o f   tu p les to   b s h u f f led .   N a me   A g e   S e x   B i l l   A mo u n t   N o   o f   c h e c k   u p s   A d d r e ss   C r i t i c a l i t y   r a t e   o f   D i se a se ( O u t   o f   1 0 )   ZZZ   23   M   1 6 0 0 0   2   ZZ   7   YYY   30 - 40   M   2 0 0 0 0   2   YY   5   XXX   27   F   2 6 0 0 0   2   XX   9   W WW   30 - 40   M   2 0 0 0 0   2   YY   6   * Z Z Z   20 - 30   M   3 1 0 0 0   2   ZZ   10   VVV   23   M   1 6 0 0 0   1   ZZ   8   XXX   30 - 40   M   2 0 0 0 0   1   YY   8   UUU   23   F   2 0 0 0 0   1   TT   7   T T T   30 - 40   M   2 0 0 0 0   3   YY   7   QQQ   27   F   2 6 0 0 0   2   XX   9   W WW   23   F   2 0 0 0 0   3   TT   7   * R R R   20 - 30   M   3 5 0 0 0   1   ZZ   8   * S S S   30 - 40   M   3 1 0 0 0   2   ZZ   8     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  10 ,   No .   2 Ma y   2 0 1 8   :   7 7 8     7 8 5   782   T u p les  w it h   aster i s k   ar s elec t ed .     T ab le   4   ex p lain ed   th s liced   m et h o d   f o r   p atien d ataset  f o r   ag e,   s ex ,   b ilein g   d etails  w it h   Dis ea s e .   T h p r iv ac y   p r eser v atio n   tech n iq u ca n   b ap p ilied   f o r   s elec ted   ar ttib u tes  o f   d ataset.   T a b le  5   ex p lo r es  t h s u f f li n g   p r o ce s s   o f   s elec ted   cr ed en tial a r r tib u te s .     T ab le  4 : Sliced   T ab les   f o r   P ati en t D atase t   {A g e , S e x , B i l l   A mo u n t }   {N o   o f   c h e c k   u p s,A d d r e ss, C r i t i c a l i t y   r a t e   o f   D i se a se ( o u t   o f   1 0 ) }   {2 3   , M , 1 6 0 0 0 }   {2 , Z Z , 7 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {2 , Y Y , 5 }   {2 7 , F , 2 6 0 0 0 }   {2 , X X , 9 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {2 , Y Y , 6 }   * {2 0 - 3 0 , M , 3 1 0 0 0 }   {2 , Z Z , 1 0 }   {2 3 , M , 1 6 0 0 0 }   {1 , Z Z , 8 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {1 , Y Y , 8 }   {2 3 , F , 2 0 0 0 0 }   {1 , T T , 7 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {3 , Y Y , 7 }   {2 7 , F , 2 6 0 0 0 }   {2 , X X , 9 }   {2 3 , F , 2 0 0 0 0 }   {3 , T T , 7 }   * {2 0 - 3 0 , M , 3 5 0 0 0 }   {1 , Z Z , 8 }   * {3 0 - 4 0 , M , 3 1 0 0 0 }   {2 , Z Z , 8 }       T ab le  5 : A f ter   Selec tiv Sh u f f lin g   {A g e , S e x , B i l l   A mo u n t }   {N o   o f   c h e c k   u p s,A d d r e ss, C r i t i c a l i t y   r a t e   o f   D i se a se ( o u t   o f   1 0 ) }   {2 3   , M , 1 6 0 0 0 }   {2 , Z Z , 7 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {2 , Y Y , 5 }   {2 7 , F , 2 6 0 0 0 }   {2 , X X , 9 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {2 , Y Y , 6 }   * {2 0 - 3 0 , M , 3 1 0 0 0 }   {2 , Z Z , 8 }   {2 3 , M , 1 6 0 0 0 }   {1 , Z Z , 8 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {1 , Y Y , 8 }   {2 3 , F , 2 0 0 0 0 }   {1 , T T , 7 }   {3 0 - 4 0 , M , 2 0 0 0 0 }   {3 , Y Y , 7 }   {2 7 , F , 2 6 0 0 0 }   {2 , X X , 9 }   {2 3 , F , 2 0 0 0 0 }   {3 , T T , 7 }   * {2 0 - 3 0 , M , 3 5 0 0 0 }   {2 , Z Z , 1 0 }   * {3 0 - 4 0 , M , 3 1 0 0 0 }   {1 , Z Z , 8 }       2 . 4   E nh a ncing   ef f iciency   in da t a   m ini ng   us ing   cla s s if ica t io n a lg o rit h m :   2 . 4 . 1 .   Da t a   co llect io n:   Data   co llectio n   is   m ea n s   f o r   g at h er in g   f ac t s ,   s tatis tics   an d   d etails  f r o m   d i f f er en t   s o u r ce s .   I n   t h i s   s tag e,   d ata   s et  co n s i s ts   o f   lar g n u m b er   o f   f ile s   1 0 0 0   d ata  f r o m   d is tr i b u ted   d ata  o u o f   w h ic h   1 0 0   ar f r o m   p ar ticu lar   in s ta n ce s .   T h i s   h o s ts   i n f o r m a tio n   ab o u d i f f er e n t y p es  o f   lo an s   a n d   th eir   cr iter ia  in f o r m atio n .   T h r elate d   d ata  ar co llected   b ased   o n   v ar io u s   s u r v e y s ,   r ec o r d s ,   f ee d b ac k s ,   c u s to m er   i n f o r m atio n ,   an d   lo a n   d etail s   i n   d if f er e n t b r an ch e s   o f   b an k   d etails i n   Fi g u r 2 .           Fig u r 2 Data   C o llectio n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       S elec tive  C o llig a tio n   a n d   S ele ctive   S cra mb lin g   fo r   P r iva cy   P r eser va tio n   in   Da ta   Min in g   ( I s h w a r ya   M.V )   783   2 . 4 . 2   D a t a s et   cr e a t io n:   T h d ata  s et  p r ep r o ce s s in g   s te p s   ar ex p lain ed   d etails i n   Fi g u r 3.         Fig u r 3 Data s et  C r ea tio n     2 . 4 . 3 .   F ea t ure  ex t ra ct i o n   T h f ea tu r ex tr ac tio n   m eth o d   is   ap p lied   to   ex tr ac th f ea r tu r f r o m   p r ep r o ce s s ed   d atas et  w h ich   d etails  ar e   ex p lain ed   Fi g u r 4 . Hen ce ; th e   p r o p o s ed   class if ier   w ill p r ed i ct  th d ataset  f o r   v is u aliza tio n s .                 Fig u r 4 Featu r E x tr ac tio n     2 . 4 . 4 .   Su pp o rt   v ec t o m a chi ne:   Af ter   th f ea t u r te  ex tr ac tio n ,   S u p p o r t v ec to r   m ac h i n p r o ce s s   th p r ed ictio n   p r o ce s s   to   v is u l aize   d ata  w it h   p r iv ac y .   T h SVM    p r ed ict   th   p r iv ac y   p r eser v ed   d ata  b ased   o n   s lecte d   attr ib u tes t h at  p r o ce s s   d etails ar ex p lain ed   i n   Fi g u r 5 .                 Fig u r 5 Su p p o r t V ec to r   Ma c h in e       2 . 4 . 5.   Na i v ba y es c la s s if ier:   We   u s e   Naï v B a y e s   C las s i f i ca tio n   al g o r ith m   to   p er k   u p   t h ti m e   ef f icie n c y .   I h as   w o r k ed   q u ite   w ell  i n   m an y   in tr icate   r ea l - w o r ld   cir cu m s ta n ce s .     Nai v B a y es  is   k ee n   f ast  lear n i n g   clas s if ier .   T h u s ,   it  co u ld   b u s ed   f o r   m ak i n g   p r ed icti o n s   i n   r ea l   ti m e   t h at   d etail   s h o w s   i n   Fi g u r 6 .   I t   is   ea s y   to   b u ild   a n d   p r ed o m in a n tl y   p o s it iv e   f o r   v er y   b u l k y   d atasets   an d   i is   k n o w n   to   s u r p as s   e v en   ex ce ed in g l y   clas s y   class i f icatio n   m et h o d s .                 Fig u r 6 Naïv B a y es  C las s i f i er         COLL ECT I ON   OF  INFORM AT ION   DA TA S E T   CREAT ION     DA TA S E T   AR FF   File   Featu r E x tr ac tio n   I n p u t File   C las s i f icatio n   R es u lts     SVM  C las s i f ier   A l g o r ith m          Data   s et   Data s et   NB C   class i f ier   alg o r ith m   C las s i f ier   r esu lt s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  10 ,   No .   2 Ma y   2 0 1 8   :   7 7 8     7 8 5   784       Fig u r 7 P r ed icte d   R esu lt o f   Naïv B a y es  C las s i f ier           Fig u r 8 . C o m p ar ativ R es u lt  o f   NB ( Naïv B a y es )   &   SVM   Su p p o r t V ec to r   Ma ch in e )       Fig u r 7   esh o w s   Naï v B a y es   C lass i f icat io n   tech n iq u es  r es u lt  ef f icie n c y ,   in cl u d es  C P p r o ce s s in g   ti m e,   r etr iev al  ti m e,   co m p u ta tio n   ti m e .   Naï v b a y es  al g o r ith m   e n s u r es  t h at  m i n er   ca n   s ec u r m i n m o r e   ef f icien tl y   f r o m   t h en o r m o u s   d atab ase .     Hen ce ,   Fi g u r 8   d ep icts   th p r o p o s ed   Naïv B a y es  C las s i f icatio n   tech n iq u es   b est r es u lt c o m p ar th o th er   tech n iq u es.          3 .   Co nclus io n   B y   Naï v B a y e s   C las s i f icati o n   al g o r ith m ,   t h w h o le  ti m w h ic h   in cl u d es  C P p r o ce s s i n g   ti m e,   r etr iev al  ti m e,   co m p u ta tio n   ti m w i ll  b r ed u ce d .   B ec au s e   o f   t h p ar allel  p r o ce s s in g ,   t h e   s p ee d   o f   r etr iev i n g   d ata  f r o m   lar g d ataset s   o r   e n o r m o u s   d atab ase  i s   i n cr e ase d .   Naïv B a y e s   A l g o r ith m   w i ll  also   p r ed ict  m o r ac cu r atel y .   T h p r ed ictio n   will  b ase  o n   t h cr iter ia  g i v e n   b y   t h m a n ag e m e n s y s te m .   I is   v er y   s i m p le  r ep r esen tatio n   a n d   d o esn al lo w   f o r   r ich   h y p o th e s es.  I n ee d s   v er y   s m all  a m o u n o f   tr ain i n g   d ata.   F o r   f u r t h er   en h a n ce m e n w co m m en ce d   Naï v B a y es  u p d atab le  alg o r ith m   w h ich   i s   th a d v an ce d   v er s io n   o f   Naïv B a y es  clas s i f icatio n   al g o r ith m . T h u s   th p r o p o s ed   tec h n iq u Naïv b a y e s   alg o r ith m   en s u r es  t h at  m in er   ca n   m i n m o r ef f icie n tl y   f r o m   t h e n o r m o u s   d at ab ase.   Fi n all y   n aïv e   b a y e s   al g o r ith m   i s   ea s y   to   i m p le m e n an d   it  w o r k s   in   m o r b en ef ic ial  w a y .   I is   p r ef er r ed   to   ch o o s th is   n aïv b a y es  al g o r ith m   r ath er   th a n   o th e r   class i f icatio n   alg o r it h m s .   T h is   m eth o d   is   p o p u lar l y   k n o w n   a s   p u n c h i n g   b a g ”  f o r   s m ar ter   al g o r ith m s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       S elec tive  C o llig a tio n   a n d   S ele ctive   S cra mb lin g   fo r   P r iva cy   P r eser va tio n   in   Da ta   Min in g   ( I s h w a r ya   M.V )   785   RE F E R E NC E S   [ 1 ]   Zh a n g ,   L . ,   L i,   X .   Y.,   &   L iu ,   Y.  M e ss a g e   in   a   se a led   b o tt le:  Priva c y   p re se r v in g   frien d in g   in   so c i a n e two rk s .   In   Distrib u te d   Co m p u ti n g   S y ste m s (ICDCS) ,   2 0 1 3   IEE E   3 3 rd   I n tern a t io n a C o n f e re n c e   o n   IEE E,   2 0 1 3 ;   3 2 7 - 3 3 6 .   [ 2 ]   G o g a ,   O.,   L o ise a u ,   P . ,   S o m m e r,   R. ,   T e ix e ira,  R. ,   &   G u m m a d i,   K.  P .   On   th e   re li a b il it y   o p ro fi le ma t c h in g   a c ro ss   la rg e   o n l in e   so c i a n e two r k s .   In   P r o c e e d in g s o f   th e   2 1 st A CM   S IG KD D In tern a ti o n a C o n f e re n c e   o n   Kn o w led g e   Disc o v e r y   a n d   Da ta M in i n g ,   2 0 1 5 1 7 9 9 - 1 8 0 8 .   [ 3 ]   S u n ,   Y.,   W a n g ,   N.,   S h e n ,   X .   L . ,   &   Zh a n g ,   J.  X .   L o c a ti o n   in f o rm a ti o n   d isc lo su re   in   l o c a ti o n - b a se d   so c ial   n e tw o rk   se r v ice s:  P riv a c y   c a lcu lu s,  b e n e f it stru c tu re ,   a n d   g e n d e d if fe re n c e s.  Co mp u ter in   Hu ma n   Beh a v i o r ,   2 0 1 5 5 2 2 7 8 - 2 9 2   [ 4 ]   P ra k a sh ,   G . ,   S a u ra v ,   N.,   &   Ke t h u ,   V .   R. ,   A n   Ef f e c ti v e   Un d e sire d   Co n ten t   F il tratio n   a n d   P re d icti o n s   F ra m e w o rk   in   On li n e   S o c ial  Ne t w o rk ,   In ter n a ti o n a J o u rn a o A d v a n c e s in   S i g n a a n d   Ima g e   S c ie n c e s,   v o l.   2 ,   n o .   2 ,   p p .   1 - 8 ,   2 0 1 6 .   [ 5 ]   Ola n re wa ju ,   R.   F . ,   &   A z m a n ,   A .   W . ,   In telli g e n Co o p e ra ti v e   A d a p ti v e   W e ig h Ra n k in g   P o li c y   v i a   d y n a m ic   a g in g   b a se d   o n   NB  a n d   J4 8   c las sif iers ,   In d o n e sia n   J o u rn a o El e c trica En g in e e rin g   a n d   In fo rm a t ics   ( IJ EE I) v o l.   5 ,   n o .   4 ,   p p .   3 5 7 - 3 6 5 ,   2 0 1 7 .   [ 6 ]   S u lt h a n a ,   R. ,   &   Ra m a sa m y ,   S . ,   Co n tex Ba se d   Clas sif ic a ti o n   o f   Re v ie w Us in g   As so c iatio n   Ru le  M in i n g ,   F u z z y   L o g i c a n d   On to lo g y ,   Bu ll e ti n   o El e c trica E n g i n e e rin g   a n d   In fo rm a ti c s   ( BE EI) ,   v o l.   6 ,   n o . 3 ,   p p .   2 5 0 - 2 5 5 ,   2 0 1 7 .   [ 7 ]   Ra o ,   R.   R. ,   &   M a k k it h a y a ,   K.,   L e a rn in g   f ro m   a   Clas I m b a lan c e d   P u b li c   He a lt h   Da tas e t:   a   Co st - b a se d   Co m p a riso n   o f   Clas si f ier   P e rf o rm a n c e ,   In ter n a ti o n a l   J o u r n a l   o El e c trica a n d   Co m p u ter   En g i n e e rin g   ( IJ ECE ) ,   v o l.   7 ,   n o 4 ,   p p .   2 2 1 5 - 2 2 2 2 ,   2 0 1 7 .   [ 8 ]   Dh iv a k a K.,   M o h a n a   S . ,   S u rv e y   o n   P riv a c y   P re se rv a ti o n   Re c e n A p p ro a c h e a n d   T e c h n iq u e s” ,   In ter n a t io n a J o u rn a o In n o v a t i v e   Res e a rc h   in   Co mp u ter   a n d   C o mm u n ic a ti o n   E n g i n e e rin g ,   v o l.   2 ,   issu e   1 1 ,   2 0 1 4 ,   p p .   6 5 5 9 - 6 5 6 6 .   [ 9 ]   Ja n b a n d h u   S . ,   C h a w a re   S . M ,   S u rv e y   o n   Da ta  M in in g   w it h   P riv a c y   P re se rv a ti o n ,   In ter n a t io n a J o u rn a o f   Co mp u ter   S c ien c e   a n d   I n fo r m a ti o n   T e c h n o l o g ies ,   Vo l.   5 ,   N o . 4 ,   2 0 1 4 ,   p p .   5 2 7 9 - 5 2 8 3 .   [ 1 0 ]   P a tel  J.  D.,   P a tel  S . ,   A   S u rv e y   o n   Da ta  P e rtu r b a ti o n   T e c h n iq u e f o P riv a c y   P re se rv in g   in   Da t a   M in in g ,   In ter n a t io n a J o u rn a f o S c ien ti fi c   Res e a rc h   &   De v e lo p me n t,   v o l.   3 ,   issu e   0 1 ,   p p .   5 2 - 5 4 ,   2 0 1 5     Evaluation Warning : The document was created with Spire.PDF for Python.