I n t e r n at i on al  Jou r n al  of  E l e c t r i c al   a nd C o m p ut e r  E ng i n e e r i ng  ( I J E C E )   V o l.   8 ,  No .   5 O c t obe r   20 1 8 ,  p p.  29 20~ 2 925   I S S N :  2088 - 8708 D O I :  10. 11 591/ i j ece . v8 i 5 . pp 292 0 - 2925     2920       Jou r n al  h om e p age h ttp : //ia e s c o r e . c o m/ j our nal s / i nde x . php/ I J E C E   F ra m ew o rk  t o  Av o id S i m ila rit y   A t t a c k i n   B ig  St rea m ing  Da t a       G a ne s h D agad u   P ur i ,   D .  H a r i t ha     CS E ,   K o ne r L a ks hm a i a h  E duc a t i on  F oun da t i on ,   I nd i a       A rt i cl e I n f o     AB S T RAC T   A r tic le   h i s t o ry :   R ecei v ed   D ec 1 3 ,  201 7   Re v i se d   F e b 24 ,  2 01 8   A ccep t ed   A ug  12,  2018       T h e ex i s t i n g   m et h o d s  f o r  p r i v acy  p r es er v at i o n  ar e av ai l ab l e i n   v ar i et y  o f   f i el d s  l i k e s o ci al   m ed i a,  s t o ck   m ar k et ,  s en t i m en t  an al y s i s ,  el ect r o n i c h eal t h   ap p l i cat i o n s .  T h e el ect r o n i c   h eal t h  d y n a m i s t r ea m  d at a i s  a v ai l ab l e i n  l ar g e   q u an t i t y .  S u ch  l ar g e v o l u m e s t r ea m  d at a i s  p r o ces s ed  u s i n g  d el ay   f r ee   an o n y m i zat i o n  f r a m e w o r k .  S ca l ab l e p r i v ac y  p r es er v i n g  t ech n i q u es  ar r eq u i r ed   t o  s at i s f y  t h e n eed s  o f  p r o ces s i n g  l ar g e d y n a m i c s t r ea m  d at a .  I n t hi s   p ap er  p r i v acy  p r es er v i n g  t ech n i q u e   w h ic h  c a n  a v o id  s im ila r ity  a tt a c k  in  b ig   s tr e a m in g  d a ta   i s  pr op os e d i n d i s t r i but e d e nv i r o nm e nt .  I t  c a n pr oc e s s  t he  da t a   i n  p ar al l el  t o  r e d u ce t h e an o n y m i zat i o n  d el ay .   I n  t h i s  p ap er  t h e r ep l ace m en t   t ech n i q u e i s   u s e d  f o r  a v o id in g  s im ila r it y  a tta c k .   L a te   v a lid a tio n  te c h n iq u e  is   us e d t o r e duc e  i nf or m a t i on l os s .  T he  a ppl i c a t i on of  t hi s  m e t hod i s  i n m e di c a l   di a g nos i s ,  e - h eal t h  ap p l i cat i o n s ,  h eal t h  d at a p r o ces s i n g  at  t h i r d  p ar t y .   Ke y wo rd :   B ig  d a ta   D is tr ib u te d   P r i va c y   S im il a r i ty   C opy r i g ht   ©  201 8   I ns t i t ut e  o f  A d v anc e d E ngi ne e r i ng  an Sc i e nc e   A l l  ri g h t s re se rv e d .   Co rre sp o n d i n g  Au t h o r :   G a ne s h D a ga d u P ur i ,     CS E     K L E F ,   V a d d e s w a r a m ,  G unt ur ,   A nd hr a  P r a d e s h,   52250 2   -   I nd i a .   E m a i l :  p ur i ga ne s he n g g@ g m a i l . c o m       1.   I NT RO D UCT I O N     N o w ad a y s  el ect r o n i h eal t h  i n f o r m at i o n  a n d  el ect r o n i h e al t h  ap p l i cat i o n s  ar e av ai l ab l e i n  l ar g e   q u an t i t y  [ 1 ] .  T h e u s er s  o f  h ea l t h  i n f o r m at i o n   l i k h eal t h  car e  p r o v i d er s ,  r es ear ch er s ,  an al y s t s  u s e t h i s  d at f o r   m ak i n g   i n f er e n ces   [ 2 ] .   S i n ce  h e al t h   r eco r d s   co n t ai n   t h p r i v at d at o f   p at i en t ,   t h acces s   i s   r es t r i ct ed .   T o   m ak t h i s  acces s  ea s y  a n d  p o s s i b l e,  p r i v ac y  p r es er v at i o n  t ec h n i q u es  ar e u s e f u l .  E l ect r o n i c  h eal t h  r eco r d s  ar e   us e f ul   f o r  t he  c o m m u ni c a t i o a nd  ke e p i ng  t he  i n f o r m a t i o n o f  p a t i e nt   i nt a c t .  T he  d e m a nd  o f  s uc h b i g  a m o un t   o f  el ect r o n i c  h eal t h  d at h as  i n cr eas ed  co n cer n  o f  p r i v ac y   f o r  t h e  p at i en t s  [ 3 ] .  F o r  p r o v i d i n g  p r i v ac y  t o   el ect r o n i c h eal t h  d at a d e - i d en t i f i cat i o n  t ech n i q u es  ar e u s ed .  T h es e t ech n i q u es  p r o v i d e p r i v ac y  b y  r e m o v i n g   d ir e c t id e n tif ie r s   w h ic h  c a n  e x p o s e  id e n tit y  o f   in d i v id u a l o r  d is c lo s e  s e n s iti v e  i n f o r m a ti o n  o f  i n d iv id u a l.  I p r o v i d es  p r i v ac y  b y  s u p p r es s i o n ,  g en er al i za t i o n  o r  r ep l acem en t  o f  t h e i d en t i f i er s  [ 4 - 5] .   V ar i o u s  l a w s  i n  d i f f er en t  co u n t r i es  ar e av ai l ab l f o r  p r o v i d i n g  p r i v ac y  t o  el ect r o n i c h ea l t h  d at a [ 2 ] .   I n  U S A  H e a lt h  I n s u r a n c e   P o r ta b ility  a n d   A c c o u n ta b ili t y   A c t ( H I P A A ) ,  P a tie n t S a f e t y  a n d  Q u a lit y   I m p r o v e m e n t   A ct  ( P S Q I A ) ,  H I T E C H  A ct  p r o t ect s  p r i v ac y  o f  el ect r o n i c h eal t h  d at a.   D at a P r o t ect i o n  A ct   ( DP A )  i n  UK p r o v i d e s  opt i ons  t o i n di vi du a l s  f or  pr ot e c t i n g i nf or m a t i on .   R us s i a n  F e de r a l  L a w  on  P e r s on a l   D at a i n  R u s s i m a k es   i t   n ece s s ar y  t o  t ak e  al l  p er m i s s i o n s   f o r  o r g an i zat i o n s  b ef o r e h a n d i n g  o v er  t h h eal t h   d a ta  to  o th e r .  P e r s o n a l I n f o r m a tio n  P r o te c tio n  a n d  E le c tr o n ic  D o c u m e nt s  A c t   ( P I P E D A )   i n C a na d a  gi ve   ci t i zen s  r i g h t  t o  k n o w   t h e r eas o n s  b eh i n d  t h e co l l ect i o n  o f  p r i v at e d at a [ 6 ] .  I T  A ct  an d  I T   ( A m en d m e n t )   A ct   in  I n d ia  s u g g e s t s  s tr ic t a c tio n s  lik e  i m p r i s o n m e n t o r  f in e  f o r  m i s u s i n g  p e r s o n a l i n f o r m a ti o n .  D a ta  P r o te c tio n   D i r ect i v e i n  E u r o p ean  U n i o n  h el p s  t o  k eep  f u n d a m e n t al  r i g h t s  o f  p eo p l e w i t h  r es p e ct  t o  acces s i n g  o f     p er s o n al  d at a.   I n  t h e a n o n y m i zat i o n  o f  el ect r o n i c h eal t h  d at a d e - i d en t i f i c at i o n   m et h o d s   ar u s ed .   T h es m et h o d s   a r e  f u r t h e r  di v i de d i nt o K - a no n ym i t y,  L - d i ve r s ity ,  T -   c l o s e n e ss  [ 7 - 9 ] .  I n t he   L - d i v e r s it y ,  t h e r e  is  p o s s ib ilit y  o f   s i m ila r it y  a tta c k .   In   F ig ur e   1  a r ch i t ect u r e o f  d el a y   f r ee an o n y m i zat i o n  f o r  p r i v ac y  p r es er v at i o n  i s  s h o w n  [ 1 0 ] .   I n p u t d a ta  is  c o m i n g  f r o m   s o u r c e  in  te r m s  o f  tu p le s .  T h i s  tu p le  is  d iv id e d i n  t w o pa r t s .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  E l e c &  C o m p  E ng   I S S N :  2088 - 8708     F ra m e wo rk  t o   A v o id  S im ila r ity  A tta c k  in  B i g . ..   ( G ane s h D ag adu P ur i )   2921       Fi g ur e   1 .   D e la y  f r e e  a n o n y m i z a tio n A r c h i te c tu r a l d ia g r a m       F i r s t  pa r t  c o n t a i n s  q u a s i  i de nt i f i e r  a n g r ou n um be r .  S e c on d pa r t  c on t a i n s   s e n s i t i v e  t upl e  a l ong  w it h  it s  L - 1  c o unt e r f e i t  va l u e s ,  c o unt  o f  e a c h s e ns i t i ve  v a l ue  a nd  gr o up  n u m b e r .   A d d i ng  L - 1  co u n t er f ei t   v a lu e s   w it h   r e a v a l u e   w ill  m a k e   d if f ic u lt to   d is c lo s e   th e   s e n s it iv e   v a lu e .  T h e s e  c o u n te r f e it v a lu e s   w ill  b e   v a lid a te d   w i t h t he  up c o m i n g  i np ut   t up l e s .   G r o u p wi s e   co u n t  o f  r el eas ed  t u p l es   w i l l  b m ai n t ai n ed .  T h e   s i m i l ar i t y  o f  co u n t er f ei t   v al u e s   w i l l  af f ect  p r i v ac y .  I t  can  b av o i d ed  b y  r ep l aci n g  s i m i l ar   v al u es  i n  t h e g r o u p .       2.   RE L AT E D W O RK   T he r e  i s  ne e d  o f  e s t a b l i s hi n g g ui d e l i ne s  f o r  p r i va c y  a ga i ns t  i nva s i ve   m a r ke t i n g a nd  i na d ve r t e nt   p r i v ac y  d i s cl o s u r [ 1 1 ] .  P r i v a c y   r eq u i r e m e n t s  i n  d at s h ar i n g   f o r   b i g  d at o p er at o r s  n eed   s cal ab l e p r i v ac y   pr e s e r v i ng  a l g or i t hm s  t o pr ov i de  pr i v a c y  t o t h e  da t a s e t s .  H e a l t h  i nf or m a t i on  pr ov i de r s  c a n be n e f i t   f r o m  c os t - p r o f it  m o d e l to  ta k e   d e c is io n  a b o u t s h a r in g  t h e  h e a lt h  r e la te d  d a ta  to  o th e r  p a r tie s  [ 1 2 ] .  P r iv a c y  r e q u ir e m e n ts   a r e  i m p o r ta n t  in  b ig  d a ta  c o lle c tio n ,  s to r a g e  a n d  in tr a   a n d  i n te r - o r ga ni z a t i o n p r o c e s s i n g.  T o   m a ke  t he   co m p u t i n g  o f  b i g  d at a i n  p r i v ac y  p r es er v ed   w a y  P r i v ac y  p r es er v i ng   a g gr e ga t i o n,   en cr y p t ed  d at a   ope r a t i on s   a nd   de - id e n t if ic a tio n  te c h n iq u e s  a r e  s u g g e s te d  [ 1 3 ] .  I n  d a ta  p r iv a c y ,  it  is  r e q u ir e d  to  u n d e r s ta n d  p r iv a c y   r eq u i r e m en t s  i n  d at a p r o v i d er ,  d at a co l l ect o r ,  d at a  m i n er ,  d eci s i o n   m a k er  s t a g es  [ 1 4 ] .  N ee d  o f  k eep i n g  s o u r ce   o r  o r ig in  o f  d a ta   is   i m p o r ta n t   to  id e n ti f y  p r iv a c y  a tta c k .  I n   [ 1 0 ]  d e la y   f r e e  a n o n y m iz a tio n  te c h n iq u e   is   u s e d   f o r  to  r e d u c e  d e la y  a n d  in c r e a s e  d a ta  u tilit y  b y  la te   v a lid a tio n .     D is tr ib u te d   s tr e a m  p r o c e s s i n g  i s  d o n e   w it h  e x te n d in g   s t o r m  c a p a b ilitie s  f o r   t as k  m an a g em en t ,   s c h e dul i ng ,  a n d e x e c u t i ng  i n  d i s t r i bu t e m a nn e r  [ 15] .  D A R T  s y s t e m  pr opos e  f r a m e w or k   f or  di f f e r e n t  de v i c e s   p r e s e n t o n  r e m o te  s ite s  i n  d is tr ib u te d  e n v ir o n m e n t.  T h is  f r a m e w o r k  p r o v id e s  f a c ilit y  o f  r e g is tr a tio n  a n d   a u th o r iz a tio n  o f  d e v ic e s  o n   r e m o te  s ite ,  ta s k  a llo c a tio n  a n d   m a n a g e m e n t o f   u s e r  a p p lic a tio n .  I n  th e  s y s te m   c o m p u ta tio n  lo a d  is  r e d u c e d  b y   u til iz in g  id le  r e s o u r c e s  [ 1 6 ] .   T h e  d is tr ib u te d  s tr e a m   p r o c e s s in g   s y s te m s   p o s s es s  d i f f er en t  av ai l ab i l i t y   r eq u i r e m en t   f o r  d i f f er en t  ap p l i cat i o n s .  W h e n  on e  of   t h e  node s  i n  di s t r i bu t e d   e nvi r o n m e nt   ge t s  f a i l e d ,  t he  b a c kup  o r  s e c o nd a r y s e r ve r  r e s u m e s  t he  e xe c ut i o n.   W hi l e  d o i ng t hi s ,  t he  s t a t e   s h oul d be   m a i n t a i n e d.  T h e  t y pe  of  r e c ov e r y  t e c h ni qu e  a n d pe r f or m a n c e  i s  ba s e d on s t r e a m  pr oc e s s i ng  a p p lic a tio n  [ 17] .   T h e  n e w   s t r e a m  pr oc e s s i ng  s y s t e m s   e x pl oi t  t h e   t a s k s  i n s t e a d of   n ode s  f or  f a u l t     t o l er an ce [ 1 8 ]       3.   R ES EA R C H  M ETH O D   3 .1 .      Th e   N eed   a nd  I m p o rt a n ce  o f th e   P r o bl e m   E le c tr o n ic  h e a lt h  d a ta  is  p r o d u c e d  in  la r g e  q u a n t it y .  I n  a n o n y m iz a tio n  o f  t h is  d a ta   m in i m u e x e c u t io n  ti m e  a n d  le s s  i n f o r m a tio n   lo s s  i s  i m p o r ta n t.   A n o n y m iz a tio n  d e la y  i s   m in i m iz e d  u s i n g  d e la y  f r e e   f r a m e w o r k .  T o  a v o id  s im ila r it y  a tta c k  o n  l - d i v er s e co u n t er f ei t  g r o u p ,  r ep l ace m e n t   o f  s i m i l ar  v a l u e i s   r eq u i r ed .  D u e t o  l ar g e a m o u n t  o f  t u p l es  o f  el ec tr o n ic   h e a lt h  d a ta ,  th e r e  is  p o s s ib ilit y  o f  f o r m a t io n  o f  s i m ila r   gr o up s  a nd  i t  c a n d i s c l o s e  t he  s e ns i t i ve   va l ue .  R e p e t i t i o n o f   s uc va l ue s  i n gr o up  i s  a vo i d e d  us i ng  t he   s y n t h et i c v al u f o r m at i o n .  T h e co m p l e x i t y  o f  b i g  el ect r o n i c  h eal t h  d at a cr eat es  ch al l en ge   f o r  e xi s t i n g p r i va c p r e s e r vi n g a l go r i t h m   w hi c h c a nno t   w o r k o n l a r ge  d a t a s e t s .     I n  F i g u r e 2  t o  av o i d  s i m i l ar i t y  at t ack ,  s i m i l ar i t y  i n d ex  o f  each  g r o u p  i s  cal cu l at ed  [ 1 9 ] .  I f  s o m e   v al u e s  ar e s i m i l ar  t h e n  s u c h   v al u es   w i l l  b e r ep l aced   w i t h  o t h er  v al u es .   F o r  t h i s  r ep l ace m e n t   h el p  o f  p as t  d at a   is  ta k e n .  W ith  th e  p o lic y  o f  p a s t r e f le c t f u t u r e,  f o r  ear l y  l at e v al i d at i o n  o f  co u n t er f ei t  v al u es  i n  t h e g r o u p  t h v al u e s   f r o m  t h e p as t  d at a ar s el ect ed .  I n f o r m at i o n  l o s s  a n d   u t i l i t y  o f  t h e  r ep l aced  d at a i s  c al cu l at ed .  I t   w i l l  b Evaluation Warning : The document was created with Spire.PDF for Python.
              I SSN :   20 88 - 8708   I nt  J  E l e c &  C o m p  E ng,   V o l.   8 , N o 5 O c t o be r  201 8   :   2 920   -   2925   2922   n o t e d o w n  i n  s t at i s t i c d at a  t o  s ee i f  t h at  r ep l aced  v a l u e i n  co u n t er f ei t   g r ou p c a u s e m or e  or  l e s s     in f o r m a tio n  lo s s .           Fi g ur e  2 .   W o r k  f lo w   m o d e l to  a v o id  s i m i la r it y  a tta c k       3 .2 .   A l gor i t h m   I n  t h e  F i gu r e  3 a l g or i t hm   f or  t h e  pr opos e d m e t h od u s i n g  bi g da t a  a s  i n pu t  i s  g i v e n .  F or  e a c h  t u pl e   s e t   of  s t r e a m i ng  bi g da t a  i n pu t   [ 2 0 ] ,  th e  s o u r c e  is   m a in ta in e d .  I t is  u s e f u l  to   f i n d  s o u r c e   o f  d a ta  i n  c a s e  o f   ad v er s ar y  at t ac k .           Fi g ur e   3 .   A l g or i t hm  f or   pr op o s e d m e t h od       T h e i n co m i n g  s t r ea m  d at m a y   n o t  b e i n   s u i t ab l f o r m at .  P r ep r o ces s i n g  i s  u s ed  t o  co n v er t   t h e   i nc o m i n g d a t a  i n s u i t ab l f o r m at .  T h e s t ep s  u s ed  f o r  t h e p r ep r o ces s i n g  ar e as  f o l l o w s .   a.   R ead  t h e u r l  o r  ad d r es s  o f  s t r e a m i n g  d at a s o u r ce.   b.   L o ad  t h e r a w  d at a i n  d at as et   f i l e.   c.   R e a d  th e  f ir s t li n e  o f  a ttr ib u te s  in  th e   f ile  a n d  s p lit it a s  p e r  th e  d e li m ite r .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  E l e c &  C o m p  E ng   I S S N :  2088 - 8708     F ra m e wo rk  t o   A v o id  S im ila r ity  A tta c k  in  B i g . ..   ( G ane s h D ag adu P ur i )   29 23   d.   C o n v e r t th e  s p li t d a ta   o f  f ir s t l in e  in to  c o lu m n s .   e.   R e a d  th e  f ile s  d a ta  i n  b u f f e r  li n e  b y  li n e  u p  to  e n d  o f  f ile  c o n v e r t it in to  tu p le .   f.   S p lit th e  d a ta  s tr e a m  u s i n g  d e l i m ite r  a n d  in s e r t i n  t h e  c o lu m n s .   g.   I d e n tif y  th e  q u a s i a n d  s e n s iti v e  id e n tif ie r s  in  d a ta  ta b le .   A f t er  p r ep r o ces s i n g  t h e d at i s  av a i l ab l e i n  p r o p er  f o r m at .  T h e A n at o m y  [ 2 1 ]  t ech n i q u e d i v i d e s   i n p u t  t u p l e s  i n t o  t w o  p ar t s .  T h e co u n t er f ei t   v al u es   w i l l  b e ad d ed  t o  f o r m  t h e g r o u p s .  I f   t h co u n t er f ei t   v al u es   ar e r ep eat ed  m o r n o  o f  t i m e s  i n  t h e g r o u p s ,  s y n t h e t i v al u es  ca n  b u s ed  t o  r ep l ace t h es e r ep eat ed  v al u es   ot h e r w i s e  pa s t  da t a  i s  s uf f i c i e n t  t o f or m  g r ou p of  c oun t e r f e i t  v a l u e s .  F or  e a c h  i n di v i d u a l  gr ou p of  c ou n t e r f e i t   v al u e s  s i m i l ar i t y  i n d ex  o f   g r o u p   w i l l  b e cal cu l at ed .  I f  t h v a l u es  ar e s i m i l ar  t h en  t h es v al u es   w i l l  b e   r ep l aced   w i t h  o t h er  v al u es   f r o m  t h e p a s t  d at a.  L at v al i d at i o n   i s  d o n b y   m ai n t ai n i n g  t h g r o u p  co u n t  a n d  t h e r el eas ed   tu p le s  i n  th e  g r o u p .  S ta ti s tic   d a ta  o f  in f o r m a t io n  lo s s  a n d  u tilit y   m e a s u r e s  is   m a in ta in e d .  I f  in f o r m a tio n  lo s s   r a tio  is   m o r e  th a n  th r e s ho l d  va l ue  t he n t he  p r o c e s s  i s  r e p e a t e d  b y  c ha n gi n g t he  va l ue s  i n t h e  gr o up .       4.   D IS TR I B U TED   EX E C U T I O N  F LO W   I n  cas e o f  a n al y s i s  i f  t h e o r g a n i zat i o n  d o es  n o t  h a v e e n o u g h  p r o ces s i n g  cap ab i l i t y  an d   i n f r as t r u ct u r e   t o  p r o ces s  l ar g e am o u n t  o f  d at a,  s u ch   s t r ea m   d a ta   w ill b e  g iv e n  to  th ir d  p a r ty .  I n   s u c h  s it u a tio n  e x is tin g   m e t h ods  a r e  i n a ppr opr i a t e  t o pr ov i de  e n ou gh  pr i v a c y .   F i gur e   4  s h o w  t h e  d is tr ib u te d  e x e c u tio n   f lo w  o f  b ig   s t r ea m i n g  d at a.  I n  d el ay   f r ee an o n y m i zat i o n   m et h o d  L - d i v e r s e  c o u n te r f e it  v a lu e s   w ill b e  g en er at ed  w h en  n e w   t u p l e ar r i v es .  I t  g e n er at es  t h es e v al u e s  f r o m  p as t  d at a ( d o m ai n  o f  s e n s i t i v v al u es ) .  F o r  b i g  d at a,   m i l l i o n s  o f   t u p l es  ar e ar r i v i n g  i n  o n e s e s s i o n  an d  r a n d o m l y  co u n t er f ei t   v al u e s   g et   g en er at ed  [ 2 0 ] .  T h er e i s  p r o b ab i l i t y  o f   s i m i l ar  v al u es   ge t t i n g ge ne r a t e d  i n a  gr o up .  T hi s   m a y  c a us e   s i m i l a r i t y a t t a c k o n t he  p a t i e nt   d a t a .             F i g ur e   4 .   D is tr ib u te d  E x e c u tio n  f lo w   f o r  b ig  s tr e a m in g  d a ta   t o  a v o id  s i m ila r it y  a tta c k       T o  a vo i d   t hi s   s i t ua t i o n   w h e n   t he   s i m i l a r   va l ue s   ge t   ge ne r a t e d   i t he  gr o up ,   w e  can   r ep l ace t h es e   s i m i l ar  v al u e s   w i t h  o t h er   s en s i t i v v al u es   s o  t h a t  s i m i l ar i t y   at t ack  ca n  b e av o i d ed .   A t  t h s a m t i m e r ep eat ed   va l ue s  a m o ng t he  gr o up s  a r e  f o u nd  a nd  s uc h va l ue s  a r e  r e p l a c e d   w i t h s ynt he t i c  va l ue s .  V e r t i c a l  d o t t e d  l i ne s   i n F i g ur e  4  s ho w   t h e e x ecu t i o n  o n  d i f f er en t   n o d es  i n  d i s t r i b u t ed  f a s h i o n .  W h i l e t u p l es   ar e an o n y m i zed  an d   pu bl i s h e d on f i r s t  n ode ,  s e c o n d n ode   w i l l  be  us e d f or  t h e   g r ou p da t a  f or m a t i on  a n d r e pl a c e m e n t  of   s i m i l a r   v a lu e s .  T h ir d  n o d e   w ill  k e e p  s ta tis tic  d a ta  b a s e d  in f o r m a tio n   l o s s  d ue  t o  r e p l a c e d  o r  s y nt he t i c  va l ue s  i n gr o up .   D o m ai n  o f   s e n s i t i v v al u es   co n t ai n s  l i m i t ed   v al u es  a n d   t h es v al u es  ar e g et t i n g  r ep eat ed .  F o r   e x a m pl e   f or  N  r e c or ds  N / L   gr ou ps  of  c oun t e r f e i t   v a l u e s   w i l l  be  g e n e r a t e d.  F or  500 r e c o r ds  50 g r ou ps   w i t L = 10  w i l l  b g e n er at ed .  B u t   as  t h e b i g  d at a i s  t h e  i n p u t   f o r  ex a m p l e  t h er e ar e 5 0 0 0 0 0  r eco r d s  an d  L =1 0 .  I t   w i l l   g en er at e 5 0 0 0 0  g r o u p s .   I n  each  g r o u p   t h e  co u n t er f ei t  s en s i t i v v al u es   w i l l   g et  r ep eat ed .  I n  s e n s i t i v e   dom a i n  i f   w e   h a v e  50 un i qu e   v a l u e s .  F or  50000 g r ou ps ,  r e p e t i t i on  of  50 v a l u e s   w i l l  be  1000 t i m e s  i n  di f f e r e nt   gr o up s .  T o  a vo i d  t hi s  r e p e t i t i o n o f   s e n s i t i ve  d o m a i va l ue s  i n  t he  gr o up s ,   f e w   va l ue s  c a n b e  r e p l a c e d   w i t s y n t h et i v al u es .  T h e p r o b ab i l i t y  o f  d i s cl o s u r e o f  r eal  s e n s i t i v e  v al u i s  i n cr ea s ed  i f  r e p e titio n  o f   s e n s iti v e   va l ue s  i gr o up s  t a ke s  p l a c e .   C r e a t i n g gr o up s  o f  c o unt e r f e i t  va l ue s  f o r   m i l l i o ns  o f  r e c o r d s  i n ve r y  s ho r t  t i m e   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SSN :   20 88 - 8708   I nt  J  E l e c &  C o m p  E ng,   V o l.   8 , N o 5 O c t o be r  201 8   :   2 920   -   2925   2924   a nd  f i nd i n g r e p e a t e d  o r  s i m i l a r  va l ue s  i n gr o up s  i n ve r y s ho r t  t i m e   w i l l  r e q ui r e  e xe c ut i ng t hi s   w o r k i n   d is tr ib u te d  o r   p a r a lle l f a s h io n .       5.   R ES U LT S   A ND AN AL Y S I S   F o r  p r o ces s i n g  t h e b i g  s t r ea m i n g  d at a,   w e h a v u s ed  t as k  l e v el  p ar al l el i s m  a n d  d at a l ev el   p ar al l el i s m .  F o r  t h e  t as k s  l i k e r ead i n g   s t r ea m ed  d at f r o m  s o u r ce,  p r ep r o ces s i n g  o f  s t r ea m ed  d at a an d   c o u n te r f e it  a n d   lo s s   m a n ag e m en t   p ar al l el i s m   i s   ap p l i ed .  T o   ach i ev t h r es u l t   s t r ea m   d at i s   p r o ces s ed  o n   f l i n k da t a  pr oc e s s i ng  e ng i n e  [ 22] .  I t  s u ppor t s  f or  pr oc e s s i ng  o f  bi g da t a s t r e a m i ng  a s   w e l l  a s  ba t c h  da t a   pr oc e s s i n g .  F l i nk  da t a  e ng i ne  a l s o s u ppor t  f or  c om pl e x  e v e n t  pr oc e s s i n g,   m a c hi ne  l e a r ni n g a nd  gr a p a na l ys i s .  T a b l e  1  s ho w s  t he   s i m i l a r i t va l ue s  o f   s e n s i t i ve  va l ue  o f  t up l e  o f  d i f f e r e nt   gr o up s  o b t a i ne d  b ex ecu t i n g  t h i s  d at a p ar al l el l y   u s i n g  d i f f er en t   m ea s u r e s .     I n  T a b le   1  s im ila r it y  b e t w e e n   d if f e r e n t g r o u p  v a lu e s  c a lc u la t ed .  W h en  t h e t u p l e ap p ear ,  i t  i s  r el eas ed   us i n g t he  c o un t e r f e i t   va l ue  a d d i t i o n i n t he   gr o up .  T a b l e  1   s h o ws   s i m ila r it y   va l ue s   f or  de ngu e ,   l ep r o s y ,  m al ar i a nd   d i p ht he r i a   s en s i t i v v al u w i t h   o t h er   c o u n t er f ei t   v al u es .   S i m i l ar i t y   r es u l t s   ar e o b t ai n ed   u s i n g   d i f f er en t   m eas u r es  [ 2 3 ]       T ab l e 1 .   S im i la r it y   V a l ue s   fo r   D i ff e re n t  G ro u p s   U s i n g  D i f f er en t  M eas u r es         W u &  P a l m e r ,  P a t h l e ngt h,  J i a ng  &  C o r na t h,  C o nc e p t ua l  d i s t a n ce an d  L i n   m eas u r es  ar e u s ed  t o  f i n d   t he  s i m i l a r i t y o f   va l ue s  i n t he  gr o up  [ 2 3 ] .   B as ed   o n   th o s e  m e a s u r e s ,  to  a v o id  s i m ila r it y   a tta c k  s i m ila r   v a lu e   can  b e r ep l aced   w i t h  o t h er   v a l u e i n  t h a t  g r o u p .  M eas u r es   f o r  f o u r  g r o u p s   w i t h  r eal   s en s i t i v v al u e s  d en g u e,   l ep r o s y ,   m al ar i a an d  d i p h t h er i a ar e s h o w n  i n  T ab l 1 .  F i g u r e 5  s h o w s  g r ap h  co m p ar i s o n  f o r  s im ila r it y  o f  t h e   r e a l  s e ns i t i ve   va l ue   w i t h gr o up  va l ue .           F i g ur e   5 .   G r a p h b a s e d  o n s i m i l a r i t y  i n d i f f e r e nt   gr o up  us i n d i f f e r e nt   m e a s ur e s   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  E l e c &  C o m p  E ng   I S S N :  2088 - 8708     F ra m e wo rk  t o   A v o id  S im ila r ity  A tta c k  in  B i g . ..   ( G ane s h D ag adu P ur i )   2925   6.   CO NCL U S I O N   P r iv a c y  p r e s e r v a tio n   f r a m e w o r k  to  a v o id  s i m ila r it y  a tta c k   i n  e le c tr o n ic   h e a lth  s tr e a m s  is   p r o p o s e d .   T f i n d   d i f f er en t   s i m i l ar i t y  o f   s en s i t i v v al u w i t h   c o u n t er f ei t   v al u e,   s i m i l ar i t y   m eas u r es   ar u s ed .   R e p la c e m e n t o f  s i m ila r  c o u n te r f e it v a lu e s  is  d o n e  b y  p a s t  d a ta  o f  tu p le s  to  in c r e a s e  d a ta  u tilit y .  F o r  b ig   s t r ea m i n g  d at a s y n t h et i v al u e s  ar e u s ed   f o r  r ep l ac e m e n t  o f   c ou n t e r f e i t   v a l u e s  a m o ng  g r oups .  A n onym i z a t i on  d e l a y  o f  f r a m e w o r k i s  r e d uc e d  us i ng d i s t r i b ut e d  e xe c ut i o n .       R EF ER EN C ES   [ 1]   N ug r a ha  D C ,   A k nur a nda  I ,   An   O v e r v i e w o f  e - H e a l t h i n I ndone s i a : P a s t a n d   P r e s e n t A p p lic a tio n s ”,   I nt e r nat i o na l   J our n al  o f   E l e c t r i c al   an d C om pu t e r  E ngi ne e r i ng ,   20 17  O c t  1;   7( 5) :   24 41 .   [ 2]   A boue l m e hdi  K ,  B e n i - H s s an e A ,  K h al o u f i  H ,   S aad i  M ,   B i g  d at a s ecu r i t y  an d   p r iv a c y  in  h e a lth c a r e : A  R e v ie w ”,   P r oc e di a C om p ut e r  Sc i e nc e ,   20 1 J a n 1;   11 3:   73 - 80 .   [ 3]   P u r i G D ,  H a r ith a  D ,   S u r ve y b i d a t a   an al y t i cs ,  ap pl i c a t i ons  a nd  p r i v a c y  c onc e r ns ”,   I ndi a n J our nal   of  Sc i e nc e  an d   T e c hnol ogy ,   2 01 6 M a y  18;   9( 17) .   [ 4]   F ung  B ,  W a ng  K ,  C he n R ,  Y P S ,   P r i va c y - pr e s e r v i ng  da t a  publ i s hi ng :  A  s ur v e y  of  r e c e nt  de v e l opm e nt s ”,   A C C om put i n g S ur v e y s  ( C SU R ) ,   201 0 J u n 1;  4 2( 4) :   14 .   [ 5]   G k o u l al as - D i v a ni s   A ,  L ouk i de s  G ,  S un J ,   P u bl i s hi ng  da t a  f r om  e l e c t r oni c  he a l t h  r e c or ds  w hi l e  pr e s e r v i ng  pr i v a c y :   A  s ur v e y  of  a l g or i t hm s ”,   J our nal   of  b i om e di c a l  i nf or m at i c s ,   2 01 4 A ug   31;   5 0:   4 - 19 .   [ 6]   J en s en  M ,   C ha l l e ng e s  of  pr i v a c y  pr o te c tio n  i n  b ig  d a ta  a n a ly tic s ”,   I nB i g D at a ( B i gD at a C on gr e s s ) ,  201 3 I E E E   I nt e r nat i o nal  C on gr e s s ,   2 01 J u n   27 ( p p.  235 - 2 3 8 ).  IE E E .   [ 7]   S w een e y  L ,   k - a nony m i t y :   A   m ode l  f or   pr ot e c t i ng  pr i v a c y ”,   I nt e r nat i on al  J o ur n al   of  U nc e r t ai nt y ,  F uz z i ne s s  a n d   K now l e d ge - B a s ed   S ys t em s ,   2 00 2 O c t ;   10( 05) :   55 7 - 70 .   [ 8]   M ach an av aj j h al a A ,  G eh r k e J ,  K i f er  D ,   V en k i t as u b r am an i a m  M ,   l - d iv e r s ity : P r iv a c y  b e y o n d  k - a nony m i t y ”,   In   D at E n gi ne e r i n g,   20 06.  I C D E ' 06.  P r oc e e di n gs   of  t he  2 2n d I nt e r nat i o nal  C o nf e r e nc e ,   20 06  A pr  3  ( p p.  24 - 2 4 ) I E E E .   [ 9]   L i  N ,  L i   T ,  V en k at as u b r am an i an  S ,   t - c l os e ne s s :   P r i v a c y  be y ond k - a no ny m i t y   a nd l - d iv e r s ity ”,   In   D a t E ngi ne e r i ng,  2 00 7.  I C D E   20 07 .  I E E E  2 3r d I nt e r n at i o na l  C o nf e r e n c e ,   200 7 A pr  1 5 ( pp.  1 06 - 1 1 5 ).  IE E E .   [ 1 0]   K i m  S ,  S ung  M K ,  C hung  Y D ,   A   f r a m e w or k  t o pr e s e r ve  t he  p r i v a c y o f   el ect r o n i c h eal t h  d at a s t r ea m s ”,   J our nal  of   b io m e d ic a l i n fo r m a tic s ,   2 01 4 A ug  31;   50:   95 - 10 6 .   [ 1 1]   P u r i G D ,  H a r ith a  D ,   A  F r a m e w o r k  t o  P r es er v e t h e P r i v ac y  o f  E l ect r o n i c H eal t h  D y n a m i c D at a S t r ea m s  U s i n g   P ar al l el  A r ch i t ect u r e ”,   I nt e r n at i o nal   J our n al  of   C ont r ol  T he or y  a n d A p pl i c a t i o ns ,   20 17:   10( 6) :   5 27 - 535 .   [ 1 2]   K hok h a r RH ,  Ch e n  R ,  F u n g  BC,  L u i  S M ,   Q ua nt i f y i ng  t he  c os t s  a nd be ne f i t s  of  pr i v a c y - pr es er v i n g  h eal t h  d at a   pub l i s hi ng ,   J our n al  of  bi om e di c al   i nf or m a t i c s ,   2 01 4 A ug  31;   5 0:   107 - 21 .   [ 1 3]   L u  R , Z h u  H , L i u  X L i u  JK,  S h a o  J ,   T o w a r d e f f i c i e nt  a nd pr i v a c y - p r es e r v in g  c o m p u tin g  in  b ig  d a ta  e r a ”,   I E E E   Ne t wo r k .  20 14  J ul ;   28( 4) :   46 - 50 .   [ 1 4]   X u L ,  J i a n g C ,  W a n g J ,  Y u a n J ,   R e n  Y ,   I nf or m a t i on s e c ur i t y  i bi g  d at a:   p r i v ac y  an d  d at a m i n i n g ”,   I E E E  A c c e s s ,   201 4;  2:   11 49 - 76 .   [ 1 5]   N ar d e lli M ,   A  F r am e w o r k  f o r   D at a S t r ea m   A p p l ic a tio n s   in  a  D is tr ib u te d  C l o u d ,   In   Z E U 20 16 J a n  27  ( pp .   5 6 - 63) .   [ 1 6]   C h o i  JH,   P a r k  J,  P a r k  HD,  M i n  O G . ,   D A R T f a s t a n d  e f f i c ie n t d is tr ib u te d  s tr e a m  p r o c e s s in g   f ra m e w o rk  f o in te r n e t o f   th in g s ,   E T R I  J our nal ,   20 17  A pr  1;   3 9( 2) :   20 2 - 12 .   [ 1 7]   Hwa n g  JH,  B a l a z i n sk a  M ,  R a si n  A ,   C e tin te m e l U ,  S to n e b r a k e r  M ,  Zd o n ik  S .  H ig h - a v a ila b ility  a lg o r ith m s   f o r   d is tr ib u te d  s tr e a m  p r o c e s s in g ”,   I nD at a E ngi ne e r i ng ,  20 05 .  I C D E  200 5.  P r oc e e di ngs .   21s t  I nt e r nat i on al   C o n f er en ce ,   2 00 5 A pr   5 ( pp .  7 79 - 7 9 0 ).  IE E E .   [ 1 8]   K a m bur ug a m uve  S ,  F ox  G ,   L e a k e  D ,  Q i u J ,   S ur v e y  o f  di s t r i bu t e d s t r e a m  pr oc e s s i ng   f or  l a r g e  s t r e a m  s our c e s ”,   T ech n i ca l  r ep o r t ,   20 13  D e c  14 .   [ 1 9]   Er r ita li M ,  B e n i - H s s an A ,  B i r j al i  M ,  M ad an i  Y ,   A A ppr o a c h of  S e m a nt i c  S i m i l a r i t y  M e a s ur e  be t w een   D oc um e nt s  B a s e d on B i g  D a t a ”,   I nt e r nat i o nal  J o ur na l  of  E l e c t r i c al  an d C om p ut e r  E ng i ne e r i ng ,   2 016 O c t  1;   6 (5 ):   245 4 .   [ 2 0]   N ai r  L R ,  S h et t y  S D ,  S h et t y  S D ,   S tr e a m in g  B ig  D a ta   A n a ly s is   f o r  R e a l - T i m e  S en t i m en t  b as ed  T ar g et ed   A d v e r tis in g ”,   I nt e r nat i o nal  J our n al   o f Ele c tr ic a a n d  C o m p u te r  En g in e e r in g  ( I J EC E) ,   20 17   F e b 1;   7 (1 ):   40 2 - 7 .   [ 2 1]   X i ao  X ,  T ao  Y ,   A n at o m y :  S i m p l e an d  e f f ect i v e p r i v ac y  p r es er v at i o n ”,   In   P r oc e e di n gs  o f  t he  3 2 nd  i nt e r n at i on al   c onf e r e nc e  on  V e r y  l ar ge   dat a b a s e s ,   200 6 S e p 1  ( p p.   13 9 - 1 50) .  V L D B  E ndow m e nt .   [ 2 2]   C a r bone   P ,  K a t s i f odi m os  A ,  E w e n S ,  M a r k l   V ,  H a r i di  S ,  T z oum a s   K .  A pa c he  f l i nk :  S t r e a m  a nd  ba t c h pr oc e s s i ng  i n   a  s i ng l e  e ng i ne .  B ul l e t i of  t he  I E E E  C om put e r  S oc i e t y   T e c hni c a l  C om m i t t e e  on D a t a  E ng i ne e r i ng .   201 5;   3 6( 4) .   [ 2 3]   M c I nne s  B T ,   P e de r s e n T ,   P a k hom ov  S V ,   U M LS - I n t er f ace an d  U M L S - S i m i l a r i t y :  ope n s o ur c e  s of t w a r e   f or   m e a s ur i ng  pa t hs  a nd s e m a n tic  s i m ila r it y ,   In   A M I A  A nnua l  Sy m pos i um  P r oc e e di ngs   2 00 9 ( V ol .  200 9,   p.  4 31 ) .   A m er i can  M ed i cal  I n f o r m at i cs   A s s o ci at i o n .   Evaluation Warning : The document was created with Spire.PDF for Python.