I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m p u t er   Science   Vo l.   9 ,   No .   1 J an u ar y   201 8 ,   p p .   10 7 ~ 1 1 0   I SS N:  2502 - 4752 ,   DOI : 1 0 . 1 1 5 9 1 / i j ee cs . v 9 . i1 . p p 10 7 - 1 1 0      107       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / ijeec s   Cry ptog ra phic  H a shing  Metho d us ing  f o r Secu re an d Si m ila rity  Dete c tion in  Distr ibuted  Clo ud Dat a       A.   M o ha m ed  Div a n M a s o o d 1 Dr.   S.K .   M uthus un da r 2   1 Re se a rc h   sc h o lar,  In f o rm a ti o n   Tec h n o l o g y ,   A M ET   Un iv e r sit y ,   Ch e n n a i   2 De p a rtme n o f   c o m p u ter sc ien c e ,   S ri  M u th u k u m a ra n   In stit u te  o f   Tec h n o l o g y ,   Ch e n n a i       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   J u n   2 9 ,   2 0 1 7   R ev i s ed   No v   2 3 ,   2 0 1 7   A cc ep ted   Dec   1 7 ,   2 0 1 7       T h e   e x p lo siv e   in c re a se   o f   d a ta  b rin g n e w   c h a ll e n g e to   th e   d a ta  s to ra g e   a n d   su p e rv isio n   i n   c lo u d   se tt i n g s.  T h e se   d a ta  t y p ica ll y   h a v e   to   b e   p ro c e ss e d   in   a n   a p p ro p riate   f a sh io n   in   th e   c lo u d .   T h u s,  a n y   i m p ro v e d   late n c y   m a y   o rig in   a n imm e n se   lo ss   to   th e   e n terp rise s.  Du p l ica ti o n   d e tec ti o n   p lay a   v e r y   m a in   ro le  in   d a ta  m a n a g e m e n t.   Da ta  d e d u p li c a ti o n   c a lcu late a n   e x c lu siv e   f in g e rp rin f o e a c h   d a ta  c h u n k   b y   u sin g   h a sh   a lg o rit h m s   su c h   a M D5   a n d   S HA - 1 .   T h e   d e sig n e d   f in g e rp rin is  th e n   c o m p a rin g   a g a in st  o th e a c c e s sib le  c h u n k in   a   d a tab a s e   th a d e d ica tes   f o sto rin g   th e   c h u n k s.  A a n   o u tco m e ,   De d u p li c a ti o n   sy ste m   i m p ro v e sto ra g e   c o n su m p ti o n   w h il e   re d u c in g   re li a b il it y .   Be sid e s,  th e   f a c e   o f   p riv a c y   f o re sp o n siv e   d a ta  a lso   a rise w h il e   th e y   a re   o u tso u rc e d   b y   u se rs  to   c l o u d .   A im in g   to   d e a w it h   th e   a b o v e   se c u rit y   c h a ll e n g e s,  th is  p a p e m a k e th e   first  e ff o rt  to   h o n o th e   n o ti o n   o f   d istri b u ted   d e p e n d a b le  De d u p li c a ti o n   sy ste m .   W e   o ff e n e w   d istri b u ted   De d u p li c a ti o n   s y ste m w it h   p riv il e g e d   re li a b il it y   in   w h ich   th e   d a ta  c h u n k a re   d istri b u ted   acr o ss   a   v a riet y   o f   c lo u d   se rv e rs .   T h e   p ro tec ti o n   n e e d a   d if fe re n o f   u sin g   c o n v e rg e n e n c r y p ti o n   a s in   f o re g o in g   De d u p li c a ti o n   sy ste m s.   K ey w o r d s :   Ded u p licatio n   Dis tr ib u ted   Sto r ag e   R eliab ilit y   Secu r S h ar in g   Co p y rig h Âİ   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   A .   Mo h a m ed   Di v an   Ma s o o d   R esear ch   s ch o lar ,   I n f o r m atio n   T ec h n o lo g y ,   A ME T   Un i v er s it y ,   C h en n ai       1.   I NT RO D UCT I O N   A q u an ti t y   o f   d ed u p licatio n   m et h o d s   h a v e   f u tu r b ased   o n   v ar ied   d ed u p licatio n   s tr ateg y   s u ch   a s   clien a n d   s er v er   s id d ed u p l icatio n s   f ile  a n d   C o n te n tle v el   d ed u p licatio n s .   Mo s t l y ,   w i th   th s tar o f   clo u d   s to r ag e,   d ata  d ed u p licatio n   M ec h an i s m   o cc u r   to   n e w   g o r g e o u s   a n d   i m p o r ta n f o r   t h m an ag e m e n t   o f   b u d d in g   v o lu m es  o f   d ata  in   clo u d   s t o r ag s er v ices  w h ic h   ca u s e   p r o j e ct  an d   ass o ciatio n   to   r an ch   o u t   d ata  to   th ir d   p ar ty   clo u d   p r o v id er s ,   as e v id en ce d   b y   n u m er o u s   r ea l lif s t u d y   [ 1 ] .   T h er ar tw o   t y p es  o f   d ed u p licatio n   in   s etti n g   o f   th s iz e:  ( i)   Fil Na m ele v el,   w h ich   d is co v er s   Dif f ic u ltie s   b et w ee n   v ar io u s   f iles   a n d   r e m o v t h ese   Di f f i cu ltie s   to   r ed u ce   f ac u l t y   s tr a in ,   ( ii)  B lo ck lev el,   w h ic h   f i n d s   a n d   r e m o v e   Di f f i cu ltie s   a m o n g   d ata  b lo ck s .   T h f ile   ca n   b d iv id ed   i n to   s m al ler   f i x ed   s ize   o r   n o t   lev els ize  b lo ck s .   U s in g   p r esets ize  b lo ck s   s i m p lify   th e   c o m p u tatio n s   o f   b lo c k   r estrict io n s ;   th o u g h   u s in g   r o u g h s ize  b lo ck s   p r o v id es e n h an ce d   d ed u p licatio n   u s e   [ 2 ] .   I n   ac cu m u la tio n ,   Sec u r C lo u d   also   en ab les  s ec u r d ed u p licatio n .   P er ce iv th at  th “ s ec u r it y ”   m ea s u r ed   in   Sec u r C lo u d   i s   t h a v o id an ce   o f   lea k a g e   o f   s u r f ac e   d ir ec i n f o r m atio n .   I n   o r g an ize   to   c h ec k   th e   leak ag o f   s u c h   s id d ir ec in f o r m atio n ,   w ep u r s u t h tr ad itio n   o f   an d   m ea n   p r o o f   o f   p r iv ile g es  p r o ce d u r a m o n g   clien ts   an d   clo u d   s er v er s ,   w h ic h   au t h o r ize  clien t s   to   v er if y   to   clo u d   s er v er s   t o   th e y   clo s el y   o w n     th o b j ec td ata  [ 3 - 5 ] .   I n   ad d itio n ,   t h te s f o r   d at p r iv ac y   also   ar i s es  a s   ad d ed   an d   m o r s en s iti v d ata  ar b ein g   o u ts o u r ce d   b y   u s er s   to   clo u d .   E n cr y p tio n   m ec h a n is m s   co n tain   u s u al l y   b ee n   u tili ze d   to   s h ield   t h e   co n f id e n tialit y   p r io r   to   o u t s o u r cin g   d ata  i n to   clo u d .   As  a n ef f ec t,  id en tical  d ata  co p ies  o f   d iv er s u s er s   w ill   Evaluation Warning : The document was created with Spire.PDF for Python.
     I SS N : 2502 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 9 ,   No .   1 J an u ar y   201 8   :   10 7 – 11 0   108   lead   to   d if f er en cip h er tex t s   with   S u r v e y   o n   E n cr y p tio n   T ec h n iq u es  u s ed   to   Secu r C lo u d   Sto r ag S y s te m   [ 6 - 8 ] .   T o   p r o tect  b o th   co n f id e n ti alit y   a n d   r eliab ilit y   e v en   a s   ac h iev i n g   d ed u p licatio n   in   clo u d   s to r ag s y s te m   i s   at  r est  c h alle n g w it h   g e n er atin g   a   d ig ita s i g n at u r b ased   o n   n e w   cr y p to g r ap h ic   s ch e m f o r   u s er   au th e n tica tio n   a n d   s ec u r it y .       2.   E XI ST I N G   WO RK S   Ho w e v er th i s   tec h n iq u ca n   r e m ai n   th s to r ag s p ac f o r   th clo u d   s to r ag s er v ice  p r o v id er s ;   it  d ec r ea s es th e   r eliab ilit y   o f   t h s ch e m e.   Data   r eliab ilit y   is   r ea l l y   a   v er y   s er io u s   is s u e   i n   a   d ed u p licatio n   s to r ag e   s y s te m   s i n ce   th er is   o n l y   o n co p y   f o r   ev er y   f ile  s to r ed   in   th s er v er   s h ar ed   b y   all  t h e   o w n er s .   I f   s u ch   a   s h ar ed   f ile/c h u n k   w a s   m is s in g ,   s u s p icio u s l y   lar g a m o u n o f   d ata  b ec o m es   i n ac ce s s i b le  b ec au s o f   t h e   u n a v ailab ili t y   o f   e v er y   f ile  t h at  s h ar es   t h i s   f ile/c h u n k .   I f   t h v al u o f   c h u n k   b m ea s u r ed   in   e x p r ess io n s   o f   th a m o u n o f   f i le  d ata  th at  wo u ld   b lo s in   ca s o f   lo s in g   a   p ar ticu lar   ch u n k ,   f o llo w ed   b y   th a m o u n o f   u s er   d ata  lo s t a s   c h u n k   i n   t h s to r ag s y s te m   is   co r r u p ted   g r o w s   w ith   th e   n u m b er   o f   t h u n i t y   o f   th e   ch u n k .   T h u s ,   h o w   to   ass u r an ce   h ig h   d ata  r eliab ilit y   i n   d ed u p licatio n   s y s te m   is   cr itical  p r o b le m .   I n   ad d itio n ,   th ch allen g f o r   d ata  p r iv ac y   also   ar is es  as  m o r s en s iti v d ata  ar b ein g   o u ts o u r ce d   b y   u s er s   to   clo u d .   E n cr y p tio n   m ec h a n i s m s   h a v t y p icall y   b ee n   u tili ze d   to   g u ar d   t h c o n f id e n tialit y   b e f o r e   o u ts o u r ci n g   d ata  k ee n   o n   clo u d .   Mo s p r o f itab le  s to r ag s er v ice  p r o v id er   is   d is in clin ed   to   ap p ly   en cr y p tio n   o v er   th d ata  f o r   th e   r ea s o n   th at  it   m a k e s   d ed u p licatio n   i m p o s s ib le.   As  a n ef f ec t,  id e n t ical  d ata  co p ies  o f   d iv er s u s er s   w i ll d ir ec t to   d if f er en t c ip h er tex ts .       3.   P RO B L E M   F O R M UL AT I O N   3 . 1 .   Sy s t em   M o del   I n   t h is   d iv i s io n ,   w e x p lain   o u r   p r o p o s ed   Secu r C lo u d   s y s te m .   P ar ticu lar l y ,   w e   b eg i n   w i th   g e n er o u s   th s y s te m   m o d el  o f   Sec u r C lo u d   as  w ell  a s   i n tr o d u ci n g   t h d esig n   g o al  f o r   Sec u r C lo u d .   I n   w h at  f o llo w s ,   w s h o w   t h p r o p o s ed   Secu r C lo u d   in   d etail  a s   s h o w n   i n   f i g u r 1 .     Fig u r 1 .   Secu r C lo u d   S y s te m       A i m   at  allo w   f o r   a u d itab le  a n d   d ed u p licated   s to r ag e,   w e   p r esen t   th e   p r o tecte d   C lo u d   s y s t e m .   I n   t h e   s y s te m ,   w e m b r ac th r ee   e n t i ties :   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci   I SS N:  2502 - 4752      C r yp to g r a p h ic  Ha s h in g   Meth o d   u s in g   f o r   S ec u r a n d   S imil a r ity  Dete ctio n   â€Ĥ   ( A.  Mo h a med   Diva n   Ma s o o d )   109   C lie n ts   co n ta in   h u g d ata  f i le s   to   b s to r ed   o n   th clo u d   f o r   d ata  s af et y   a n d   co m p u tatio n .   T h ey   ca n   b also   en tit y   co n s u m er s   o r   p r o f itab le  o r g an izat io n s .   C lo u d   Ser v er s   v ir t u alize s   th g o o d s   ac co r d in g   to   th s u p p lies   o f   clie n ts   a n d   ac co u n t h e m   as  s to r ag e.   Usu al l y ,   t h clo u d   clien t s   m a y   b u y   o r   f ee   s to r ag ca p ac it y   f r o m   clo u d   s er v er s ,   an d   s to r th eir   in d iv id u a d ata   in   th e s b u y   o r   b o r r o w ed   s p ac es f o r   w is h u s e.   Au d ito r   w h ic h   ass i s clie n u p lo ad   an d   au d it  th eir   d ata  m ai n tai n   clo u d   an d   ac ts   r elate d   t o   a   ce r tif icate   a u th o r it y .   I n   ad d itio n ,   all  th d ata  h as  b ee n   e n c r y p ted   p r io r   to   th e y   ar o u ts o u r ce d .   T h d ata  is   en cr y p ted   w i th   t h u s u al  s y m m etr ic  en cr y p tio n   s ch e m an d   th k e y   i s   g en er ated   b y   th k e y   s er v er .   T h e   co n v er g e n k e y   i s   en cr y p ted   b y   n e w   m ast er   k e y   a n d   s to r ed   in   th clo u d   s er v er .         4.   O UR  CO NT RIB U T I O N   I n   th is   ar ticle,   w s h o w   to   d esi g n   s ec u r d ed u p licatio n   tech n i q u th r o u g h   r eliab ilit y   in   clo u d   s to r ag e.   W lau n c h   t h d i s tr ib u ted   clo u d   s er v er s   i n v o l v ed   i n   d ed u p li ca tio n   m et h o d s   to   o f f er   b etter   b lu n d er s .   T o   m o r e   k ee p   d ata  co n f id e n tialit y ,   th s ec u r s h ar in g   m e th o d s   ar u ti lized ,   w h ich   is   al s o   w e ll  d ef i n ed   w i th   t h e   d is tr ib u ted   s to r ag e.     4 . 1 .   Dis t ribute d St o ra g e   T h ese  m eth o d s   ar eu s to   r ea lis tic   s to r ag p r o ce s s   an d   ca n   as  w ell  b r ea lis tic  to   n et w o r k   d ata  tr an s f er s   to   d ec r ea s t h b y te s   th a m u s b s e n t.  I n   t h d e d u p licatio n   m et h o d ,   ex cl u s i v e   ch u n k s   o f   d ata,   o r   b y te   p atter n s ,   ar r ec o g n ized   an d   s to r ed   all  t h r o u g h   p r o ce s s   o f   s t u d y .   Si n ce   t h s t u d y   co n ti n u es,  o th er   ch u n k s   ar co m p ar ed   to   th s to r ed   d u p licate  an d   ev er y   ti m m atc h   o cc u r s ,   t h u n n ec es s ar y   ch u n k   i s   r ep lace d   am o n g   s m all  p o s iti o n   th at  p o in t s   to   th s to r ed   ch u n k .   Kn o w n   t h at  th s i m ilar   b y te  p atter n   p o s s ib l y   w il l o cc u r   d o ze n s ,   h u n d r ed s ,   o r   ev en   t h o u s a n d s   o f   er ( th co m p e titi o n   f r eq u e n c y   i s   n ee d y   o n   th c h u n k   s ize) ,   th q u a n tit y   o f   d ata  th at  m u s b s to r ed   o r   tr an s f er r ed   ca n   b v er y   m u c h   a   b r id g ed .     4 . 2 .   Dedupl ica t io n   Data   d ed u p licatio n   i s   s ele ctiv e   d ata  co m p r es s io n   m e th o d   f o r   r em o v i n g   p h o to co p y   co p ies  o f   r ep ea tin g   d ata.   C o n n ec ted   an d   r ath er   id en tical  ter m s   ar in te llig e n ( d ata)   co m p r es s io n   an d   s in g le  o cc u r r en ce   ( d ata)   s to r ag e.   I n   th is   d iv is io n   w e m er g h o w   to   d er iv th w ell  g r ain ed   b lo ck   lev el  d is tr ib u ted   d ed u p licatio n .   T h u s er   d iv id er   th is   f iles   i n to   b lo ck s ,   if   n o   d u p licatio n   is   f o u n d   an d   p er f o r m s   b lo ck   le v el   d ed u p licatio n   s y s te m .   T h s y s te m   s e u p   is   al ik to   f ile  le v el   d ed u p licatio n   an d   also   b lo ck   s ize  r estrictio n   w ill   b d is tin ct.     4 . 3 .   I nte g rit y   Audi t ing   T h is   atte m p t i s   to   cr ea te  av aila b le  th ab ilit y   o f   v er i f y i n g   ac c u r ac y   o f   t h s o m e   w h at  s to r ed   d ata.   T h in te g r it y   p r o o f   ad d itio n al  n ee d s   t w o   f ea tu r es i)   p u b lic   p r o o f ,   w h ich   a llo w   ea c h ,   n o in s tan tl y   t h clie n t s   at  f ir s s to r ed   th f i le,   to   p er f o r m   p r o o f ii)  s tate less   p r o o f ,   w h ic h   is   ab le  to   r e m o v th n ee d   f o r   s tate   in f o r m atio n   d e f en s at  th v er i f ier   ex ter io r   b et w ee n   t h tr ial  o f   au d iti n g   a n d   d ata  s to r ag e.       5.   RE SU L T   AND  DI SCUS SI O N   Ma n ag in g   e n cr y p ted   d ata  with   d ed u p licat io n   i s   s ig n i f ic an i n   p r ac tice  f o r   r u n n in g   s ec u r e,   d ep en d ab le,   an d   g r ee n   clo u d   s to r ag s er v ice,   esp ec iall y   f o r   b ig   d ata  p r o ce s s es.   F u t u r w o r k   i n cl u d es  e f f icie n t   d ata  o w n er s h ip   v er i f icat io n ,   s ch e m o p ti m izatio n   w it h   h a r d w ar ac ce ler atio n   at  I o T   d ev ices   f o r   p r ac tical   d ep lo y m en t,  a n d   d ev elo p m e n t   o f   f le x ib le  s o l u tio n   to   s u p p o r d ed u p licatio n   an d   d ata  ac ce s s   co n tr o lled   b y   eith er   th d ata  o w n er   o r   its   r ep r esen tati v ag e n t.       6.   CO NCLU SI O N   T h is   p ap er   p r o j ec ted   th s ec u r d ed u p licatio n   tech n iq u es  to   d ev elo p m e n t   o f   d ata  w h ile   a ch iev t h e   p r iv ac y   o f   t h u s er s   d ata  a n   en cr y p tio n   m ec h a n is m .   Fo u r   m e th o d s   ar p r o p o s ed   to   em b r a ce   f ile  o r   b lo ck   lev e l   d ata  d ed u p licatio n .   T h s ec u r it y   o f   ta g   an d   tr u t   h is   ac h ie v e d .   A n   a u d itin g   t h in g   w it h   p r o tectio n   o f   clo u d ,   w h ic h   o f f er s   clie n ts   m ak e   d ata  tag s   f o r w ar d   o f   u p lo ad in g     w ell   a u d it  t h h o n e s t y   o f   d ata  h a v b ee n   s to r ed   i n   clo u d .   I m p le m e n o u r   d ed u p l icatio n   m e th o d s   u s i n g   th s e cu r s h ar i n g   tech n iq u a n d   u s i n g   th at  it  s m all  en co d in g /d ec o d in g   tr a n s p ar en c y   co m p ar ed   to   th n et w o r k   tr an s m i s s io n .         Evaluation Warning : The document was created with Spire.PDF for Python.
     I SS N : 2502 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 9 ,   No .   1 J an u ar y   201 8   :   10 7 – 11 0   110   RE F E R E NC E S   [1 ]   L M ,   Qin   C,   L e e   P   P ,   L J.  C o n v e rg e n Disp e rsa l:   T o w a rd   S t o ra g e - Eff ici e n S e c u rit y   in   a   Cl o u d - of - Clo u d s .   In   Ho tCl o u d .   2 0 1 4 .   [2 ]   A r m b ru st  M ,   F o x   A ,   G ri ff it h   R,   Jo se p h   A   D,  Ka tz  R,   Ko n w in sk A ,   Zah a ria  M .   v ie w   o f   c lo u d   c o m p u ti n g .   Co mm u n ica ti o n s   o th e   ACM ,   2 0 1 0 ;   53 (4 ),   5 0 - 5 8 .   [3 ]   S tan e k   J,  S o rn io tt A ,   A n d ro u lak E,   Ke n c L .   A   se c u re   d a ta   d e d u p li c a ti o n   sc h e me   fo c lo u d   sto r a g e In   In ter n a ti o n a Co n f e re n c e   o n   F i n a n c ial  Cry p to g ra p h y   a n d   Da ta  S e c u rit y .   S p rin g e r,   Be rli n ,   He id e lb e rg .   2 0 1 4 9 9 - 1 1 8 .     [4 ]   Yu a n   J,   Yu   S .   S e c u re   a n d   c o n sta n t   c o st  p u b li c   c l o u d   st o ra g e   a u d it in g   w it h   d e d u p li c a ti o n .   IE EE   Co n f e re n c e   in   Co m m u n ica ti o n s a n d   Ne tw o rk   S e c u rit y   (CNS).   2 0 1 3 :   1 4 5 - 1 5 3 .   [5 ]   A ten ies e   G ,   Bu rn R,   Cu rt m o la  R,   He rrin g   J,  Kh a n   O,  Kiss n e L,   S o n g   D.  Re m o te  d a ta  c h e c k in g   u sin g   p ro v a b le   d a ta p o ss e ss io n .   ACM   T ra n sa c ti o n s o n   In f o rm a ti o n   a n d   S y ste m S e c u rity ( T IS S EC) ,   20 1 1 14 (1 ):  1 2 .   [6 ]   L J,  Ch e n   X,  L M ,   L J,  L e e   P   P ,   L o u   W .   S e c u re   d e d u p li c a ti o n   w it h   e f f icie n a n d   re li a b le  c o n v e rg e n k e y   m a n a g e m e n t.   IEE tr a n sa c ti o n o n   p a r a ll e a n d   d istri b u te d   sy ste ms ,   2 0 1 4 ;   25 (6 ):  1 6 1 5 - 1 6 2 5 .   [7 ]   Kiru b a k a ra m o o rth R. ,   A riv a z h a g a n   D,  He len   D.  S u rv e y   o n   En c ry p ti o n   T e c h n iq u e u se d   to   S e c u re   Clo u d   S t o ra g e   S y st e m .   In d ia n   j o u r n a o S c ien c e   a n d   T e c h n o l o g y .   2 0 1 5 8 ( 3 6 ) .     [8 ]   G a n e sh k u m a K,  &   Ariv a z h a g a n   D.  Ge n e ra ti n g   a   d ig it a si g n a tu re   b a se d   o n   n e w   c r y p to g ra p h ic  s c h e m e   f o u se r   a u th e n ti c a ti o n   a n d   se c u rit y .   In d ia n   J o u r n a l   o f   S c ien c e   a n d   T e c h n o l o g y .   2 0 1 4 ;   7 (S 6 ):  1 - 5.   [9 ]   Z .   Ya n ,   W .   Di n g ,   a n d   H.  Z h u ,   “ M a n a g e   En c ry p ted   Da ta  S to ra g e   w it h   De d u p li c a ti o n   i n   Cl o u d , ”   P r o c .   In t’ Co n f .             A l g o rit h m s a n d   A rc h it e c tu re s f o P a ra ll e P r o c e ss in g   (ICA 3 P P ) ,   2 0 1 5 ,   p p .   5 4 7 – 5 6 1 .   Evaluation Warning : The document was created with Spire.PDF for Python.