I nte rna t io na l J o ur na l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   10 ,   No .   1 Feb r u ar y   2020 ,   p p .   415 ~ 42 0   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 1 0 i 1 . pp 4 1 5 - 420     415       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m/in d ex . p h p /I JE C E   t i m e   e f ficien a nd  a ccurate   r et rie v a l of  r a ng e   a g g rega te   q ueries using   f u zzy   c lustering   m ea n s (F CM a ppro a c h       A.   M urug a n,  D.   G o bin a t h,   S.   G a nes h K u m a r,   B.   M urug a na ntha m ,   Sa ruba la   Velus a my   De p a rtme n o f   Co m p u ter S c ien c e   a n d   E n g in e e rin g F a c u l ty   o f   En g in e e rin g   a n d   T e c h n o lo g y ,   S RM IS T ,   Ch e n n a i ,   I n d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Feb   17 ,   2 0 1 9   R ev i s ed   A u g   1 0 ,   20 19   A cc ep ted   A u g   29 ,   2 0 19       M a ss iv e   g ro w th   in   th e   b ig   d a ta  m a k e s   di ff icu lt   to   a n a l y s e   a n d   re tri e v e   th e   u se f u in f o r m a ti o n   f ro m   th e   se o a v a il a b le  d a ta’s .   Ex isti n g   a p p ro a c h e c a n n o g u a ra n tee   a n   e ff icie n re tri e v a o f   d a ta  f ro m   th e   d a tab a se .   In   th e   e x isti n g   w o rk   stra ti f ied   sa m p li n g   is  u se d   to   p a rti ti o n   th e   tab les   in   ter m s   o f   stra ti c   v a riab les .   Ho w e v e k   m e a n c lu ste rin g   a lg o rit h m   c a n n o g u a ra n tee a n   e ff icie n re tri e v a w h e re   th e   c h o o si n g   c e n tro id   in   t h e   larg e   v o lu m e   o d a ta   w o u ld   b e   d if f icu lt .   A n d   les k n o w led g e   a b o u t h e   stra ti c   v a riab le  m i g h lea d s   to   th e   les e f f i c i e n p a rti ti o n i n g   o f   tab les .   T h is  p ro b lem   is  o v e rc o m e   in   th e   p ro p o se d   m e th o d o lo g y   b y   in tro d u c in g   th e   F CM   c lu ste rin g   i n ste a d   o f   k   m e a n s   c lu ste rin g   w h ich   c a n   c lu ste th e   larg e   v o lu m e   o d a ta  w h ich   a re   sim il a r   in   n a tu re .   S tratif ica ti o n   p ro b lem   is  o v e rc o m e   b y   in tro d u c in g   th e   p o st   stra ti f ica ti o n   a p p ro a c h   w h ich   w il lea d to   e ff icie n se lec ti o n   o f   stra ti c   v a riab le.   T h is  m e th o d o l o g y   lea d s   to   a n   e ff icie n re tri e v a p ro c e ss   in   term o u se q u e ry   w it h in   les s ti m e   a n d   m o re   a c c u ra c y .   K ey w o r d s :   B ig   d ata   FC al g o r ith m   P o s t stra tif icatio n   s a m p lin g   Co p y rig h ©   2 0 2 0   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   A.   M u r u g an ,   Dep ar t m en t o f   C o m p u ter   Scie n ce   an d   E n g i n ee r in g ,   Facu lt y   o f   E n g i n ee r i n g   a n d   T e ch n o lo g y ,   SR MI ST ,   C h e n n ai I n d ia.   E m ail:  a m u r u g an 1 5 @ o u tlo o k . co m       1.   I NT RO D UCT I O N   B ig   d ata  an al y s i s   ca n   r ev ea t h at  t h co s to   p r o ce s s   t h d ata  in   b i g   d ata  en v ir o n m en is   to o   h ig h ,   s u c h   as  p ee r   in f l u en ce   a m o n g   cu s to m er s ,   d is clo s ed   b y   a n al y s i n g   s h o p p er s   tr an s ac tio n s ,   s o cial  an d   g eo g r ap h ical   d ata.   I i s   a   ch a llen g in g   tas k   i n   b i g   d ata   en v i r o n m e n to   q u ic k l y   ac q u ir t h r es u lt   f o r   r a n g e - ag g r e g ate  q u er ie s .   A   r an g q u er y   i s   co m m o n   d atab ase  o p er atio n   th at  r etr ie v es  all   r ec o r d s   f r o m   d atab ase   w h er s o m v alu e x is ts   b et wee n   an   u p p er   an d   lo w er   b o u n d ar y .   Fo r   ex a m p le,   li s all  e m p lo y ee s   w ith   3   to   5   y ea r s   o f   e x p er ien ce .   R an g e   q u er ies  ar u n u s u al   b ec au s e   w d o n k n o w   i n   ad v an ce   th a h o w   m a n y   r o w s   w ill   b r etu r n ed   a s   r es u lt .   I t   w ill   r etu r n   an y   n u m b er   o f   r o w s   o r   n o ev e n   a n y .   Ma n y   o t h er   q u er i es,  s u ch   as   th e   to p   ten   m o s s e n io r   e m p lo y ee s ,   o r   th n e w e s e m p lo y ee ,   ca n   b d o n m o r ef f icie n tl y   b ec a u s e   th ese  q u er ie s   h a v e   an   u p p er   b o u n d   to   t h n u m b er   o f   r esu l ts   t h e y   w ill  r et u r n .   R a n g q u er y   r etr ie v al  i n   th s m al ler   d atab ase  w o u ld   b m o r ef f icie n p r o ce s s   w h er it  w ill  co n s u m m o r ti m an d   w ill  r ed u ce   th ti m co m p lex i t y   i n   ca s o f   lar g er   d atab ase  w h er t h b i g   v o l u m o f   r ec o r d s   ar p r esen t.  T h is   p r o b le m   i s   ad d r ess es  i n   t h ex is ti n m et h o d o lo g y   in   ter m s   o f   r etr iev i n g   m o r ac cu r ate  a n d   tim co n ce r n ed   o u tp u f o r   th e   r an g q u er ies  f r o m   th lar g er   d atab ases .   I n   b ig   d ata  en v ir o n m e n m o s tl y   th d ata  s ets  ar s to r ed   in   d i s tr ib u ted   en v ir o n m e n as  t h v o lu m o f   th d ata  i s   v er y   lar g e.   T h co s o f   d is tr ib u ted   r an g e - ag g r eg ate  q u er ies   m a in l y   d ep en d s   o n   t w o   f ac to r s .   i.e . ,   n et w o r k   co m m u n icatio n   co s an d   lo ca f iles   s ca n n i n g   co s t.  T h f ir s co s d ep en d s   o n   d ata  tr an s m is s io n   an d   s y n c h r o n iza tio n   f o r   a g g r eg ate  o p er atio n s   i f   t h f ile s   s elec ted   ar in   d if f er en s er v er s .   T h s ec o n d   co s d ep en d s   o n   lo ca f ile s   s ca n n in g   to   s ea r ch   t h s e lecte d   tu p les.  W h en   th e   d ata  s et   s ize  g et s   i n cr ea s ed   co n tin u o u s l y ,   t h ab o v m e n ti o n ed   t w o   co s ts   w il also   g et  i n cr ea s d r am atica ll y .   So   o n l y   w h e n   th ab o v t w o   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   1 Feb r u ar y   2 0 2 0   :   415   -   420   416   co s ts   ar m i n i m ized ,   w ca n   g et  th e   f in al   r an g e - a g g r eg at q u er ies  r es u lt   f aster   i n   b i g   d ata  en v ir o n m e n ts .   T h er ar v ar io u s   ap p r o ac h e s   to   m i n i m ize  t h ab o v t wo   co s ts   t h at  h as   b ee n   s t u d ied   in   t h p ast   [ 1 - 4 ] ,   b u to d ay   a n al y s t s   ar p r o g r e s s i v el y   m o r f o cu s in g   o n   e f f icie n m eth o d s   a n d   to o ls   f o r   b ig   d ata  an al y s i s .   T h s a m p li n g   a n d   h is to g r am   ap p r o ac h es   w er alr ea d y   u s ed   in   b id   d ata  e n v ir o n m en ts   to   s u p p o r t   ap p r o x im a te  an s w er i n g   o r   s elec tiv it y   esti m atio n .   Ho w e v er ,   it  co u ld   n o o b tai n   ac ce p tab le  ap p r o x im a tio n s   f o r   th u n d er l y i n g   d ata  s ets.       2.   E XI ST I N G   SYS T E M   Fas t R A m eth o d   is   p r o p o s ed   in   b ig   d ata  en v ir o n m e n ts   as  r ef er r ed   in   [ 1 ] .   I f ir s d iv id es  lar g d ata  in to   s m all  i n d ep en d en p ar tit io n s   u s i n g   b ala n ce d   p ar titi o n in g   al g o r ith m ,   an d   t h en   it   g en er ate s   lo ca l   esti m atio n   s k etc h   f o r   ea ch   a n d   ev er y   p ar titi o n .   W h e n   r an g e - a g g r e g ate  q u er y   r eq u e s t   ar r iv es,  Fas t R A Q   o b tain s   t h r e s u l f r o m   ea ch   p ar titi o n   an d   it  g i v es   t h f i n a r esu lt  b y   s u m m ar izin g   th e   l o ca esti m ates   f r o m   ea ch   p ar titi o n .   Fas t R A ap p r o ac h   is   i m p le m en ted   o n   th L i n u x   p la tf o r m   a n d   its   p er f o r m an ce   i s   ev al u ated   u s i n g   n ea r l y   1 0   b illi o n   d ata  r ec o r d s .   T h v ar io u s   al g o r ith m s   u s ed   i n   [ 1 ]   ar s tr atif icat io n   alg o r it h m   a n d   k - m ea n s   al g o r ith m .   T h d is ad v an ta g e s   i n   [ 1 ]   ar i n ef f icie n t   r etr iev al  o f   r es u lt s ,   s tr at if ica t io n   p r o b le m   o cc u r s   an d   m o r ti m co m p lex it y .   T h f ast  al g o r ith m s   in   [ 3 ,   5 ]   ar in tr o d u ce d   to   s p ee d   u p   th r an g s u m   a n d   r an g m ax   q u er ies  i n   OL A P   s y s te m .   T h m o s i m p o r tan ai m   o f   t h i s   s ce n ar io   is   u s ed   to   p r e - co m p u te  t h m u lti - d i m e n s io n al  p r ef i x   s u m s   o f   t h d ata  c u b e.   T h to tal  s to r ag n ee d   is   k ep as  s a m as  t h d ata  cu b alo n g   w ith   s m a ll  i n cr ea s i n   ti m f o r   t h q u er ie s   o f   s i n g leto n   ce ll.  Si n ce   a n y   ce ll   o f   th d ata  c u b i s   ca lc u lated   w it h   th e   s a m ti m e   co m p le x it y   as  r a n g s u m   q u er y .   T h ag g r e g atio n   o p er atio n s   s u c h   as  m a x ,   s u m   ar u s ed   to   an s w er   u n e x p ec ted   r u n   ti m q u er ie s .   I is   ef f ici en tl y   u s ed   f o r   m a x i m u m   r an g o f   q u er ies  u s in g   h ier ar ch ical  tr ee   s tr u ct u r e.   T h d is ad v an tag i s   i n   f e w   ca s es it h as i s s u w it h   lo w er   ac cu r ac y   r ate s .   T h P r ef ix - s u m   C u b ( P C )   m eth o d   [ 4 ,   6 7]   is   f ir s t   u s ed   i n   O L A P   to   i m p r o v e   t h r a n g e - ag g r e g ate   q u er y   p er f o r m a n ce .   A ll  r a n g e - ag g r e g ate  q u er ie s   ar p r o ce s s ed   in   co n s tan ti m an d   all  th n u m er ical  at tr ib u t e   v alu e s   ar s o r ted   in   o r d er ,   b u w h en   n e w   r o w   o r   tu p le  i s   ad d ed   in   th cu b e,   th er is   n ee d   to   r ec alcu late   th p r ef i x   s u m s   f o r   all  d i m e n s i o n s . He n ce ,   t h u p d ate  ti m is   ev en   w o r s e.   On li n Ag g r e g atio n   ( O L A )   i s   an   i m p o r tan ap p r o ac h   to   s p ee d   u p   r an g e - a g g r eg ate  q u e r ies  an d   is   w id el y   u s ed   in   r elatio n al  d at ab ases   [ 8 9 ]   an d   C lo u d   s y s t e m s   [ 1 0 - 1 2 ] .   I n   OL A   s y s te m s   t h b ac k g r o u n d   co m p u ti n g   p r o ce s s es  r u n   f o r   lo n g   ti m e.   T h r etu r n s   ar r ef i n ed   an d   th ac cu r ac y   is   als o   g ettin g   b etter   in   s u b s eq u en s tag e s .   B u i n   ea r l y   s ta g es,  t h u s er s   ca n n o g et  an   ap p r o p r iate  r esu lt  w it h   s atis f ied   ac cu r ac y .   A l s o   it h a v ex p e n s i v s ce n ar i o ,   w asta g o f   co m p u ted   r eso u r ce s ,   r ed u ce d   p er f o r m a n ce   [ 1 3 - 1 5 ] .   T h H y p er L o g L o g   al g o r ith m   r ef er r ed   in   [ 1 6 ]   p r o v es  to   b e   ea s y   to   co d a n d   e f f ic ien t,   b ein g   e v e n   n ea r l y   o p ti m a u n d er   ce r tain   cr iter ia.   I is   h ig h l y   p r ac tical,   v er s atile,   an d   it  co n f o r m s   well  to   w h a an al y s i s   p r ed icts .   T h alg o r ith m   u s ed   in   [ 1 6 ]   is   H y p er L o g L o g   w it h   n ea r   o p ti m a ca r d in alit y   al g o r ith m ”,   b u it  h a s   th d is ad v a n ta g es o f   lo w er   ac c u r ac y   a n d   s lo w   e x ec u tio n   ti m e .   A   n e w   alg o r it h m   r ep r esen ti n g   s er ies  o f   i m p r o v e m e n ts   b y   r ed u cin g   th m e m o r y   r eq u ir e m en ts   a n d   s ig n i f ica n tl y   i n cr ea s t h ac c u r ac y   f o r   an   i m p o r tan r an g e   o f   ca r d in ali ties   i s   u s ed   i n   [ 1 7 ] .   I n   s in g le  p as s ,   it  co m p u tes  t h lar g ca r d in a liti es  a n d   i m p r o v es  th m e m o r y   u s a g m o r e f f icien tl y .   T h al g o r ith m   u s ed   in   [ 1 7 ]   is   H y p er lo g lo g   al g o r ith m ”.   T h d is ad v a n ta g is   it   s ti ll h as a n   is s u w i th   er r o r   v alu e s   in   f e w   ca s e s .       3.   O VE RVI E O F   T H E   F CM   AP P RO ACH   3 . 1 .   P ro ble m   s t a t e m e nt   T h ex is ti n g   s y s te m s   s t ill  h as  is s u w it h   in e f f icie n r etr ie v al  o f   r an g ag g r eg at q u er ies.   T h alg o r ith m   p r o v id es  cl u s te r in g   i n ac cu r ac y   f o r   lar g er   d ataset.   T h ex is ti n g   s y s te m   lead s   ti m co m p le x it y .   T h u s   th o v er all  s y s te m   p er f o r m an ce   i s   d eg r ad ed .     3 . 2 .   K ey   i dea   T h FC ap p r o ac h   w o r k s   i n   th f o llo w in g   m a n n er .   First  th b ig   d ata  is   d iv id ed   in to   s m a ll   in d ep en d en t   p ar titi o n s   u s i n g   a   b alan ce d   p ar titi o n i n g   al g o r ith m   as   r ef er r ed   in   [ 1 ] .   Af ter   t h a it  cr ea tes   lo ca l   esti m atio n   s k etc h   f o r   ea ch   i n d ep en d en p ar titi o n .   W h e n   r an g ag g r eg a te  q u er y   r eq u est  co m es,  F C M   ap p r o ac h   g ets  th r esu lt  b y   s u m m ar izin g   lo ca esti m ates  th at  o b tain ed   f r o m   all  p ar titi o n s .   T h b alan c ed   p ar titi o n in g   al g o r ith m   w o r k s   alo n g   w it h   p o s ts tr atif ied   s a m p lin g   m o d el.   I p ar titi o n s   all   th d ata  in   d atab as e   in to   d if f er e n g r o u p s   ac co r d in g   to   th e ir   attr ib u te   v al u es   a n d   it  f u r th er   s ep ar ates  ea ch   g r o u p   in to   m u lt ip le  p ar titi o n s   w it h   r eg ar d   to   th c u r r en t d ata  d is tr ib u tio n s   a n d   th n u m b er   o f   s er v er s   av ailab le.       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g   I SS N:  2 0 8 8 - 8708       A   time  efficien t a n d   a cc u r a te  r etri ev a l o f ra n g a g g r eg a te  q u eries   u s in g   fu z z y clu s te r in g   ...   ( A .   Mu r u g a n )   417   T h esti m atio n   s k etc h   is   n e w   t y p o f   m u lti - d i m en s io n al  h is to g r a m   w h ic h   is   b u il w ith   r eg ar d   to   lear n ed   d ata  d is tr ib u tio n s .   T h is   m u lti - d i m e n s io n a h i s to g r a m   ca n   m ea s u r t h q u alit y   o f   r o w s   o r   d ata  s et  d is tr ib u tio n s   m o r ac c u r atel y .   I m ai n tain s   al m o s eq u iv ale n f r eq u en cie s   f o r   d if f er e n v alu es  w i th in   ea c h   b u ck et,   e v e n   t h o u g h   t h f r e q u en c y   d is tr ib u tio n s   v ar y   s i g n i f ica n tl y .   T h is   co n ce p lea d s   to   r ed u ce d   ti m e   co m p le x it y   b y   s p litt in g   t h o v er all  f lo w   o f   w o r k   i n   m u ltip le   p ar titi o n s .   T h p ar titi o n i n g   is   d o n w it h   t h u s e   o f   attr ib u te  v al u es  t h at  co n n ec ts   m u ltip le  d atab ases .   T h is   m e ch an i s m   lead s   to   f aster   q u er y   r esp o n s r esu lt  f o r   ev er y   p ar titi o n   th at   co u ld   b co m b i n ed   later .   W h e n   r an g ag g r e g ate  q u er y   r eq u est  ar r i v e s ,   it  is   d eli v er ed   in   ea ch   p ar titi o n .   First  th e   ca r d in alit y   e s ti m ato r   f o r   t h q u e r ied   r an g i s   b u i lt  f r o m   t h h is to g r a m   in   ea c h   p ar titi o n .   Af ter   th at  w esti m a te  th attr ib u te  v al u in   ea ch   p ar titi o n ,   w h ich   is   t h p r o d u ct  o f   th s a m p le  an th ca r d in ali t y   v al u t h at  is   e s ti m ated   u s in g   t h est i m a to r .   T h f in al  o u tp u r e s u l f o r   t h q u er y   r eq u est  i s   th s u m   o f   all  t h lo ca l e s ti m at es f r o m   all  p ar titi o n s .     3 . 2 . 1 .   P o s t   s t ra t if ica t i o n sa m pli ng   P ar titi o n in g   is   p r o ce s s   o f   d i v id in g   th lar g tab le  in to   m a n y   s m all er   tab les  b ased   o n   th v alu o f   p ar ticu lar   f ield   in   tab le  r ec o r d .   Data   p ar titi o n in g   is   a n   i m p o r tan s tep   in   d ata  an al y s i s   b ec au s it  i m p r o v e s   th q u er y   p er f o r m an ce .   I r e d u ce s   t h s ize  o f   t h d ata   t o   b s ca n n ed   f o r   th e   q u er y   r esu l a n d   h e n ce   th p er f o r m a n ce   g et s   in cr ea s e d .     I n   th p r o p o s ed   s y s te m   p o s s t r atif icatio n   is   i n tr o d u ce d   to   o v er co m t h i s   li m itatio n   w h ic h   w il s elec t   th s tr atic  v ar iab le  f o r   th e   e f f i cien t d ata   p ar titi o n i n g .   Stra ti f i ca tio n   i s   s o m eti m es   i n tr o d u ce d   af ter   t h s a m p l in g   p h a s in   p r o ce s s   ca lled   " p o s ts tr ati f icatio n " .   T h is   ap p r o ac h   is   i m p le m e n ted   w h e n   t h ex p er i m e n ter   d o   n o h av t h en o u g h   o r   n ec ess a r y   i n f o r m atio n   to   cr ea te  s tr atif y in g   v ar iab le  d u r in g   t h s a m p lin g   p h ase.   A lt h o u g h   t h m et h o d   is   s u s ce p tib le  to   th e   p itf a lls   o f   p o s t   h o ap p r o ac h es,  it  ca n   p r o v id s ev er al   b en e f it s   i n   th r ig h s it u atio n .   I m p le m e n t atio n   u s u all y   f o llo w s   s i m p l r an d o m   s a m p le.   P o s ts tr ati f i ca tio n   ca n   also   b u s ed   to   i m p le m e n w ei g h t in g ,   w h ic h   ca n   i m p r o v th p r ec is i o n   o f   s a m p le s   esti m ates.   P o s ts tr atif icatio n   i s   a   m eth o d   f o r   ad j u s ti n g   t h s a m p li n g   w eig h t s ,   u s u all y   to   ac co u n t   f o r   u n d er   r ep r esen ted   g r o u p s   in   th p o p u latio n .   P o s ts tr ati f icatio n   in v o lv es  ad j u s ti n g   t h s a m p li n g   weig h ts   s o   th at  t h e y   s u m   to   th p o p u latio n   s izes  w it h i n   ea ch   p o s t s tr atu m .   T h i s   u s u all y   r es u lts   i n   d ec r ea s i n g   b ias  b ec au s o f   n o n r esp o n s an d   u n d er r ep r esen ted   g r o u p s   in   t h p o p u latio n .   P o s ts tr atif icatio n   also   te n d s   to   r esu lt  in   s m aller   v ar ian ce   esti m ate s .   T h s v y s et  co m m a n d   h as  o p tio n s   t o   s et  v ar iab les  f o r   ap p ly in g   p o s ts tr ati f icati o n   ad j u s t m e n ts   to   t h s a m p li n g   w eig h t s .   T h p o s ts tr ata( )   o p tio n   ta k es  a   v ar iab le  t h at  c o n tain s   p o s t s tr atu m   id en ti f ier s ,   a n d   th e   p o s t w eig h t ( )   o p tio n   tak es  a   v ar iab le  t h at  co n tain s   t h p o s ts tr atu m   p o p u latio n   s izes.   I f   w j   i s   th u n ad j u s ted   s a m p lin g   w ei g h t f o r   t h j th   s a m p led   i n d iv id u al,   th p o s ts tr ati f icatio n   ad j u s t ed   s a m p lin g   w ei g h t   is                              ̂                     w h er e       ̂                                T h p o in esti m ate s   ar co m p u ted   u s i n g   th e s ad j u s ted   w ei g h ts .   Fo r   r ep licatio n - b ase d   v ar ian ce   esti m atio n ,   t h B R R   an d   j ac k k n i f e   r ep licate - w ei g h v ar iab l es  ar s i m i lar l y   ad j u s ted   to   p r o d u ce   th r ep licate   v alu e s   u s ed   in   t h r esp ec ti v e   v ar ian ce   f o r m u las:   T h s co r v ar iab le  f o r   th e   l i n ea r ized   v ar ian ce   e s ti m ato r   o f   p o s ts tr atif ied   to tal  is           (   ̂   )                    ̂   (         ̂     ̂   )               w h er e   ̂     is   th to tal  esti m ato r   f o r   th k th   p o s ts tr atu m ,       ̂                                    Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   1 Feb r u ar y   2 0 2 0   :   415   -   420   418   Fo r   th p o s ts tr ati f ied   r atio   esti m ato r ,   th s co r v ar iab le  is           (   ̂   )     ̂       (   ̂   )     ̂           ̂         ̂           w h er e     ̂   P   is   th p o s ts tr atif ied   to t al  esti m ato r   f o r   ite m   x j .     3 . 2 . 2 .   F uzzy   clus t er ing   m ea ns   ( F C M )   a pp ro a ch   I n   o u r   p r o p o s ed   s y s te m ,   FC clu s ter i n g   ca n   b i n tr o d u c ed   to   g r o u p   th s i m ilar   i n d ex   v alu e s   b y   ca lcu lati n g   th m e m b er s h ip   d eg r ee   v al u es  o f   th e m .   W ith   t h h elp   o f   FC cl u s ter in g   t h s i m ilar it y   b ased   g r o u p in g   ca n   b d o n ac cu r atel y   w h er th ex ac s i m ilar it y   o f   c lass es  ca n   b id en tif ied .   T h FC clu s ter i n g   alg o r ith m   is   g i v en   a s   f o llo w s :     C lu s ter i n g   o f   n u m er ical  d at f o r m s   t h b asis   o f   m a n y   class i f icat io n   a n d   s y s te m   m o d ell in g   alg o r ith m s .   T h r ea s o n   f o r   cl u s ter i n g   i s   to   r ec o g n ize   t h n atu r al  g r o u p in g s   o f   d ata  f r o m   a   lar g d ata  s et  in   o r d er   t o   cr ea te  c o n cise  r ep r e s en tat io n   o f   s y s te m s   b eh a v i o u r .   Fu zz y   C l u s ter i n g   M ea n s   ( FC M)   is   m et h o d   o f   cl u s ter i n g   w h ich   allo w s   o n p iece   o f   d ata  to   b elo n g   to   t wo   o r   m o r clu s ter s .   I is   b a s ed   o n   m in i m iza tio n   o f   th f o llo w i n g   o b j ec tiv f u n cti o n :                                                                                        W h er e   m   i s   an y   r ea l   n u m b er   g r ea ter   th an   1 ,   u ij   is   th e   d eg r ee   o f   m e m b er s h ip   o f   x i   i n   th c lu s ter   j x i   is   t h i th   o f   d - d i m e n s io n al  m ea s u r ed   d ata,   c j   is   th d - d i m e n s io n   ce n tr e   o f   th cl u s ter ,   a n d   | | * | |   i s   an y   n o r m   e x p r ess i n g   th s i m ilar it y   b et w ee n   a n y   m e asu r ed   d ata  a n d   th e   ce n tr e.   Fu zz y   p ar titi o n in g   i s   ca r r ied   o u t   th r o u g h   an   iter ati v e   o p tim izatio n   o f   th o b j ec tiv f u n ct io n   s h o w n   ab o v e,   w i th   t h u p d ate  o f   m e m b er s h ip   u ij   an d   th clu s ter   ce n tr e s   c j   b y :              (                                     )                                                                         T h is   iter atio n   w il s to p   w h e n           {                                 }       ,   w h er     is   ter m in at io n   cr iter io n   b et w ee n   0   an d   1 ,   w h er ea s   ar th iter atio n   s tep s .   T h is   p r o ce d u r co n v er g e s   to   lo ca m i n i m u m   o r   s ad d le   p o in t o f   J m .     3 . 2 . 3 .   R a ng ca rdina lity   qu er ies    I n   th ex i s ti n g   p ap er   [ 1 ,   18 1 9 ] ,   it  u s es  u n iq u R ec o r d I d   to   f in d   o u w h et h e r   th ca r d in alities   th a t   ar g et  f r o m   d i f f er en b u c k et s   b elo n g i n g   to   th s a m r ec o r d   o r   n o t.  W ca n   ad o p th alg o r ith m   e x p lain ed   in   [ 1 2 0 ,   2 1 ]   to   esti m ate  t h c ar d in alit y   i n   t h q u er ies r an g e.       4.   RE SU L T   AND   ANA L YS I S   A p p r o x i m atel y   2 , 0 0 , 0 0 0   in p u t   d ata  s ets [ 22 - 2 7 ]   ar u s ed   to   f in d   th p er f o r m a n ce   o f   FC ap p r o ac h .   T h s a m e   d ata  s et   is   u s ed   f o r   th e x i s ti n g   s y s te m   also   a n d   its   p er f o r m an ce   m ea s u r es  a r also   ca lc u lated .   Af ter   ap p l y i n g   b o t h   th e x i s ti n g   s y s te m   an d   p r o p o s ed   s y s te m   o n   t h s a m i n p u d ata  s ets   th p e r f o r m a n ce   o f   p r o p o s ed   FC ap p r o ac h   is   b etter   th an   t h ex i s ti n g   Fas t R A ap p r o ac h .   Sa m p le  i n p u d ata  s ets  u s ed   an d   th r esu ltan g r ap h s   ar d es cr ib ed :   T h v ar io u s   p er f o r m an ce   m ea s u r es   ar an al y s ed   in   o r d er   to   p r o v e   th p r o p o s ed   s y s te m   i s   b etter   t h an   ex is ti n g   s y s te m .   T h e y   ar e: i)   ti m e   to   e x ec u te  t h q u er y ,   i i )   ac cu r ac y   an d   iii)   er r o r   r ate.     4 . 1 .   Acc ura cy   p er f o r m a nce   T h ac cu r ac y   o f   F C ap p r o ac h   is   h i g h er   t h an   th e   ac c u r ac y   o f   all   o th er   e x is tin g   a p p r o ac h es.   T h is   is   s h o w n   i n   Fi g u r e   1.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g   I SS N:  2 0 8 8 - 8708       A   time  efficien t a n d   a cc u r a te  r etri ev a l o f ra n g a g g r eg a te  q u eries   u s in g   fu z z y clu s te r in g   ...   ( A .   Mu r u g a n )   419   4 . 2 .   E x ec utio n t i m e   T h tim ta k en   to   ex ec u te  t h u s er   en ter ed   r an g ag g r eg a t q u er y   i s   s h o w n   in   F ig u r e   2 .   T h tim tak en   to   e x ec u te  t h q u er y   b y   FC ap p r o ac h   is   les s   th a n   t h e   ex is ti n g   ap p r o ac h .     4 . 3 .   E rr o r a t e   T h er r o r   r ate  g r ap h   f o r   th u s er   q u er y   is   s h o w n   in   Fig u r e   3 .   T h er r o r   r ate  o f   FC a p p r o ac h   is   n ea r l y   5 0 % les s   th a n   t h at  o f   t h ex is ti n g   ap p r o ac h   er r o r   r ate.           Fig u r 1 .   C o m p ar is o n   o f   ac c u r ac y       Fig u r 2 .   C o m p ar is o n   o f   e x ec u tio n   ti m e           Fig u r 3 .   C o m p ar is o n   o f   er r o r   r ate       5.   CO NCLU SI O NS A ND  F UT URE  E NH ANC E M E NT   I n   th is   p ap er ,   n e w   ap p r o ac h   Fu zz y   C l u s ter i n g   Me an s   ( F C M)   ap p r o ac h   is   p r o p o s ed   th at  q u ick l y   ac q u ir es  th ac c u r ate  esti m ati o n s   f o r   r an g e - a g g r eg ate  q u er i es  in   b ig   d ata  en v ir o n m e n ts .   Fo r   ad - h o r an g e   ag g r e g ate  q u er ies  F C h a v th ti m co m p lex it y   o f   O( n c 2 p ) ,   w h er n   is   n u m b er   o f   i n s t an ce s   i n   th g i v e n   d ataset,   is   cl u s ter   an d   p   is   d ata  p o in ts .   T h i s   ti m c o m p le x it y   i s   b etter   th a n   t h e   p r ev io u s   e x i s ti n g   alg o r ith m s . Fo r   f u t u r w o r k   it   is   p lan n ed   to   in v esti g ate  h o w   t h is   s o lu tio n   ca n   b ex te n d ed   to   th ca s m : n   f o r m at  p r o b le m .   Nex it  is   p l an n ed   to   an al y ze   h o w   FC ca n   b u s ed   as  to o to   b o o s th p er f o r m a n ce   o f   d ata  an al y s is   i n   d atab ase.       RE F E R E NC E S   [1 ]   X .   Y u n ,   e a l . ,   F a stRA Q:  A   F a st   A p p ro a c h   to   Ra n g e - Ag g r e g a te  Qu e ru e in   Big   Da ta  En v iro n m e n ts , IEE T ra n s.  Clo u d   Co m p u t ,   v o l.   3 ,   2 0 1 5 .   [2 ]   P .   M ik a   a n d   G .   T u m m a r e ll o ,   W e b   se m a n ti c s in   th e   c lo u d s,”  IE EE I n tell.   S y st. ,   v o l .   2 3 ,   p p .   8 2 - 8 7 ,   2 0 0 8 .   [3 ]   H.  Ch o i   a n d   H.  V a rian ,   P re d ictin g   th e   p re se n w it h   G o o g letre n d s,” Eco n . Rec . ,   v o l.   8 8 ,   p p .   2 - 9 ,   2 0 1 2 .   [4 ]   C. T .   Ho ,   e a l . ,   Ra n g e q u e ries   i n   OLA P   d a ta cu b e s,”  ACM   S IGM OD   Rec . ,   v o l.   2 6 ,   p p .   7 3 - 8 8 ,   1 9 9 7 .   [5 ]   T .   P re is,   e a l . ,   Qu a n ti f y in g   trad in g b e h a v io in   f in a n c ial  m a r k e ts  u sin g   G o o g le  tren d s,”  S c i.   Rep . , v o l.   3 ,   p p .   1 6 8 4 ,   2 0 1 3 .   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   1 Feb r u ar y   2 0 2 0   :   415   -   420   420   [6 ]   G .   M ish n e ,   e a l . ,   F a st  d a ta  in   th e e ra   o f   b ig   d a ta:   Tw it ter’s   re a l - ti m e   re late d   q u e r y   su g g e sti o n a rc h it e c tu re ,   Pro c .   ACM   S IGM OD   In t.   Co n f.   M a n a g e .   Da t a ,   p p .   1 1 4 7 - 1 1 5 8 ,   2 0 1 3 .   [7 ]   W .   L ian g ,   e a l . ,   Ra n g e   q u e ries   i n d y n a m ic O LA P   d a ta cu b e s,”  Da ta   Kn o wl.   En g . ,   v o l.   3 4 ,   p p .   2 1 - 3 8 ,   2 0 0 0 .   [8 ]   J.  M .   He ll e rste in ,   e a l . On li n e   a g g re g a ti o n , ACM   S IGM OD   Rec . ,   v o l.   2 6 ,   p p .   1 7 1 - 1 8 2 ,   1 9 9 7 .   [9 ]   P .   J.  Ha a a n d   J.  M .   He ll e rste in ,   Rip p le  jo i n f o o n li n e   a g g re g a ti o n , ACM S IGM OD   Rec . ,   v o l.   2 8 ,   p p .   2 8 7 - 2 9 8 ,   1 9 9 9 .   [1 0 ]   E.   Zeitl e a n d   T .   Risc h ,   M a ss i v e   sc a le - o u o f   e x p e n siv e   c o n ti n u o u s q u e ries ,   Pro c .   V L DB  En d o wme n t ,   v o l.   4 ,   p p .   1 1 8 1 - 1 1 8 8 , 2 0 1 1 .   [1 1 ]   N.  P a n sa re ,   e a l . ,   On li n e   a g g re g a ti o n f o larg e   M a p Re d u c e   jo b s,”  Pro c .   VL DB   E n d o wme n t ,   v o l.   4 ,   p p .   1 1 3 5 - 1 1 4 5 ,   2 0 1 1 .   [1 2 ]   T .   Co n d ie,  e a l . ,   On li n e   a g g re g a ti o n   a n d   c o n ti n u o u sq u e ry   su p p o rt  i n   M a p Re d u c e ,   Pr o c .   A CM   S IGM OD   In t. Co n f.   M a n a g e .   D a ta ,   p p .   1 1 1 5 - 1 1 1 8 ,   2 0 1 0 .   [1 3 ]   Y.  S h i,   e a l . ,   Yo u   c a n   sto p   e a rl y   w it h c o la:  On li n e   p r o c e ss in g   o f   a g g r e g a te  q u e ries   in   th e   c lo u d ,   Pro c . 2 1 st   ACM   In t.   C o n f .   In f .   Kn o w.   M a n a g e ,   p p .   1 2 2 3 - 1 2 3 2 ,   2 0 1 2 .   [1 4 ]   K.  Bil a l,   e a l . ,   On th e   c h a ra c ter iza ti o n   o f   th e   stru c tu ra ro b u stn e ss   o d a ta  c e n tern e t w o rk s,”  IEE T ra n s.  Clo u d   Co mp u t . ,   v o l .   1 ,   p p .   6 4 - 7 7 ,   2 0 1 3 .   [1 5 ]   S .   De   C .   d i   V im e rc a ti ,   e a l . ,   In teg rit y   f o jo in   q u e ries   in   th e   c lo u d ,   IEE ET ra n s.  Cl o u d   C o mp u t ,   v o l .   1 ,   p p .   1 8 7 - 2 0 0 ,   2 0 1 3 .   [1 6 ]   S .   He u le,  e a l . ,   H y p e rlo g l o g   in   p ra c ti c e :alg o rit h m ic   e n g in e e rin g   o a   sta te  o f   th e   a rt  c a rd in a li ty   e sti m a ti o n a lg o rit h m ,   Pro c .   1 6 th   In t.   C o n f .   Exte n d in g   Da t a b a se   T e c h n o l . ,   p p .   6 8 3 - 6 9 2 , 2 0 1 3 .   [1 7 ]   P .   F laj o let,   e a l . ,   Hy p e rlo g lo g : T h e   a n a l y sis  o f   a   n e a r - o p ti m a c a rd in a li ty   e sti m a ti o n   a lg o rit h m , Pro c .   In t .   Co n f.   An a l .   Al g o rit h ms ,   p p .   1 2 7 - 1 4 6 ,   2 0 0 8 .   [1 8 ]   h tt p : // re se a rc h . n e u sta r. b iz/2 0 1 2 /1 2 /1 7 /h l li n ters e c ti o n s - 2 /,   2 0 1 2 .   [1 9 ]   A .   T h u so o ,   e a l . ,   Hiv e a   p e tab y t e   sc a le  d a ta wa re h o u se   u sin g   Ha d o o p ,   Pro c .   IEE 2 6 th   I n t.   C o n f.   Da ta   En g . ,   p p .   9 9 6 - 1 0 0 5 , 2 0 1 0 .   [2 0 ]   T .   Yu   a n d   K. - J.  L in ,   A d a p ti v e   a lg o rit h m f o f in d in g   re p lac e m e n se rv ice in   a u to n o m ic  d ist rib u te d   b u sin e ss   p ro c e ss e s,” in   Au to n o mo u s De c e n tra li ze d   S y ste ms ,   2 0 0 5 .   IS A DS  2 0 0 5 .   P ro c e e d i n g s,  p p .   4 2 7 4 3 4 ,   A p ril   2 0 0 5 .   [2 1 ]   S .   H.  Ry u ,   F .   Ca sa ti ,   H.  S k o g sr u d ,   B.   Be n a tallah ,   a n d   R.   S a i n t - P a u l,   S u p p o rti n g   th e   d y n a m ic  e v o lu ti o n   o f   w e b   se rv ice   p ro to c o ls  i n   se rv ice o rien t e d   a rc h it e c tu re s,”  ACM   T ra n s.  W e b ,   v o l.   2 ,   n o .   2 ,   p p .   1 4 6 ,   2 0 0 8 .   [2 2 ]   D.  M it u z a s ,“ P a g e   v ie sta ti stics   f o w ik i m e d ia  p ro jec ts ,   2 0 1 3 .   Av a il a b le:  h tt p : // d u m p s.w i k i m e d ia.o rg /o th e r /p a g e c o u n ts - ra w /   [2 3 ]   R .   Bi,   e a l . ,   Op ti m izin g   Re tran s m issio n   T h re sh o ld   in   W irele ss   S e n so Ne tw o rk s,”  In d ia n   J o u r n a l   o S c ien c e   a n d   T e c h n o l o g y , v o l .   16 ,   p p .   6 6 5 2 0 1 6 .   [2 4 ]   Ch risto p h   D o rn ,   S c h a h ra m Du std a r,   W e ig h ted   F u z z y   Clu ste rin g   f o Ca p a b il it y - d riv e n   S e rv ice   A g g re g a ti o n .   [2 5 ]     C.   P latz e r,   F .   Ro se n b e rg ,   a n d   S .   Du std a r,   W e b   se r v ice   c lu ste rin g   u sin g   m u lt id im e n sio n a a n g les   a p ro x i m it y   m e a su re s,”  ACM   T ra n s.  In ter n e T e c h n o l . ,   v o l .   9 ,   n o .   3 ,   p p .   1 2 6 ,   2 0 0 9 .   [2 6 ]   F .   Ro se n b e rg ,   P .   L e it n e r,   A .   M i c h lm a y r,   P .   Ce li k o v ic,  a n d   S .   D u std a r,   T o wa rd c o m p o siti o n   a a   se rv i c e   -   q u a li ty   o f   se rv ic e   d riv e n   a p p ro a c h ,   2 9   2 0 0 9 - A p ril   2   2 0 0 9 ,   p p .   1 7 3 3 1 7 4 0 ,   2 0 0 9 .   [2 7 ]   E.   M a x im il ien   a n d   M .   S i n g h ,   S e lf - a d ju stin g   tru st a n d   se lec ti o n   f o r   w e b   se rv i c e s,”   p p .   3 8 5 3 8 6 ,   Ju n e   2 0 0 5 .   Evaluation Warning : The document was created with Spire.PDF for Python.