I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   7 ,   No .   6 Dec em b er   201 7 ,   p p .   3 7 45 ~ 3 7 52   I SS N:  2 0 8 8 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /i j ec e. v 7 i6 . p p 37 45 - 37 5 2          3745       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Ev a lua ting Ag g rega te  Func tions   o I ceberg  Q uery  Us ing   P rio rity Ba sed  B i t m a p   I ndex ing  St ra tegy          K a le  Sa rik a   P ra k a s h 1 P.   M.   J o P ra t ha p 2   1 ,2 De p a rtem e n o f   Co m p u ter   sc ien c e   a n d   En g in e e ri n g ,   S t.   P e ter’s   In stit u te o f   Hig h e Ed u c a ti o n   a n d   R e se a rc h ,     S t.   P e ter’s   Un iv e rsity ,   Av a d i   Ch e n n a i,   I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   A p r   10 ,   2 0 1 7   R ev i s ed   Sep   8 ,   2 0 1 7   A cc ep ted   Sep   29 ,   2 0 1 7       Ag g re g a te   f u n c ti o n   a n d   ice b e rg   q u e ries   a re   i m p o rtan a n d   c o m m o n   in   m a n y   a p p li c a ti o n o f   d a ta  w a re h o u se   b e c a u se   u se rs  a re   g e n e ra ll y   in tere ste d   in   lo o k in g   f o v a rian c e   o u n u s u a p a tt e rn s.  No rm a ll y ,   th e   n a tu re   o f   th e   q u e ries   to   b e   e x e c u ted   o n   d a ta  w a re h o u se   a re   th e   q u e ries   w it h   a g g re g a t e   f u n c ti o n   f o ll o w e d   b y   h a v in g   c lau se ,   th e se   ty p e   o f   q u e ries   a re   k n o w n   a ice b e rg   q u e ry .   Esp e c ially   to   h a v e   e f f i c ien tec h n iq u e f o p ro c e ss in g   a g g r e g a te   f u n c ti o n   o f   ice b e rg   q u e ry   is  v e r y   i m p o rtan b e c a u se   th e ir  p ro c e ss in g   c o st  is  m u c h   h ig h e r   th a n   t h a o f   th e   o th e b a sic   re latio n a o p e ra ti o n su c h   a S E L ECT   a n d   P ROJ ECT .   P re se n tl y   a v a il a b le  ice b e rg   q u e ry   p ro c e ss in g   tec h n iq u e f a c e th e   p ro b lem   o f   e m p t y   b it w ise   A ND , OR    X OR   o p e ra ti o n   a n d   re q u ires   m o re   I/O   a c c e s s   a n d   ti m e . T o   o v e rc o m e   th e se   p ro b lem p ro p o se d   re se a r c h   p r o v id e e ff ici e n a lg o rit h m   to   e x e c u te  ic e b e rg   q u e ries   us in g   p rio rit y   b a s e d   b it m a p   in d e x in g   stra teg y .   P rio r it y   b a se d   a p p r o a c h   c o n si d e   b i tm a p   v e c to to   b e   e x e c u ted   a p e th e   p ri o rit y . In term e d iate   re su lt a re   e v a lu a te d   to   f in d   p ro b a b il it y   o f   re su lt . F r u it les o p e ra ti o n a re   id e n ti f ied   a n d   sk ip p e d   i n   a d v a n c e   w h ich   h e lp   to   re d u c e   I/O  a c c e ss   a n d   ti m e . T i m e   a n d   it e ra ti o n   re q u ired   t o   p ro c e ss   q u e ry   is  re d u c e d   [4 5 - 5 0 ]   %   c o m p a re   to   p re v io u stra teg y .     Ex p e rime n tal  re su lt   p ro v e s th e   su p e rio rit y   o f   p rio rt y   b a se d   a p p ro a c h   c o m p a r e   to   p re v io u s b it m a p   p ro c e ss in g   a p p ro a c h .   K ey w o r d :   I ce b er g   q u er y   ( I B Q)   B it m ap   i n d ex   ( B I )   Ag g r eg ate  f u n ctio n s   L o g ica o p er atio n s   Data   w ar e h o u s e   ( DW )   Co p y rig h ©   2 0 1 7   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Kale   Sar ik P r ak as h ,     Dep ar te m en t o f   C o m p u ter   s ci en ce   an d   en g i n ee r in g ,   St.P eter s   I n s tit u te  o f   Hi g h er   E d u ca tio n   an d   R e s ea r ch ,   St.  P eter s   Un i v er s i t y ,   Av ad i,  C h e n n ai,   I n d ia.   E m ail:  k alesar i k ap r ak as h @ g m ail. co m       1.   I NT RO D UCT I O N   Data   w ar eh o u s e   ( DW )   is   co llectio n   o f   s u b j ec o r ien ted ,   i n teg r ated ,   n o n - v o latile   an d   ti m v ar ia n t   d ataset  [ 1 ] .   A n al y s is   o f   d ata  f r o m   d ata  w ar e h o u s is   v er y   i m p o r tan f ac to r   f o r   th d ec is io n   m a k in g   i n   an y   b u s i n ess   o r g a n izat io n . A s   d at w ar e h o u s i s   h u g s o   a n al y s i s   is   al s o   co m p lex   b e ca u s f o r   an al y s i s   m u ltid ien s io n ap p r o ac h   is   r eq u ir ed   [ 2 ] . A n al y s is   o f   s u ch   h u g d atab ase  is   d o n b y   e x ec u t in g   co m p le x   q u er ie s   s u c h   a s   iceb er g   q u er y   ( I B Q)   an d   o n li n An y l y tical   p r o ce s s i n g   f u n ctio n s . T h b asic  o p er ati o n   r eq u ir ed   i n   D an al y s is   is   ag g r eg a te  f u n ctio n s   s u c h   a s   MI N, M A X, SUM, A V a n d   C OU NT .   Gen er all y   t h q u er ie s   to   b ex ec u ted   o n   DW   ar t h q u er ies  w it h   ag g r eg ate   f u n ctio n   f o l lo w ed   b y   H AVI NG  a n d   G R O UP   B y   cla u s e,   s u c h   q u er y   i s   k n o w n   a s   I B Q.   I c o n s is ts   o f   t h r ee   m ai n   p ar a m et e r s   s u c h   as  ag g r eg ate  f u n ct io n ,   H A VI NG  clau s e   an d   GR OUP   B clau s w h ic h   m ak e s   th q u er y   m o r co m p l ex .     I n   ad d itio n   to   th co m p lex it y   o f   I B Q,   th lar g v o lu m o f   d ata  s to r ed   in   DW   len g th e n s   th ti m e   n ee d ed   to   r u n   q u er ie s .   Hen ce   p er f o r m a n ce   o f   q u er y   in   ter m s   o f   ti m i s   m o s i m p o r ta n t   r eq u ir e m e n o f   a n y   lar g d atab ase  s y s te m .   T h is   r esear ch   f o c u s   o n   e f f icie n ex e cu tio n   o f   ag g r eg ate  f u n ct io n   as  it  is   m ai n   p ar o f   I B Q.   A g g r eg a tes  f u n ct io n   ca n   h av e   s i g n i f ican t   i m p ac t   o n   p er f o r m an ce   o f   q u er y   i n   ter m   o f   ti m e. Fo r   e f f ic ien t   ex ec u t io n   o f   a g g r e g ate  f u n ctio n   w r eq u ir ef f icie n t a n d   f ast  p r o ce s s in g   o f   h u g d ata  [ 3 ] .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   6 Dec em b er   2 0 1 7   :   3 7 45     3 7 52   3746   T h m ai n   o b j ec tiv o f   th is   r es ea r ch   is   ef f icie n ex ec u tio n   o f   ag g r eg ate  f u n ctio n   o f   I B Q.   T o   ac h iev e   th is   w ar m a k in g   u s o f   p r io r ity   b ased   b it m ap   in d e x in g   ( B I )   s tr ateg y .   Nu m b er   o f   r esea r ch er s   [ 4 ] - [ 8 ]   w o r k   to   i m p r o v p er f o r m a n ce   o f   I B Q.   B u all  o f   th e m   f ac es  t h p r o b lem   o f   e m p t y   b it w i s A N D ,   OR   XO R   o p er atio n   as  w e ll  as  f u tile  q u e u p u s h i n g   p r o b lem .   T h is   r e s e ar ch   o v er co m es  th e s p r o b lem s   b y   u s i n g   p r io r it y   b as ed   B I   s tr ateg y .   T h is   s tr ate g y   f ir s an al y s w h ich   o p er ati o n   to   b p er f o r m   a s   p er   th e v alu a tio n   o f   q u er y   . A cc o r d in g   to   e v alu a tio n   p r o ce s s   it   ar r an g t h s eq u en ce   o f   o p er atio n s   to   b p er f o r m .   B ased   o n   r esu lts   o f   cu r r en o p er atio n   it  ch an g t h p r io r ity   a n d   p er f o r m   t h r e m ai n in g   o p er atio n .   I n   th is   w a y   in   b et w ee n   th i s   tech n iq u id en ti f y   u s eles s   o p er atio n   in   ad v an ce   a n d   s k ip   s u ch   u s ele s s   o p er atio n s .   T h u s   b y   p er f o r m in g   o n l y   r eq u ir ed   o p e r atio n s   it  r ed u ce s   I /O  ac ce s s   as  w ell  as  ti m r eq u ir ed   to   ex ec u te  I B Q.   T h is   s tr ateg y   w o r k   o n   b it m ap   v ec to r   o f   attr ib u te  as  p er   q u er y   r eq u ir e m e n t.  T h B it m ap   v ec to r s   ar in   t h f o r m   o f   0 s   an d   1 s   a n d   p r o p o s ed   s tr ateg y   p er f o r m   lo g ical  o p er atio n s   s u c h   a s   O R ,   AND  an d   XOR   o n   t h i s   b it m ap   v ec to r s .   E x ec u ti n g   b it w i s o p er atio n s   o n   0 s   a n d   1 s   ar v er y   m u ch   co s t e f f ec ti v i n   ter m   o f   I /O  ac ce s s   a n d   ti m e.   I t d ir ec tl y   h e lp s   to   im p r o v I B p er f o r m a n ce .   Ou r   ex p er i m en tal  r esu lt  p r o v es  th at  p er f o r m a n ce   o f   o u r   s tr ateg y   i s   b etter   th an   p r ev io u s   a lg o r it h m s . I n   f u t u r b y   ex ten d i n g   t h is   co n ce p o n   u n s tr u c t u r ed   d ata  i w i ll  b ap p licab le  f o r   b ig   d ata   an al y s is   [ 9 ] .       2.   RE VI E O F   B I ,   AG G R E G AT E     F UNC T I O AND  I B Q   P RO CE SS I NG   M E T H O D   B it m ap   in d ex i n g   tech n iq u is   m o s s u itab le  an d   ef f icie n f o r   r ea d   m o s tl y ,   ap p en d   o n l y   d at an d   lar g e   s ize  d ataset. B I   is   co m m o n l y   u s ed   in   th DW   ap p licatio n .   B I   s tr ateg y   p er f o r m s   b etter   th a n   t r ee   b ased   in d ex in g   m et h o d s   lik d if f er en t y p o f   B   T r ee   an d   R   T r ee   [ 1 0 ] .   B I   h as  t w o   ad v a n tag e s   f o r   u s in g   it  i n   DW   ar it  av o id s   co m p lete  tab le  s ca n   an d   s av e s   d is k   ac ce s s   [ 1 1 ] , [ 1 2 ] .   T h is   r esear ch   m ak e s   u s o f   co m p r ess ed   B I   c o n ce p w h ic h   s av e s   t h m e m o r y   a n d   s h o w s   t h e f f ec ti v en e s s   o f   B I   f o r   I B ev al u atio n   [ 4 ] .   B I   p er f o r m s   e f f ec t iv el y   as   it  w o r k s   o n   i n d ex   lev el   r ath er   o n   o r ig i n al  tab le.   T h is   f ea t u r h elp   to   i m p r o v p er f o r m a n c in   ter m s   o f   t i m e   r eq u ir ed   to   ex ec u te  q u er y ,   m e m o r y   r eq u ir ed   to   s to r d atab ase  an d   I /O  ac ce s s   co s t. B y   co n s id er in g     all  ab o v e   f ea t u r es o f   B I     w ar u s in g   it  in   o u r   r esear ch .     Ag g r eg atio n   f u n ct io n s   ac r o s s   m a n y   a ttrib u te s   ar co m m o n l y   u s ed   in   q u er ies  o f   d ata  m i n in g ,   DW   an d   O L A P   [ 1 3 ] , [ 1 4 ] .   T h co m m o n l y   u s ed   q u er ies  in   d at m i n i n g   a n d   DW   ar I B Q,   w h ic h   p er f o r m   a n   ag g r e g ate  f u n ctio n   ac r o s s   at tr ib u tes  a n d   th e n   r e m o v ag g r eg ate  v al u es  t h at  ar b elo w   s o m s p ec i f ied   th r es h o ld   v al u e.   Ge n er all y   u s ed   ag g r e g atio n   f u n ctio n s     ar   MI N, M A X, SUM, AVG  a n d   C OUNT .   E f f icie n t   co m p u tatio n   o f   all  th e s ag g r eg ate  f u n ctio n s   is   r eq u ir e d   in   m o s lar g d atab ase  a p p licatio n s   b ec au s e   p r o ce s s in g   co s o f   ag g r eg a te  f u n ctio n   is   m u ch   h i g h er   t h an   th at  o f   t h o th er   b asic  r elati o n al  o p er atio n s   lik e   SEL E C T   an d   P R OJ E C T .   I B r ef er   to   cla s s   o f   q u er ies   w h ic h   co m p u te   a g g r e g ate  f u n ctio n s   ac r o s s   attr ib u tes   to   f i n d   ag g r eg at e   v alu e s   ab o v s o m s p ec if ied   th r es h o ld   v alu e.   T h n u m b er   o f   tu p les,  th at  s at is f y   t h th r e s h o ld   in   th h a v i n g   clau s e,   i s   r elativ el y   s m al co m p ar ed   to   th lar g a m o u n o f   i n p u d ata.   A s   o u tp u r es u lt  i s   v er y   s m al s o   ti m e   r eq u ir ed   f o r   ex tr ac ti n g   it  m u s t   b less . S y n tax   o f   I B is   as  b elo w . Gi v e n   r elatio n   R   w it h   attr ib u tes  a 1 ,   a 2 …  a ,   an   ag g r e g ate  f u n ctio n   Ag g F u n ( ) ,   an d   th r es h o ld   T .   SEL E C T           a 1 ,   a 2 …  a n ,   A g g F u n ( * )     FR OM                   r elatio n   R   GR OUP B a 1 , a 2 …  a n   HAVI NG        Ag g F u n   ( * )   >=   T   I B co n ce p is   f ir s s tu d ie d   b y   Min   Fa n g [ 1 0 ]   in   1 9 9 8 . I n   th is   r esear ch   r esear ch e r s   ex ten d     p r o b a b ilis tic  tec h n iq u u s ed   i n   [ 1 5 ]   an d   p r o p o s es  h y b r id   an d   m u l ti  b u c k et  al g o r ith m   . T h is     r e s ea r ch     co m b in e   s a m p li n g   an d   m u lti  h as h   f u n c t io n s     to   i m p r o v t h p er f o r m a n ce   o f   I B a n d   r ed u ce   m e m o r y   r eq u ir e m en t.  B u th ese   al g o r ith m s   ar n o s u ita b le  f o r   lar g d ata  s ets.   T o   s o lv ab o v e   p r o b lem   [ 1 0 ]   p r o p o s es  al g o r ith m s   b ased   o n   s a m p li n g   a n d   b u ck et  co u n ti n g   m et h o d s .   T h ese  m et h o d s   r ed u ce s   n u m b er   o f   f al s p o s iti v v al u es  b u it   tak es  m o r ti m to   ex ec u te  q u er y   a s   it r eq u ir m u ltip le  s ca n   o f   r elatio n .   I B p r o ce s s in g   is   al s o   p r o p o s ed   b y   [ 1 6 ] ,   f o cu s   o f   t h is   s t u d y   is   to   r ed u ce   n u m b er   o f   tab le  s ca n s   s o   t h at  t i m e   r eq u ir ed   to   e x ec u te   th q u er y   w ill  g et   r ed u ce d .   I in tr o d u ce s   m eth o d s   to   s ele ct  ca n d id ate  v al u es   u s i n g   p ar titi o n i n g   a n d   p o s tp o n p ar titi o n in g   alg o r it h m s .     C o llecti v I B E v alu at io n   is   p r o p o s ed   b y   [ 1 8 ]   w h ic h   p r ese n co m p ar i s o n   u s in g   th r ee   m e th o d s   s o r t   m er g e   ag g r eg a te,   h y b r id   h as h   ag g r eg ate   an d   OR AC L E .   T h is   s tu d y   p r o v es   t h at  p er f o r m a n ce   o f   s o r m er g ag g r e g ate  i s   b etter   o n   d ata  s e ts   w it h   lo w   to   m o d er ate  n u m b er .   Hy b r id   h as h   a g g r e g ate  p er f o r m an ce   w as   n o t   g o o d   w h e n   d ata  s et  i s   lar g e.   All  ab o v m e n tio n ed   m et h o d s   c o m e s   u n d er   th e   g r o u p   o f   tu p le   s ca n   b ased ,   w h ic h   r eq u ir es  o n e   p h y s ical   tab le  s c an   to   r ea d   d ata   f r o m   d is k . Ho w e v er   [ 1 8 ]   tr ies  to   m ak e   u s o f   t h is   p r o p er ty   o f   I B an d   u s es    B I     b u it  s u f f e r s   f r o m   e m p t y   b it  w is A ND  r esu lt  p r o b le m .   R esear ch er s   [ 4 ]   tr ies  to   m in i m ize  th is   p r o b le m   u s in g   d y n a m ic  p r u n i n g   a n d   v ec to r   alig n m e n alg o r ith m s   . Ho w ev er   th e y   n o tice  th at  t h er is   p r o b lem   o f   m a s s i v el y   e m p t y   b it w is AND  r es u lts   an d   e x tr XOR  o p er atio n .   T o   o v er co m th is   ch alle n g t h e y   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       E va lu a tin g   A g g r eg a te  F u n ctio n s   o f I ce b erg   Qu ery  Usi n g   P r i o r it B a s ed   B itma p   ....   ( K a le  S a r ika   P r a ka s h )   3747   d ev elo p   v ec to r   alig n m en t a lg o r ith m   w h ich   h elp   to   s o l v e m p t y   b it w i s A ND  o p er atio n   p r o b le m .   T h p r o b lem   w it h   t h i s   alg o r it h m   is   t h at  all  v ec to r s   m a y   n o h a v 1   b it  at  s a m p o s itio n   an d   i f   it  i s   n o a s a m p o s it io n   t h e n   all  t h A N as   w ell   as   XO R   o p er atio n s   ar f r u it less   an d   ti m e   co n s u m i n g . I n   t h i s   wa y   b o th   t h ab o v e   ap p r o ac h es[4 ]   s u f f er   f r o m   f r u i tles s   A ND   as   w ell   as   XOR   o p er atio n s .   R esear c h   [ 5 ]   tr y   to   h an d le  e m p t y   XO R   o p er atio n   p r o b lem   b u t   d id   n o t   ab le  to   s o lv f r u itles s   b it  w is AND  o p er atio n   p r o b le m .   B o th   t h r esear ch   [ 4 ]   an d   [ 5 ]   f ac es th p r o b le m   o f   f u tile q u e u p u s h i n g .     I n   t h is   p ap er ,   w e   h a v e   s o lv ed   th e   p r o b lem   o f   f r u itle s s   b it wis A N D,   O R   a n d   XO R   o p er atio n   a n d   f u tile  q u e u p u s h i n g   b y   u s in g   p r io r ity   b ased   B I   s tr ateg y .   T h i s   ap p r o ac h   im p r o v e s   ef f icie n c y   b y   p r u n in g   m a n y   g r o u p s   b e f o r eh an d .   T h is   r es ea r ch   u s ed   t h s i m ilar it y   m atc h i n g   co n ce p t b e f o r ass i g n i n g   p r io r ity   to   v ec to r   an d   f o r m s   t h cl u s ter   o f   t h s a m [ 1 9 ] .       3.   P RIOR I T B ASE B I   ST R AT E G F O I B Q   E V AL U AT I O N   3 . 1 .   Wo rking   m o del o f   P rio rit y   ba s ed  B I   s t ra t eg y   f o I B Q   ev a lua t io n   T h is   s ec tio n   d escr ib es  th e   w o r k f lo w   o f   p r io r it y   b ased   B I   s tr ateg y   f o r   I B ev alu atio n .   As   s h o w n   i n   Fig u r 1   p r io r ity   b ased   ap p r o a ch   is   w o r k   alo n g   w ith   tr ac k i n g   p o in ter   s tr ate g y   a s   w ell  as  l o o k   ah ea d   m atc h i n g   m et h o d .   On ce   th e   b it m ap   v ec t o r   is   g e n er ated   t h en   p r io r it y   b ased   ap p r o ac h   w i ll  m a k u s e   o f   tr ac k in g   p o in ter   co n ce p to   ass ig n   p r io r it y   to   v ec to r s   as  p er   th p o s itio n   o f   1 s   o cc u r   in   v ec to r .   Af ter   f i n aliz atio n   o f   v ec to r s   f o r   p er f o r m in g   b it w is A ND  o p er atio n   th en   t h lo o k   ah ea d   m atc h in g   s tr ate g y   w i ll  g et  a ctiv ate  to   f i n d   o u p r o b a b i lit y   o f   t h at  o p er atio n   w h et h er   it  w ill  s ati s f y   t h r es h o ld   co n d itio n   o r   n o t.  I f   it  r ec o g n ize  t h at  p o s s ib ilit y   o f   s u cc es s   i s   le s s   th e n   i w il s k ip   f u r t h er   A N o p er atio n   . I n   th i s   w a y   it  h elp   to   r ed u ce   u n n ec ess ar y   b u r d en   o f   p er f o r m in g   f r u it less   b it w is A N o p e r atio n .   Fin al l y   o u r   m o d u le  5   w ill  e x ec u te  co m p ar o p er atio n   to   co m b i n all  t h r esu lt  w h ich   s atis f ies t h r es h o ld   co n d itio n .           Fig u r 1 .     W o r k f lo w   Dia g r a m       3 . 2 .   P s eudo   co de  f o P rio rit y   ba s ed  B I   s t ra t eg y   f o   I B Q   ev a l ua t io n   T h is   s u b s ec tio n   r ep r esen t s   t h e   p r o ce s s in g   f lo w   o f   p r io r it y   b ased   B I   s tr ateg y   f o r   I B e v al u atio n .   T h is   s tr ateg y   i s   m ai n l y   w o r k   i n   t h r ee   p h ase s   li k e   g e n er ati n g   B I ,   t r ac k in g   p o i n ter   s tr ate g y   a n d   l o o k   ah ea d   m atc h i n g   m et h o d . T h w o r k   f lo w   o f   al g o r ith m   is   as b elo w :   I np ut:   ( I ce b er g   Qu er y ( Attr ib u te  X,   A ttrib u te  Y,   th r es h o ld   T ) ,   T a b le  P,  B itm ap   Vec to r     tab le  o f   P )   P ro ce s s ing :   P r o ce s s in g   o f   al g o r ith m   is   b ased   o n   n u m b er   o f   d is ti n ct  v a lu e s   o f   I B attr i b u te  an d   T h r esh o ld ,   O utput :   ( I B R E SUL T )       M o d u l e   1 :   G e n e r a t e   B i t m a p M o d u l e 2   : P r i o r i t y   B a s e d   A p p r o a c h M o d u l e   3 :   T r a c k i n g   P o i n t e r   S t r a t e g y M o d u l e   4 :   L o o k   A h e a d   M a t c h i n g   M e t h o d M o d u l e   5 : C o m b i n e   a l l   R E S U L T S   w h i c h   S A T I S F Y   T H R E S H O L D   c o n d i t i o n   O u t p u t : I B Q   R E S U L T I n p u t : D a t a b a s e I B Q   A t t r i b u t e s Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   6 Dec em b er   2 0 1 7   :   3 7 45     3 7 52   3748   P ha s 1 :   Cre a t B it m a p Ve c t o G ener a t io n F un ct io n   I co n tain s   m ai n   f u n ctio n s   w h i ch   ar u s ed   to   co n v er I NP UT   in to   OUT P U T .   First  Fu n ctio n   is   C r ea t e   B T MA P   VE C T OR   o n   I B attr ib u te.   I w o r k s   o n   f o llo w i n g   f o r m u la:     B ITMA P   VEC TO R = [ ( c a r din a l ity   of   C l oumn   A +   c a r din a l ity   of   C l oumn   B + . +   c a r din a l ity   of   C l oumn   N ) ] × No . o f   R ow s   pr e s e n t   in   Da ta b a s e ]       T h is   f o r m u la   also   u s ed   to   f i n d   th e   Sp ac C o m p le x it y   o f   Alg o r it h m .   R ela tio n s h ip   b et w ee n   ea c h   ca r d in alit y   is   o n e   to   o n e   m ea n s   o n v ec to r   r elate d   to   o n o n l y .   T h e   attr ib u te   w h ich   h as   th i s   r elat io n s h ip   i s   SET   to   1   o th er w is 0 .   I n   th is   w a y   co m p lete  B I T MA P   VE C T OR   is   cr ea ted .     P ha s 2 :   T ra ck i ng   P o inte Str a t eg y     1 .     Fo r   ea ch   b itm ap   v ec to r   o f   Attr ib u te  X   C OUNT   ( Nu m b er   o f   1 s   in   ea ch   B it m ap   v ec to r )   if   it  is   T   th en   o n l y   k ee p   s u ch   v ec to r   i n   B I .   Oth er w i s d is ca r d   it  f r o m   t h e   lis t.  Fo r   ea ch   b it m ap   v ec to r   a   o f   A ttrib u te   X.     Fin d   f ir s 1   b it   p o s itio n   an d   ac co r d in g l y   allo ca te  P r io r it y   P r i o r ity   Q u eu e   X.   clea r ,   P r io r it y   Qu e u e   Y.   c lear .   Fo r   ea ch   v ec to r   x   o f   attr ib u te  d o     I f ( x . co u n t>= T ) th en                   x . n ex t1 =Fir s tO n eB itP o s itio n ( x , 0 )     2 .     Fo r   ea ch   b it m ap   v ec to r   o f   A t tr ib u te      C OUNT   ( Nu m b er   o f   1 s   i n   ea ch   B it m ap   v ec to r )   if   it  is   T   th en   o n l y   k ee p   s u ch   v ec to r   in   B I   o th er w is e   d is ca r d   it f r o m   th li s t.     P r io r ity   Qu e u e   X.   clea r ,   P r io r i t y   Q u eu e   Y.   clea r .   Fo r   ea ch   v e cto r   y   o f   attr ib u te  Y   do     I f ( y . co u n t>= T ) th en     y . n e x t1 =Fir s tO n eB itP o s itio n ( y , 0 )     3 .     Fin d   f ir s t 1   b it p o s itio n   o f   v ec t o r   an d   an d   ac co r d in g l y   al lo ca te  P r io r ity .     I f     ( X. P o s itio n o f 1 B it >   Y.   P o s itio n o f 1 B it)     T h en   ( FirstP r io r ity   ==   X. v ec t o r )     E ls   ( FirstP r io r ity   ==   Y. v ec to r )   4   I f     (   X. P o s itio n o f 1 B it = Y.   Po s itio n o f 1 B it)     T h en   ( FirstP r io r ity   ==   X. v ec t o r )   as X  v ec to r   ap p ea r s   f ir s t i n   s eq u en ce   a n d   co m es late r .   5.   P r io r ity Q u eu eX. P u s h ( x )   6 .     P r io r ity Q u eu eY. P u s h ( y )   7 .     x , y =N e x tMa tc h Vec to r ( P r io r ity Q u eu eX. clea r ,   P r io r ity Qu e u e Y, T )     8.   W h ile  x ! =N U L L   & y ! =N UL L   d o   9.   P r io r ity Q u eu eX. P o p   10.   P r io r ity Q u eu eY. P o p   11.   C u r r en tR e s u l t=B it w is e AND( x , y )   12.   I f ( C u r r en tR e s u lt.c o u n t>= T )   th en   13.   A d d   I B R esu lt   in   R E SU L T ( x . v al u e, y . v al u e, C u r r en t R es u lt. co u n t)   14.   x . co u n t=x . co u n t - C u r r en tR e s u l t.c o u n t   15.   y . co u n t= y . co u n t - C u r r en tR e s u l t.c o u n t   16.   I f   x . co u n t>= T   th en   17.   x . n e x t1 =Fir s tOn eB itP o s itio n ( x , x . n ex t+1 )   18.   I f   x . n ex t1 ! =N U L L   t h en   19.   P r io r ity Q u eu eX. P u s h ( x )   20.   I f   y . co u n t>= T   th en   21.   y . n e x t1 =Fir s tOn eB itP o s itio n ( y , y . n ex t+1 )   22.   I f   y . n ex t1 ! =N U L L   t h en   23.   P r io r ity Q u eu eY. P u s h ( y )   24.   R ep at  s tep   7 - 2 3   f o r   n ex v ec to r       x , y =N e x tMa tc h Vec to r ( P r io r ity Q u eu eX,   P r io r it y Q u eu eY, T )     P ha s 3 :   L o o k   a hea m a t chi ng   m et ho d   I f   R E SU L T   s atis f ies  T HR E S HOL co n d it io n   th e n   to   p r ed ict  th p o s s ib ilit y   o f   f r u it f u r esu lt  lo o k   ah ea d   m atc h i n g   s tr ateg y   is   u s ed .   T h is   h elp   to   r ed u ce   f r u it less   A ND, O R   a n d   XOR  o p er atio n .   I p r u n t h e   v ec to r   as   it  id e n ti f y   t h at  th i s   v ec to r   w ill   n o t   ab le  to   p r o d u ce   p o s itiv e   r es u lt  . I n   t h i s   w a y   t h i s   m o d u le    s k ip   f u r t h er   o p er atio n al  o v er h ea d   o f   I B p r o ce s s in g .   2 5 .   GE NE R A T E   n e w   v ec to r s   b y   p er f o r m in g   OR   o p er atio n   b etw ee n   R E SU L T   an d   th n e w   v ec to r   w h ic h   is   alr ea d y   p ar t o f   R E SU L T .       Ne w   Vec to r   Old   v ec to r -   C u r r en t R es u lt Ve cto r   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       E va lu a tin g   A g g r eg a te  F u n ctio n s   o f I ce b erg   Qu ery  Usi n g   P r i o r it B a s ed   B itma p   ....   ( K a le  S a r ika   P r a ka s h )   3749     Ne w   Vec to r   Old   v ec to r -   C u r r en t R es u lt Ve cto r   26.   I f   ( Ne w   X/Y  Vec to r )   s atis f y   T h r esh o ld   co n d itio n   th e n   p er f o r m   s tep   7 - 2 3   o n   n e w l y   g en er ated   v ec to r   o th er w is s k ip   th r esp ec ti v a ttrib u te  f r o m   th v ec to r   lis t.        T h is   s tep   h elp s   to   id en ti f y   th p o s s ib ilit y   o f   v ec to r   to   b p ar o f   R E SU L T   f u r t h er .     27 .   R ep ea t step   7 - 2 6   till   th v ec to r   lis w ill b e m p t y .   28 .   R etu r n   I B R E SU L T       4.   RE SU L T AND  D I SCU SS I O N   T h p r o p o s ed   m et h o d   is   i m p le m en ted   u s i n g   J A V A   p lat f o r m   o n   th I B M - co m p a tib le   P C   w it h   I n tel( R )   C o r i3   p r o ce s s o r   @   3 . 4 0 GHz   an d   2 GB   R A M.   T h ex p er i m en t   is   p er f o r m ed   o n   s y n t h etic   d ataset   o f   s ize  5 K,   1 0 K,   20K ,   4 0 an d   8 0 K.   P ar am eter s   co n s id er   f o r   co m p ar is o n   an d   to   m ea s u r th p er f o r m a n ce   ar d atab ase  s ize,   th r es h o ld   v al u e,   n u m b er   o f   iter atio n s   r eq u ir ed   to   ex ec u te  q u er y ,   ti m a n d   a g g r e g ate  f u n ctio n s .   T h g r ap h ical  illu s tr atio n   i s   s h o w n   f o r   C OU N T   an d   SUM  ag g r eg ate  f u n ctio n s   i n   Fi g u r 2 ,   3,   4,   5,   6   an d   7 . W e   o b s er v ed   s ig n if ican i m p r o v e m en in   I B p er f o r m an ce   i n   t er m s   o f   n u m b er   o f   iter atio n s   an d   ti m r eq u ir ed   to   ex ec u te  I B u s i n g   o u r   p r io r it y   b ased   ap p r o ac h   ( PB A ) .   W h av e   co m p ar t h e   p er f o r m an ce   o f   p r io r it y   b ased   ap p r o ac h   ( P B A )   w it h   th e   b it m ap   in d e x in g   ap p r o ac h   ( B I A )   s u g g ested   i n   p r ev io u s   w o r k   [ 4 ] - [ 8 ]   . W o b s er v t h at   as  w g o   o n   in cr ea s in g   s ize   o f   d ata  s e t   an d   th r es h o ld   v al u th e n   also   q u er y   p er f o r m a n ce   is   g o es  o n   in cr ea s i n g   w h ic h   is   s h o w n   i n   Fig u r 2 ,   3 , 4   an d   5 . W ith   p r ev io u s   ap p r o ac h we  n o ticed   th at  a s   d ata  s ize  in cr ea s es  th e   ti m r eq u ir ed   to   ex tr ac d ata  is   al s o   in cr ea s es.   B ased   o n   o u r   ex p er i m e n tal  r es u lt   w h a v p r o v ed   th at   th r o u g h   o u r   ap p r o ac h   ev en   t h o u g h   d ata  s ize   in cr ea s es  t h e n   also   I B r esp o n s ti m g et  r ed u ce d .   W ar u s i n g   B I   s tr ateg y   w h ic h   h e lp   to   h an d le  h u g d ata  ef f ec tiv e l y   [ 1 3 ] , [ 1 4 ] .   T h is   i s   also   n o ticed   th r o u g h   o u r   ex p er i m en tatio n   as  d ata   s ize   is   g o   o n   i n cr ea s i n g   t h e   p er ce n tag o f   r esp o n s t i m is   r ed u ce d   . A s   s h o w n   i n   Fig u r 3   an d   5   th r o u g h   ti m e   an al y s is   w o b s er v e   th a t f o r   s m al d ata  s et  s ize  i.e . 5 k ,   1 0 k   an d   u p to   2 0 k   d if f er en ce   i n   ti m r eq u ir ed   is   o n l y   1 0 - 2 0 b u as  w g o   o n   i n cr ea s i n g   d ataset  s ize  f r o m   2 0 k ,   4 0 k   to   8 0 k   d i f f er e n ce   i n   t i m r eq u ir ed   i s   r ea ch e s   to   4 5 - 5 0 %.  Fig u r 6   an d   Fig u r 7   s h o w s   th co m p ar ati v an al y s i s   f o r   iter atio n   an d   ti m f o r   SUM  f u n ctio n . T h n u m b er   o f   iter atio n s   r eq u ir ed   ar d r asti ca ll y   d ec r e ases   a s   s h o w n   i n   F ig u r 7 .   B u d u e   to   lar g d at ab ase  ac ce s s   t i m e   r eq u ied   to   ex ec u te   is   r ed u ce d   to   4 5 - 5 0 o n l y   w h ic h   i s   a s   s h o w n   i n   Fi g u r 6 .   T h is   i n d icate s   t h at   o u r   s tr ate g y   i s   w el l   s u itab le  f o r   lar g d ata  s et.   T h r o u g h   o u r   ex p er i m e n tal  r e s u l t   w h av p r o v ed   t h at  p r io r it y   b ased   ap p r o ac h   f o r   I B p r o ce s s i n g   is   s u p er io r   to   th e   p r ev io u s   b it m ap   i n d ex i n g   ap p r o ac h .   I n   th is   w a y   w h av e   d ev elo p ed   th e   f r a m w o r k   f o r   C OUNT ,   SU M,   MI an d   MA a g g r e g ate  f u n ctio n   u s ed   in   I B Q.                                       Fig u r 2 .   I ter atio n   An al y s i s   o f   C OUNT   f u n ctio n                     0 50 00 10 000 15 000 20 000 25 000 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K T h e re s h o ld :3 00 T h e re s h o ld :3 10 T h e re s h o ld :3 20 It e ra tio n s   in   H u n d re d s   BIA PBA Dat ase s ize  an d   T h re s h o ld     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   6 Dec em b er   2 0 1 7   :   3 7 45     3 7 52   3750                                 Fig u r 3 .   T im e   A n al y s is   o f   C OUNT   f u n c tio n                                         Fig u r 4 .     I ter atio n   An al y s is   o f   SUM  f u n ctio n                                           Fig u r 5 .     T im e   An al y s is   o f   S UM   f u n ct io n         0 50 10 0 15 0 20 0 25 0 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K T h re s h o ld :3 00 T h re s h o ld :3 10 T h re s h o ld :3 20 BIA PBA                           Dat ase s ize  an d   T h re s h o ld                           T im e   in   Ms e cs     0 0.2 0.4 0.6 0.8 1 1.2 1.4 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 15 0000 16 0000 17 0000 18 0000     It e ra tio n s   in    Milli o n s   B IA PB A                              Dat ase s ize  an d   T h re s h o ld       0 10 0 20 0 30 0 40 0 50 0 60 0 70 0 80 0 90 0 10 K 20 K 50 K 10 K 20 K 50 K 10 K 20 K 50 K 2 3 4 BIA PBA                           Dat ase s ize  an d   T h re s h o ld                           T im e   in  M s e cs   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       E va lu a tin g   A g g r eg a te  F u n ctio n s   o f I ce b erg   Qu ery  Usi n g   P r i o r it B a s ed   B itma p   ....   ( K a le  S a r ika   P r a ka s h )   3751                                         Fig u r 6 .   C o m b in T i m e   An al y s i s   o f   SUM  f u n ct io n                                           Fig u r 7 .   C o m b in I ter atio n   A n al y s i s   o f   SUM  f u n ctio n       5.   CO NCLU SI O N   Ag g r eg ate  f u n ctio n s   ar th m ai n   p ar o f   an y   d ata  an al y s i s   task .   T o   an aly ze   t h h u g d ataset  lik e   DW   w n ee d   to   e x ec u te   q u er ies  w h ich   co n s is o f   a g g r e g at f u n ct io n .   I n   s u ch   a   s it u atio n   if   q u er y   i s   ab le  to   ex ec u te  a g g r eg ate  f u n c tio n   e f f icie n tl y   t h en   i w ill   d ir ec tl y   r ef lect  o n   th p er f o r m an ce   o f   q u er y .   I n te n tio n   o f   th is   r esear c h   i s   to   i m p r o v e f f icien c y   o f   ag g r eg a te  f u n c tio n s   an d   I B w h ic h   g e n er all y   ex e cu te  o n   h u g d ata  s et.   I n   o u r   e x p er i m e n tal  a n al y s is   w co m p ar t h p er f o r m a n ce   o f   o u r   ap p r o ac h   w it h   p r ev io u s   w o r k   an d   we   n o tice  s i g n i f ica n i m p r o v e m e n i n   I B p er f o r m a n ce   b y   u s i n g   o u r   p r io r it y   b ased   B I   s tr ate g y .   W n o ticed   t h at   ev en   t h o u g h   th d ata s et  s ize  a n d   th r es h o ld   v al u e   in cr ea s es  t h en   al s o   th d ata  ex tr ac tio n   ti m g e r ed u ce d .   On   th b asi s   o f   e x p er i m e n tal   r es u l w h a v p r o v ed   t h s u p er io r it y   o f   o u r   r esear ch . T h r es u lt   o f   t h i s   r esear c h   w i ll   h elp   to   ex ec u te  q u er i e s   w ith   ag g r e g ate  f u n ctio n   as  w e ll  as   I B w h ic h   i m p r o v t h p er f o r m a n ce   o f   O L A P   q u er ies  o n   DW .   T h f o cu s   o f   th i s   r esear ch   is   o n l y   s tr u ctu r ed   d atab ase  b u in   f u t u r w ca n   ap p l y   t h s a m e   lo g ic  f o r   q u er y   p r o ce s s i n g   o n   u n s tr u ct u r ed   d ata  an d   it  w ill  h elp f u f o r   b ig   d ata   a n al y s i s .       RE F E R E NC E S   [1 ]   W .   H.  In m o n ,   Bu il d in g   t h e   d a ta  w a r e h o u se ,   W il e y . c o m ,   2 0 0 5 .     0 10 0 20 0 30 0 40 0 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K T h re s h o ld :3 00 T h re s h o ld :3 10 T h re s h o ld :3 20 PB A BIA                           Dat ase s ize  an d   T h re s h o ld                           T im e   in   Ms e cs     0 20 0 40 0 60 0 80 0 10 00 12 00 14 00 16 00 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 5K 10 K 20 K 40 K 80 K 15 0000 16 0000 17 0000 18 0000 Ite r ation s i n  Th o u san d s   PBA B IA Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   6 Dec em b er   2 0 1 7   :   3 7 45     3 7 52   3752   [2 ]   S.  S u sa n a ,   Qu e ry   o p ti m iza ti o n   u sin g   f u z z y   lo g ic  in   in teg ra t e d   d a tab a se , ”  In d o n e sia n   J o u rn a o El e c trica l   En g i n e e rin g   a n d   c o m p u ter   sc ien c e ,   v ol /i ss u e 4 ( 3 ) ,   p p .   6 3 7 ~ 6 4 2 2 0 1 6 .     [3 ]   A .   Du b e y ,   e a l. Ef f e c ts  o f   A g g re g a ti o n   a n d   Da ta  S ize   o n   Qu e r y   P e rf o r m a n c e   a n d   M e m o r y   Re q u irem e n ts  o f   a   Da ta W a r e h o u se ,   ICROIT ,   2 0 1 4 .     [4 ]   B .   He ,   e a l. Ef f icie n Ic e b e r g   Qu e r y   Ev a lu a ti o n   Us in g   Co m p re ss e d   Bit m a p   In d e x ,   IEE T ra n sa c ti o n o Kn o wled g e   a n d   D a ta   En g i n e e rin g ,   v o l /i s u e :   24 ( 9 ) ,   p p .   1 5 7 0 - 1 5 8 9 2 0 1 1 .   [5 ]   C.   V.   G .   Ra o   a n d   V .   S h a n k a r,   Eff icie n Ic e b e rg   Qu e r y   Ev a lu a ti o n   Us in g   Co m p re ss e d   Bit m a p   In d e x   b y   De fe rrin g   Bit w ise -   X OR Op e ra ti o n s,   IEE E ,   2 0 1 2 .   [6 ]   C.   V.   G .   Ra o   a n d   V .   S h a n k a r,   Co m p u ti n g   Ic e b e rg   Qu e rie E ff i c ien tl y   Us in g   Bit m a p   In d e x   P o si ti o n s,   ICHCI - IEE E ,   2 0 1 3 .   [7 ]   S.  V u p p u   a n d   C.   V.   G .   Ra o ,   Ca c h e   Ba se d   Ev a lu a ti o n   o f   Ic e b e rg   Qu e ries ,   IEE In ter n a ti o n a c o n fer e n c e   o n   Co mp u ter   a n d   c o mm u n ica t io n   T e c h n o l o g ies   ( ICCCT ),   2 0 1 4 .   [8 ]   V.   C .   S.  Ra o ,   Eff icie n t   ice b e rg   q u e ry   e v a lu a ti o n   u sin g   se re p r e se n tatio n , ”  IEE E   INDICO N,   p p .   1 - 5 ,   2 0 1 4 .     [9 ]   M.   J .   Ba sh a l   a n d   K.   P.   Ka li y a m u rth ie,   A n   im p ro v e d   sim il a rit y   m a tch in g   b a se d   c lu ste ri n g   f ra m e w o rk   f o sh o rt  a n d   se n ten c e   lev e l   tex t, ”  In ter n a ti o n a l   J o u rn a o El e c trica l   a n d     Co mp u ter   En g in e e rin g ,   v o l .   7,   p p .   5 5 1 ~ 5 5 8 2 0 1 7 .     [1 0 ]   M .   F a n g ,   e a l. Co m p u ti n g   ice b e rg   q u e ries   e ff icie n tl y ,   VL DB  Co n fer e n c e ., p p.   2 9 9 - 3 1 0 ,   1 9 9 8 .   [1 1 ]   J.  G ra y ,   e a l. Da ta   Cu b e r e latio n a a g g re g a ti o n   o p e ra to r   g e n e ra li z in g   g ro u p - b y ,   c ro ss - tab ,   a n d   su b - to tals., ”  Da ta   M in in g   a n d   Kn o wled g e   Dis c o v e ry , p p.   29 - 53,   1 9 9 7 .   [1 2 ]   M .   Jrg e n s,  T re e   Ba s e d   In d e x e v e rsu Bit m a p   In d e x e s:  A P e rf o r m a n c e   S tu d y ,   Pro c .   In t’l   W o rk s h o p   De sig n   a n d   M a n a g e me n to D a ta   W a re h o u se s ( D M DW ) ,   1 9 9 9 .   [1 3 ]   A n   Ora c le  W h it e   P a p e r,   Ora c le Da tab a se   1 1 g   f o Da ta W a re h o u si n g   a n d   B u sin e ss   In tell ig e n c e ,   Or a c le ,   2 0 1 1 .   [1 4 ]   A n   Ora c le  W h it e   P a p e r,   Ora c le Da tab a se   1 2 c - Bu il f o Da ta w a re h o u se , ”  Or a c le,   2 0 1 4 .   [1 5 ]   K.   Y.  W h a n g ,   e a l. L in e a r - T i m e   P ro b a b il isti c   Co u n ti n g   A l g o rit h m   f o Da tab a s e   A p p li c a ti o n s,   ACM   T ra n s.   Da ta b a se   S y ste ms ,   v o l /i ss u e :   15 ( 2 ) ,   p p .   2 0 8 - 2 2 9 ,   1 9 9 0 .   [1 6 ]   J.  Ba e   a n d   S .   L e e ,   P a rti ti o n i n g   A l g o rit h m f o th e   Co m p u tatio n   o f   A v e r a g e   I c e b e rg   Qu e ries ,   Pr o c .   S e c o n d   In t’l   Co n f.   Da t a   W a re h o u sin g   a n d   Kn o wled g e   Dis c o v e ry   ( Da W a K) ,   2 0 0 0 .   [1 7 ]   K.   P .   L e e la,  e a l. On   I n c o rp o ra ti n g   Ic e b e rg   Qu e ries   in   Qu e ry   P r o c e ss o rs,   Pro c .   In t’l   Co n f.   D a ta b a se   S y ste ms   fo Ad v a n c e s A p p li c a ti o n s ( DAS FA A ),   p p .   4 3 1 - 4 4 2 ,   2 0 0 4 .   [1 8 ]   A .   F e rro ,   e a l. ,   Bit Cu b e A   Bo tt o m - Up   Cu b in g   E n g in e e rin g , ”  Pro c .   In t’l   C o n f .   Da t a   W a re h o u sin g   a n d   Kn o wled g e   Disc o v e ry   ( Da W a K) ,   p p .   1 8 9 - 2 0 3 ,   2 0 0 9 .   [1 9 ]   M .   Err it a li ,   e a l . ,   A n   a p p ro a c h   o f   se m a n ti c   si m il a rit y   m e a s u re   b e tw e e n   d o c u m e n ts  b a se d   o n   b ig   d a ta ,   In ter n a t io n a J o u rn a o E lec trica a n d     C o mp u ter   En g in e e rin g v ol /i ss u e 6 ( 5 ) ,   pp.   2 4 5 4 ~ 2 4 6 1 2 0 1 6       B I O G RAP H I E S   O F   AUTH O RS       M s.    Ka le  S a rik a   P ra k a sh   is  t h e   re se a rc h   sc h o lo i n   t h e   d e p a rtm e n o f   c o m p u ter  sc ien c e   a n d   e n g in e e rin g   a S t. P e ters   U n iv e rsity   Ch e n n a i.   S h e   o b tain e d   h e B. E.   (Co m p u ter  En g in e e rin g )   f ro m   Un iv e r sit y   o f   P u n e ,   M a h a ra sh tra  in   th e   y e a 2 0 0 0   a n d   M . E.   (Co m p u ter  sc ien c e   a n d   En g in e e rin g f ro m   S R T M   Un iv e r sity ,   Na n d e d ,   M a h a ra sh tra  in   th e   y e a 2 0 0 5 . S h e   h a b e e n   in   th e   tea c h in g   p ro f e ss io n   f ro m   th e   p a st  1 7   y e a rs.  H e a re a   o in tere st  in c lu d e   d a ta  m in in g ,   d a ta  w a r e h o u sin g ,   b ig   d a ta,  b u sin e ss   a n a l y ti c s,  m a c h in e   lea rn i n g , o p e ra ti n g   sy ste m ,   s y ste m   p ro g ra m m in g ,   so f t w a re   e n g in e e ri n g   a n d   so f twa re   tes ti n g .   S h e   h a p u b li sh e d   1 4   p a p e rs  in   v a rio u s   In tern a ti o n a Jo u r n a ls  a n d   Co n f e r e n c e s.  S h e   h a a tt e n d e d   m a n y   wo rk sh o p s ,   se m in a rs  a n d   F DP s   sp o n s o re d   b y   IS T E,   A IC T a n d   P u n e   u n iv e rsity   re late d   to   h e a re a   o f   in tere st.  S h e   is  a   li f e   m e m b e o f   CS I,   IS T &   IA EN G .         Dr.   Jo e   P ra t h a p   P   M ,   is  a n   A ss o c iate   P ro f e ss o in   t h e   De p a rtm e n o f   In f o r m a ti o n   T e c h n o lo g y ,   sin c e   Ju n e   2 0 1 1 .   He   o b tai n e d   h is   B. E   (CS E)   f ro m   S t .   X a v ier’s   Ca th o li c   C o ll e g e   o f   En g in e e rin g ,   Ch u n k a n k a d a i,   M . (CS E)  f ro m   Ka ru n y a   In stit u te  o f   T e c h n o lo g y ,   Co im b a to re   a n d   P h . D. d e g re e   f ro m   A n n a   Un iv e rsit y ,   Ch e n n a i.   He   h a b e e n   in   th e   tea c h in g   p ro f e ss io n   f o th e   p a st  1 0   y e a r a n d   h a h a n d led   b o th   UG   a n d   P G   p r o g ra m m e s.  His  a re a o f   in tere st  in c lu d e   d a ta  m in in g ,   m a c h in e   lea rn in g ,   Co m p u ter  Ne tw o r k s,  Ne t w o rk   S e c u rit y ,   Op e ra ti n g   S y ste m s,  M o b il e   Co m m u n ica ti o n   a n d   Ob jec Orie n ted   A n a ly sis  a n d   De sig n .   He   h a p u b li sh e d   2 3   p a p e rs  in   va rio u In tern a ti o n a Jo u rn a ls  a n d   Co n f e re n c e s.  He   h a a tt e n d e d   m a n y   w o rk sh o p &   F DP s   sp o n s o re d   b y   A IC T E,   DST   &   IE EE   re late d   to   h is  a re a   o f   in tere st.  He   is  a   li fe   m e m b e o f   IS T &   IA EN G .     Evaluation Warning : The document was created with Spire.PDF for Python.