Internati o nal  Journal of Ele c trical   and Computer  Engineering  (IJE CE)  V o l.  4, N o . 4 ,  A ugu st  2014 , pp . 63 1 ~ 63 I S SN : 208 8-8 7 0 8           6 31     Jo urn a l  h o me pa ge : h ttp ://iaesjo u r na l.com/ o n lin e/ind e x.ph p / IJECE  Ranking in Distributed Unce rtain Database Environments       Yousry M.  Abdul Az eem,  Al i I.  ElDes o uky,  and Hesham A. Ali   Com puters  Engi neering  and  S y s t em s  Departm e nt , F acu lty   of  Engineering ,  Mansou ra University , Eg y p     Article Info    A B STRAC T Article histo r y:  Received  Ma r 4, 2014  Rev i sed  Jun  26,  201 Accepte J u l 10, 2014      Distributed  d a ta processing  is a major  field in  n o waday s   applications. Man y   applications collect  and  process data from distr i but ed  nodes to gain  over a ll  results. Larg e amount of data transf er and network delay   made data  processing in a centr alized  manner a hard operation repr esenting an   important problem. A ver y  co mmon  way   to solve this problem is ranking  queries. Rank in g or top- qu eries concentr ate  only  on  the h i g h est rank ed  tuples a ccord in g to user’s in tere st. Another  issue in most nowaday s   appli cat ions  is  data unc ert a int y . M a n y   techn i q u es  were intro duced for   modeling, managing, and  processing uncertain  datab a ses. Alth ough these  techn i ques  were  effi cien t,  the y  d i dn’t de al with  distributed  da ta   unc e r ta inty This paper d e als with both data u n certa inty   and distribution bas e on ranking   queries. A novel framework is  proposed  for ranking distribu ted uncertain   data. The framework has a suite of novel algor ithms for ranking data and   monitoring  updates. These algor ithms  help in  reducing th communicatio n   rounds used and am ount of dat a  transm itted w h ile achi eving effici ent and   effective rankin g . Experime ntal results show th at th e proposed  framework  has  a gr eat  im pact  in r e ducin g com m unicatio n cos t   com p are d  to oth e r   techn i ques . Keyword:  Datab a se app licatio n s   Di st ri b u t e d   da t a bases   R a nki ng   Top- qu er y     Copyright ©  201 4 Institut e  o f   Ad vanced  Engin eer ing and S c i e nce.  All rights re se rve d Co rresp ond i ng  Autho r Yous ry  M. Abdul Azeem   C o m put ers E n gi nee r i n g a n d   Sy st em s Depa r t m e nt , Facul t y   of  En gi nee r i n g ,  M a ns o u ra  U n i v ersi t y   D a q a h lia 355 16 Eg y p Em a il: yo u s ry@m an s.ed u.eg      1.   INTRODUCTION  Di st ri b u t e da t a  pr ocessi n g   i s  a m a jor fi e l d i n   no wa da y s  appl i cat i o n s . M o st   of  t h e com m on  appl i cat i o ns col l ect  and pr o cess dat a  fr om  di st ri but e d  si t e s t o  gai n  an  ove ral l  resul t .  Exam pl es of suc h   appl i cat i o ns ar e;  C ont e n t  Di s t ri but i o Net w or (C D N [ 1 ,  2] , se ns or  ne t w o r ks  [ 3 4,  5,  6] , m u l t i m e di a   dat a base  [ 7 ] ,  i n f o rm at i on re t r i e val  fr om   geo g r ap hi cal l y  separat e da t a  cent e rs [ 8 ,  9,  10] net w o r k   m o n ito r i n g  over   d i str i bu ted lo g s  [11 ]  and data ex tr acted  fr o m  a set of   data str eam s [ 1 2 ,   13 ]. Cen t r a l i zed  pr ocessi ng  of  si t e s’ dat a  i s  a very  ex pe nsi v e t a sk. M o re o v er , l a rge am ount   of  dat a  t r a n sfe r  a nd  net w o r k   d e lay m a k e s it  h a rd  to  m a n i pu late th ese ap plicatio n s  in  a cen t ralized  m a n n e [1 ].  Usu a lly, in  m o st o f  th ese  applications, t h e user  does not nee d  to  process all da ta in  th e system . In stead ,   o n l y a fraction   o f   d a ta is  retu rn ed  to  th e u s er acco r d i ng  to  h i s i n terest. Th is is  o f ten d o n e  b y   u s ing r a nk ing  qu er ies. Rank ing  or  to p- que ri es ret u rn  onl y  t h e hi g h est  ran k e d   tuples according to a use r -def i n ed sc ori n g function. M a ny   t echni q u es we r e  desi gne d t o  r a nk  di st ri b u t e d  dat a  i n t r od uci ng m a ny  effi ci ent  al gori t hm [3 , 7, 8 ,  9, 1 1 12] Ho we ver ,  n o n e  of t h ese t e c h ni q u es ha s dea l t  wi t h  di st rib u ted  un certain   data. Ev en  t h oug h, in  m o st o f  th n o w a d a ys  ap p l icatio n s , d a ta  i s   fu zzy  or  un cer t ain   [14 ,  15 , 16 , 17 , 18 , 19 , 20 , 21 ].  Top- qu eries  in  un certai n  datab a se system  aim  at  fi ndi n g  t h hi ghest   ran k e d   tuple s  over al l   p o s sib l e in - stan ces of th e d a t a b a se. Th ese i n stan ces  are called  p o ssi b l e wo rl d s . Pro cessin g  th is  q u e ry will  consum e both tim e  and communication bandwidth. Ma ny recent a p proac h es ha ve  dealt with ra nki ng  cen tr alized   un cer t ain  datab a se [ 2 2 ,  23 24 25]. H o w e v e r,  there are on ly two  ap pro a ch es th at h a v e   d ealt  with   ran k i n i n  di st ri b u t e d u n cert a i n   sy st em s [1 5,  2 6 ] .  T h ese   were  the  first  approaches  to  address  ra nki ng in  Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  I J ECE Vo l. 4 ,  N o . 4 ,  Au gu st 2 014    63 –  63 63 2 unce r t a i n  di st r i but ed e n vi ro n m ent ,  but  t h ey  had s o m e  drawbac k s .  In t h e  fi rst  app r oach  t h m a i n  con cern   was th e transmissio n  b a ndwid th  trad ing - o f f laten c y.  The central server c o mm uni c a tes with  o t h e r no des  several tim es  per  one tuple e ach access,  for com puting top- list. This l a rge  num ber of accesses inc r eases   t h e l a t e ncy .   T h e sec o n d  a p p r oac h   was a p p l i e d m a i n l y  on  wi rel e ss se ns or  net w o r ks  t h at  are di vi de i n t o   cl ust e rs.   Eac h   cl ust e hea d  se nds   pre - p r u n e d  set  o f  t upl es  ( s uf fi ci ent  set )  t o  t h e   que ry   no de.  Each  s u f f i c i e nt   set needs a lot  of c o m putation whic h is  done  at each  cluste r head.  More ove r, bot a p proac h es don’t  m onitor  u p d a tes i n  tup l e v a lu es or  rank s.  Th is  p a p e p r op o s es a  n e w fram ewo r k  t h at will h e l p  i n   o v e rco m in g  th ese  d r awb ack s. The fram e wo rk   utilizes o n l y o n e o r  t w o   roun ds o f  co mm u n i catio n  in  t h e pro p o s ed  algo rit h m s .   So, t h e am ou nt  of t r a n sm i tted dat a  i s   m i ni m i zed fo r achi e vi n g  ef fi ci ent  di st ri b u t e d  unce r t a i n  dat a bas e   ran k in g.   The rest  o f  t h i s  paper i s  or gani ze d as fol l ows. Sect i o 2 pre s ent s  t h e  pro p o se d fra m e wor k  an d   defi nes t h e u s e d  dat a  m odel .  Sect i on  3 di sc usses t h det a i l s  of t h pr o p o s ed al g o ri t h m s .  Sect i on 4  val i d at es  the proposed a l gorithm s  and evalua tes thei r efficiency and pe rform a nc e  by  a com p reh e nsi v e e x peri m e nt al  st udy .  Fi nal l y t h e pa pe r i s  c o ncl u ded  i n   Sec t i on  7.       2.   THE PROPOSED FRAME W ORK  The c r uci a l  p r obl em s faci n g   t h e c u r r ent  a p pr oac h es  of   di st ri but e d   u n cer t a i n  dat a base  r a nki ng  are   co nsid ered  as  fo llows: ( i )  Th e num ber  of t upl es eac h si t e  cho o ses t o  se nd a s  a local a n swe r  to t h query.  Large  num ber of t u pl es co ns um es bot h net w o r ban d w i d t h  an d t i m e ; al so som e  t upl es m a y  not  be i n v o l v e d   i n  t h e ran k i n g pr ocess .  On t h e ot her ha n d , s m al l num ber of t upl es m a y cause i n co nsi s t e n t  ranki n g  res u l t s . ( ii Th e nu m b er of co mm u n i cati o n  rou n d s  (phases) app lied   in  rank ing  pro c ess will affect also  th e co n s u m e d   n e two r k  b a ndwid th. So , it is requ ired  to  m i n i mize th e n u m b er o f  co mmu n i cation  ph ases. ( iii ) M o re o v er , The   n eed   fo r m o n ito ri n g   p r o cess i s  also  an  im p o rtan t issu e. Only effectiv e upd ates in   v a lu es an d   prob ab ilit ies o f   t upl es at   di f f er ent  si t e s s h o u l d   be  rep o rt e d  t o   que ry   no de t o   up dat e  t h e  c u rre nt  q u e r y  ans w er .   The  pr op ose d   fram e wor k  ai m s  t o  sol v e t h e pre v i o usl y  d i scusse d p r o b l e m s . The m a in feat ures  of  this fram e - wo rk a r e: ( i ) Fi xi ng t h e n u m b er of c o m m uni cat i on r o u n d s ( o nl y  one  ro u n d ) . ( ii ) M i ni m i zing t h e   num ber of candidate tuples.  Candi date  tupl es are the set of tuples each  node will send to query  node for  ran k i n g pr oces s.  ( iii ) M o ni t o r i ng t u pl up dat e s i s  a m a i n  ph ase aft e r c o m put i ng t h e t o p- list. Th e fram e w ork  co nsists o f  three  m a in  layers,  Qu ery R ank i n g , a n M onito rin g   layers. In  th ese layers a su ite of no v e alg o rith m s  are in tr odu ced and app lied .   The  Query  layer is a starti n g   po in t fo r t h e fram ewo r k in  wh ich  th e d i stribu ted  top - que ry  i s   form ulated then broa dcaste d to all nodes .  T h is quer y m a y be accom p anied with a thres hol d val u e. Process   execution i n  t h is layer takes  place at the side  of the   Query  n ode .   In the  Ran k ing  layer each site, on  receivi ng t h e query, starts  com puting the  neede d  tuples for query   an swer I f  th q u e r y  h a s a thresho l d  v a l u e th en  a  p r un ing  p h a se is co nducted  f i r s t,  o t h e r w ise co n tinu e  w ith  t h e ra nki ng  pr o cess. T h e m a i n  phas e  i n  t h i s  l a y e r i s  t h e ans w er c o m put at i on  p h ase w h i c h i s  m a naged e n t i r el y   usi n g t h e  ne wl y  pr op ose d  al g o ri t h m  Thres h ol d - t u ned  Di st r i but ed  T o p - (TD T k ).  Afte r c o m puting t h needed  tuples for que r y answer, each site  sends its local answe r  to the  Query  node to  co m p u t e t h e d i str i bu ted  t o p- list (DT k ).  The  kth  tup l e in DT is  b r o a dcasted  to  all t h n o d e s t o  st art th e m o n itoring  ph ase. Pro cess   ex ecu tion  i n  t h is layer is don e at bo th   sid e of th Query  n o d e a n d  ot her  n ode s si m u l t a neousl y .   In t h Mon ito ri n g   layer, eac node as signs its lowe bound  t uple  with the  received  one.  T h is tuple is  th e corn er st o n e in  th e m o n itoring   p r ocess.  T h e t u pl es are  r a nke d at  eac si t e  consi d eri n g l o wer  b o u n d   t upl in  th e rank ing pro cess.  Tup l es ran k ed lower th an  l o w e bo u n d  t u pl e a r e assi g n e d  as   candi dat e  l i s t .   Any  change i n  ca ndidate list val u es  or any  ne values  upd ated  with a  rank  lower th an  l o wer  bo und  tup l e is  co nsid ered a can d i d a te to b e   in  top - k . T h i s  t upl e i s  se nt  t o   que ry   no de t o   up dat e  t h e c u r r e nt  D T k Moni toring   pha se i s  a c o nt i n u o u pr ocess   execut e on  n o d es  wi t h  t upl es ’  up dat e s a n d   Quer no de.     2. 1. D a t a  M o d e l   Defi ni ti on   Co n s i d er  an  un certain  d a tabase  D ho r i zontally d i str i b u t ed  ov er  a set of n o d e M   with size |M| =  m   suc h  t h at    . A central server  R   works as  t h Qu ery   no de.  T h dat a base  co nsi s t s  o f  N  t u pl es  fra gm ented with di ffe rent size s suc h  that f o any  site  M i , | D i | =  N i  and    . Tuples in  D i  are  denote d   as     and t h ei score  val u es a s  ran d o m  vari abl e s   a rand om  vari abl e   X ij ’s   pdf  is  represen ted  wi th  th e p a irs ( v jx p jx ) where 1    x     B i  and  B i  is the bounde d  size of  X ij . T h e m a in object ive of  th is work  is to repo rt at  R  the answer  of a  Distributed top- k  qu ery.  Formally, Defin ition  1   Distribu ted to p-k  que ry  ( DT k ) :  I t  i s  t h q u ery  t h at  ret u r n s t h e  t o p - k l i s t  o f  t upl es  wi t h  t h e   hi g h est   ran k  a m ong al l  di st ri but e d   no des .   Let  D  b e   an u n cert a i n  dat a base   di st ri but e d  ove M  no des suc h   t h a t     , let  f  b e  th r a nk ing  fu nct i o n.  DT que ry  ret u r n s t h e m i n k t u pl es  suc h  t h at :   Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Ran k ing  in Distrib u t ed Un certa in   Da t a ba se   En vironm en ts (You sry M. Abdu l Azeem )   63 3  min    ∀ ,    (1 )     Whe r ti  f tj   m eans that  ti  dom inates  tj  according t o   ra nki ng function  f . If  t h e r a nk i n g fun c tio n used  is  Expected rank then  the   DT k - q uery  ret u r n s t h e top - l i s t  wi t h  t h e l o west  e x pect ed  ran k  a m ong al l  di st ri but e d   no des   M     3.   THE PROPOSED  ALGORITHMS  In  th is section ,  we  d i scuss th e p r o p o s ed su ite o f  algorith m s  wh ich  are i m p l e m en ted  in  ou f r a m e w o rk . Th e two pr opo sed  algor ithm s  are em ployed  in the   Ra nki n layer .  Each   o n e  of  t h r a nk ing   al go ri t h m s  i s   im pl em ent e d t o  ran k  di st ri but e d  dat a base  at attrib u t e-lev e l un certain ty. Th e first alg o rith m was  in trodu ced in  a prio r work [2 7].    3. 1. Th resh o ld -tu ned  Distrib u ted T o p - al gori t hm (T DT k )   In t h is algorithm ,  a user-defined  threshol d value is  used to pr une tupl es at each node. The  rest  tuples a r orde red accordi n g t o  th ei r e xpecte d   rank t h en the top- list,  from  each node, is sent t o  t h query  no de.  The  q u er y  no de ra n k s t h e t u pl es t o   get  DT th en  b r o a d cast  th kt tup l e in   DT to  all n o d e s. Th is  v a lu i s  used t o  m odi fy  l o cal  l o wer  bo un ds use d  f o r m oni t o ri n g   pha se. Fo rm al ly , a DT query  i n  TDT alg o rith Qk  retu rn s th h i gh est rank ed  tu p l es su ch  t h at:     |      (2 )     Whe r e:   A x  i s  t h e set  of  hi ghe st  score  k - t upl es f r om  si t e   x  or :    ∈ |       and  r ( t i as   i n  equat i o n 2 wi t h   p ij      (t he t h resh ol d  val u e) .  The  det a i l e s t eps  of  TDT k  algorithm   ar e   as fo llows: The  Query  nod R  br oadcast s  a  t op- k  qu er Q k  wi t h  pr uni ng  t h resh ol val u , to  all n o d e s. It   in itializes th e p r io rity qu eu DT k  and t upl LT  with em pty values. Eac h  node  M i     M  emp ties a lo cal p r io rity  que ue  A i  and  in itializes lo wer bou nd   LB T i   with  em p t y v a lu e. Tup l es’  v a lu es  with  pro b a b ilities less th an    are   om it t e d. The t u pl es are t h en  ra nke d acc or di n g   to their e x pected ra nks a nd i n serted i n to  A i .  The first  k  tup l es in   A i  are sent to  R  an d  in serted in  DT k LBT i   is set with  th k th   t upl e i n   A i . Aft e c o m put i ng DT k R  broad casts  th e last tup l LT  t o  al l   ot he n ode s. Eac h   n o d e , set s   LB T i   with the  recei ved  LT  an d starts  m o n ito rin g  ph ase.    3 . 2 .  Ceiling-tuned Distribute d To p-k Al g o r ithm  (CDTk)  In t h is algorithm ,  each node  m a intain s a pri o rity queue  with local top- k  li st ranked  by expected  rank.  The first   tuple s  from  each node is sent to   query node.  The  rest tuples are c a lled candi date  list used later to  refine  D T k Th e q u ery   n ode  r a nk s t h e  t u pl es  t o   get   fi rst   ph ase DT k . T h e   k th  ran k e d  t upl e i n   DT k  is sent to  all  no des  o f  t h fi rst  ( k  -  1 )-t upl es in  DT k . Eac h   node  ra nks t h e t uples  in ca ndi date list conside r ing t h receive t upl e fr om   Qu ery  no de, t h e n   sen d s al l  t upl es ran k ed l o we r  t h an t h at  t upl e .  Aft e r w a r ds , Que r y  n ode r a nks t h tu p l e fo r th e seco nd  ti m e  to  g e t th e actu a l DT k . Ag ain ,  th last tu p l e in  DT k  is used,  but  to specify local  lower  b oun d in   ord e to  start m o n itoring   p h a se.  A DT k   qu er y in  CD T k  al go ri t h m   i s  form ul at ed base d o n  e quat i o 3. It   re t u r n s t h hi g h e s t  ran k ed  k   tuples with  t h e lowest  e x pected rank  am ong  all sites, in two succes sive  phases. Form ally,      ,      (3 )     whe r A  is th e set o f  tup l es with  th e lowest ex p ected   rank  fro m  all n o d es,  A x  is th set o f   tuples  with lowest expecte d  rank  fr om  no de  x s u ch t h at :  i n  t h 1 st   pha se an A x  =  i n  t h e  2 nd  pha se, whe r  , r ( t i ) is expect ed ra nk  of  t i  as  in   equat i o n 4  a n LT  is the  k th  ra nke d t upl e i n  t h fi rst   phase .   Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  I J ECE Vo l. 4 ,  N o . 4 ,  Au gu st 2 014    63 –  63 63 4 The det a i l e d s t eps of C D Tk  al go r ithm  are  as follows: The Query node R co m putes the num ber of t uples  neede d   from  each site C. Afterwa r ds  it broadcasts a  top-k query  (specifying  C) to all sites. It initializes the   p r i o rity q u e u e  DTk  and  tu p l e LT with  e m p t y v a lu es. Each n o d e  Mi 2  M  in itializes  th e p r i o rity q u e u e   A i  and  t upl LB T i   wi t h  em pt y  val u es. It  ra nk s i t s  ow n t u pl es acc or di n g  t o  t h ei r  expect e d  ra n k  and se n d s t h e  fi rst   C   t upl es t o   R   wh ile k eep ing  the rest tu p l es i n   A i  (can didate list) f o fu rthe r D T k  refi nin g At  R , tuples are ranke by  expect e d  ra nk t h e n  t h k th  ran k e d  tup l e is sen t  to  all  th e sites o f  th e first ( k -1 )-t uple s  in DT k . Eac h  n ode  assigns  LBT i  with   LT  th en   rank A i  with   LB T i . Tu ples ran k e d  lowe r tha n   LB T i  are sent to  R . A not her ra n k i n g   pha se i s  do ne t o  get  t h e re fi ne DT k . The  ne w val u e o f   LT   is com puted and broa dcaste d to all the nodes. Each  no de set s   LB T i  with   LT  value and  starts  m oni toring phase.      4.   EX PER I M E NTA L  STUDY  A d a ta g e n e rato r is d e v e lop e d  in  order to   gen e rate syn t h e tic d a tasets u s ed  in  algo rith m s  v e rifying .   It  gene rates sy nthetic Ga ussian dataset  whe r e  each  rec o rd’s  score attribut e draws  its val u es  from  a Ga ussian  distribution. For  each rec o rd , the sta nda rd deviation   is  random ly selected  from  [1,1000] and t h e m e a n    is  ran d o m l y  selected fr om  [5 ,1 000 00 ]. Each r eco rd   h a g   choi ces  fo r i t s  score  val u es  whe r e g i s  ra n dom ly  selected  fro m  1  to 5. Th g e nerato r con t ro ls  b o t h  sco r e v a l u es and   p r ob ab il ities o f  th g e nerated  t u p l es.    4. 1. E ffec t   of   Di ffere nt  Si z e s T o p - k  Lists  k   Fi gu re 1 s h ow s t h e com m uni cat i on cost of  t h e bot h p r o p o se d al go ri t h m s  fo r di f f ere n t  val u es  of  m   (1 0, 5 0 10 0,  20 0,  50 0 an d 10 0 0  n odes ) Each fi g u r e co m p ares bet w een t h e b o t h  al g o ri t h m s  repres ent i n g   TDT k   wi t h  ze r o  t h res hol d val u e (  =  0) I t  is ob serv ed  fr om  f i g u r e 1 th at th e co mm u n i catio n  co st of   TD T k   increases linea rly with  k  unt i l   k  =  N/m  (num ber of tuples  at each site).   After that val u e the comm unication  cost is fi xe d for any  greater  k . Each   site in  this case will send  all its  tup l es  so  th e co mm u n i catio n  co st  will b e   the sam e . The  comm unication c o st of C D T k  also  in creases lin early with k   bu t with   a lo wer  rate so th at it   appea r s, c o m p ared to  TDT k as i f  i t   has a  fi xed  val u e.  Fi g u re  1  al so  sh o w s t h at , t h e  c o m m uni cat i on c o st   of   A- BF  i s  fi xed  f o r   any  val u of   k   4. 2.  E ffec t  of  Di ffere nt Number  of T uple s  N  The  e ffect o f  diffe re nt  N  (t o t al  num ber  of   t upl es i n  t h e   dat a base on  t h e c o m m uni cat i on c o st  i s   st udi e d  he re fo r a fi xe d n u m b er of si t e s o n   whi c h t upl es a r e di st ri b u t e d .  Fi gu re 2a s h o w s t h e com m uni cat i o n   co st of  t h e two p r op osed algor ith m s  w ith   m   = 1 0  a nd  k  =  10;  k  =  1 00 a n di ffe re nt  val u e s  o f   N . T h observe com m uni cat i on c o st   of  T D T k  in creases linearly with  N  un til  N  =  1 000   th en it g e ts stab le (sam e v a lu e wit h   mo r e   N ),  whi l e  t h e c o m m uni cat i on c o st   of C D T k  i n creases   linearly with  N The  reaso n   o f  t h i s  be ha vi o r  i n  TDT k  i s  t h at  e ach si t e  se nds   k t u pl es t o  be   pr ocesse d.  At  l o we val u es   of   N  (when num b er of tupl es at each site is less tha n   k ) each   site send s all its tu p l es, so  that th co mm u n i catio n  co st in creases u n til  N  =  m  x  k . Inc r easi ng  N  mo r e   t h a n   m  x  k  will no t affect nu m b er o f  tu p l es  sent  w h i c h i s   k . O n  t h e ot her  han d  C D T k  shows a linea r increase with t h e  in crease of N  although  the num b er  of t u pl es sent   i s  al way s  t h e sam e  ( k/ m ).  Fi gu re 2 b  sh o w s t h e com m uni cat i on c o st  o f  t h e t w pr o p o se d   alg o rith m s  b u t   with   m   = 10 0 and   k  =  10;   k   = 10 0. TD T k   h a s t h e sam e  behavi or a s  wi t h   m   = 1 0 , wh ile CDT k   shows a ve ry low c o mm unication cost com p are d  to T D T k . The di st ri but i on o f  t h e sam e  num ber o f  t upl es   am ong la rge r   num ber  of site s increases t h e  probability of  getting t o p-k  quic k ly or  at l east havi ng a  higher  lo wer bo und  in th e b e g i nn ing  o f  th e secon d   ph ase of th al g o ri t h m .  Fi gu re  2a an 2b s h ow also a com p arison  bet w ee n T D T k , CDT k  and  A-BF   to observe  the  effect of di ffe rent  N   on e ach algorithm .  As  seen from  both  fi g u res  t h e c o m m uni cat i on c o st   of  A-BF  in creases lin early  with  a  v e ry h i gh   rate.    4. 3.  E ffec t  of  Di ffere nt   Number of Distri buted  Sites   m   The effect of  m  o n  t h e c o m m uni cat i on co st  i s  st udi ed  he re f o r a  fi xe num ber  of t u pl es di st ri b u t e d   on  di ffe rent   si t e s. Fi gu re  2c s h o w s  t h e c o m m uni cat i on cos t  of  t h e t w o   pr op ose d  al go ri t h m s  wi t h   N  =  100000  and  k  = 10;   k  = 10 0 an d di ff erent  val u es of   m . The obse rved comm unication cost of TDT k  increa ses linearl y   with the i n crea se of  m wh ile  th e co mm u n i catio n  co st of C D T k  decreas es also  linearly   with  th e in crease o f   m The m a t c hi ng  poi nt  o f  t h e t w o al g o ri t h m s  i s  at   m  = 15 or  m  = 75.  At the s e values , the  comm unication costs  of  bot h algorit h m s  are nearly equal.  Afte r these values , TDT ten d s  t o  in crease wh ile CDT k  de creases . Figure   2c s h ows that,  the comm unication c o st of  A- B F  inc r eases l i nearly but wit h   hi ghe r val u es   t h an b o t h   T D T and  CDT k   Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Ran k ing  in Distrib u t ed Un certa in   Da t a ba se   En vironm en ts (You sry M. Abdu l Azeem )   63 5     Fig u r e   1 .  Co mm u n i catio n  co sts o f  th pr oposed  al g o r ith m s  an A-BF  wi t h  di ffe re nt   val u e s   o f   m  an         Fi gu re  2.  C o m m uni cat i on cos t s wi t h   di f f ere n t  val u es  o f   N  a n d  di ffe rent   va l u es  of  m       5.   CO NCL USI O N   In   t h i s  pap e r a  n ovel   f r am ewo r k   i s  pr o p o s ed fo r ran k i n g di st ri b u t e d  unce r t a i n  dat a base.   The   fram e wo rk  consists o f  th ree  main  layers ( Qu ery Ranking  and  Mon ito ring ), each one  has its own algorithm s .   The m a i n  cont ri b u t i on  of t h i s  pape r i s  at  bot R anki n g  a nd  Mon ito ring  layers. Two   n o v e l algo rithm s  fo ran k i n g di st ri b u t e d u n ce rt ai n dat a base are  pr op ose d  at   Ranking  layer. Exp ected  rank  is th e rank ing  fun c tion  u s ed  in  bo th  alg o rith m s . Th e first alg o rith m   (TDT k ) u tilizes o n l y on e co mm u n i catio n  roun d   with   m  x  k  t upl e s   sent  t o   que ry  s i t e . The  seco n d   on e (C DT k ) u tilizes  two  commu n i catio n  ro und s with  on l y   ( k + m ) tupl es, at  m o st, in  th first ro und . An exp e rim e n t al stud y is m a de to test t h efficiency  a nd effectivene s s  of t h pr o pose d  al go r i t h m s  agai nst   A-BF  al go ri t h m  [26] Fr om   obs er vi n g  t h expe ri m e nt s resul t s , i t  i s  cl ear t h at   TDT k   ov ercomes CDTk  i n   so m e  situ atio n s  wh ile CDT k  ov er co m e s TD T k   i n  ot her   s i t u at i ons,   an d bot h o f   t h em  overc om e t h ol o n e.       REFERE NC ES   [1]   P. Cao and Z.  Wang, “ Efficien t top-k query  calcula tion  in distributed networks ”,  in P r oceed ings  of the twen t y thir d   annual ACM s y mposium on  Principles of distributed com putin g, ser. PODC ’04.  New York, NY, USA: AC M,  2004, pp . 206–2 15.  [2]   H.  Yu,  H. G. Li, P.  Wu,  D. Ag rawal, and A .  El Abbadi, “ Efficient processing  of  distributed to p-k queries ”,  in   P r oceedings  of t h e 16th intern at ional conf eren ce  on Data bas e  an d Expert S y s t e m s   Applicat ions , s e r. DEXA’05.  Berlin , Heidelb e rg: Springe r-Ver lag, 2005, pp. 65 –74.  [3]   M. Wu, J. Xu, X. Tang,  and  W.C. Lee, “Top-k monitoring in  wireless sensor networks,”  IEEE Trans. on Knowl.  and Data Eng .,  vol. 19 , no . 7 ,  pp . 962–976 , July   2007.  Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  I J ECE Vo l. 4 ,  N o . 4 ,  Au gu st 2 014    63 –  63 63 6 [4]   P. Andreou, D.  Zein alipour-Yazti, P.K.  Chr y san t his,  and G. Sa maras, “Power efficiency   throug h tuple r a nking  in   wireless sensor  network monitor i ng,”  Distrib. Pa rallel Databases , vol. 29 , no . 1-2 ,  pp . 113–150 , F e bruar y  2011 [5]   Y. Cho, J. Son,  and Y.D. Chung, “ Pot: an efficient top- k monitoring met hod  for spatially c o rrelated sensor  readings ,” in Proceed ings of the 5th workshop  on Data m a na ge m e nt for sensor  networ ks, ser. DMSN ’08. Ne York, NY, USA: ACM, 2008, pp. 8–13.  [6]   A.  Qian,  Y.  Lu,  D.  Xiaofeng,  L.  Zou,  and Z.  Li,   Efficient top- k monitoring of  abnormality in sensor networks ,” in  Proceedings of  t h e 2009 Ninth I EEE In tern ation a l Confer enc e  o n  Com puter and  Inform ation T e c hnolog y   -Volum 02, ser .  CIT ’09 .  Washington, DC, USA:  IEEE C o mputer Society, 2009 , pp . 348– 353.  [7]   R. Fagin, A. Lo tem, and M.  Nao r , “ O ptim al aggr egat ion algor ith m s  for m i ddleware,”  J . Comput.  Syst. Sci .,  vol.  66,  no. 4 ,  pp . 614–6 56, June 2003.  [8]   A. Marian, N.  Bruno, and L. Gr avano, “Evaluating top-k qu erie s over web- accessible datab a ses,”  ACM Trans Database Syst .,  vol. 29 , no . 2 ,  pp . 319–362 , June  2004.  [9]   B. Babcock an d C. Olston, “ Distributed top- k monitoring ,”  in Proceedings  of the 2003  ACM  SIGMOD  intern ation a con f erence on  Management of  data,  se r. SIGMOD ’03. New York , N Y , USA: ACM,  2003, pp . 28–39 [10]   L. Xiong , S. Chi tti,  and  L.  Liu, “ Top-k queries across multiple private da tabases ,”  in P r oceed ings   of the 25 th  IE EE  International Co nference on  Distributed  Computing S y s t ems,  ser. ICDCS ’05 .  Wa shington,   DC,  USA: IEEE  Computer Society ,  2005 , pp . 145 –154.  [11]   T. Neum ann ,  M.  Bender ,  S. Mi c h el,  R.  Sch e nke l ,  P.  Trian t af illou ,  and  G. W e iku m , “ D istributed  top-k aggr egat io queries  at   larg e,   Distrib. Parallel  Databases , vol. 26, no. 1, pp. 3– 27, August 2009 [12]   I. Sharfman, A.  Schuster, a nd D. Keren, “A geometric appro ach  to m onitoring th reshold function s  over distributed   da ta strea m s” ,   ACM Trans. Database Syst ., vo l. 3 2 , no . 4 ,  pp . 1–3 2, November 20 07.  [13]   A. Vlachou, C.  Doul keridis, K.  Nørv  ˚  ag and  M .  Vazi rgiann is , “ On efficient top-k query  processing in h i gh ly  distributed environments ”, in Proceed ings of the 2008 ACM  SIGMOD Internationa l  Conference on  Managem e nt of   Data, ser. SIGMOD ’08. New Y o rk , NY, USA:  ACM, 2008, pp 753–764.  [14]   A. Deshpande,  C. Guestrin, S.R .  Madde n,  J.M .  Hellerstein, and W.  Hong,  Mod e l-driven data a c quisition  in sen s or  networks ,” in P r oceed ings  of the Thirtie th Intern ation a l Conferen ce on Ver y  La rg e Data Bas e s  – Volum e  30, s e r.  VLDB ’04. VLDB Endowment, 2004, pp. 588–5 99.  [15]   M. Ye, X. Liu, W . C. Lee ,  and D.L. Le e, “ Probabilisti c top-k q u ery processing  in distributed sensor networks ,” in  P r oceedings  of  the 26th  IEE E   Interna tiona l Co nferenc e  on Da t a  Engin eer ing.  Los  Alam itos ,   CA, US A: IEE E   Computer Society ,  2010 , pp . 585 –588.  [16]   N. N.  Dalvi and  D.  Suciu,  “Efficient query  ev alu a tion on probabilistic databases”,  VLDB Journal vol. 16, no . 4, p p .   523–544, 2007 [17]   C.  Re,  N.  Dalvi, and D.  Suciu,  “ Effi ci ent top-k q u ery evalua tion  on probabilistic  data ,” in Proceedings of the 23th   IEEE In terna tio nal Confer ence  on Data Engin e e r ing. Los  Alam it os, CA, USA: I EEE Com puter  Societ y ,  2007, p p .   886–895.  [18]   T. Calders, C. G a rboni, and B .  G o ethals, “ Eff i ci e n t patt e rn minin g  of unc ertain d a ta with samplin g ,” in  Advances  in Knowledge Discover y   and Data Mining , s e r .   L ectur e Notes  in  Com puter S c ie n ce, M.  Zaki, J.  Yu, B. R a vindr an,  and V. Pudi, Eds .  Ber lin , Heidelb e rg: Spring er B e rlin Heidelb e rg,  2010, vol. 6118 pp. 480–487 [19]   C. Li , L .  Huang ,  and  L.  Tian , “ Effi ci ent bui ldin g algorithms  of decision tree for  uniformly  distributed  uncertain   data .” in Seven t h International  Conference on Natural Com putation ,  ICNC 201 1, Y. Di ng, H. Wang, N. Xiong, K.  Hao,  and L. Wang, Eds .  IEEE, 2 011, pp . 105–10 8.  [20]   C.W. Lin and T.P. Hong, “A ne w mining approach for uncer tain databases usin g cufp trees,”  Ex pe rt Sy ste m s with   Applica tions , vo l. 39 , no . 4 ,  pp . 4 084–4093, Mar c h 2012.  [21]   C.W. Lin ,  T.P.  Hong, Y.-F. Ch en, T. C. Lin ,  an d S.T. Pan ,  “An integr at ed  mffp-tree  algor ithm for mining global  fuzzy  rules from distributed databases”,  Journal  of Universal Computer Science vol. 19, no. 4 ,  p p . 521–538, feb   2013.  [22]   M.A. Soliman, I . F. Ily a s ,  and  K.C.C. Ch ang, “ Top-k query processing in uncertain databases ,   in P r oceed ings  o f   the 23 th I EEE In ternational Conf erence  on  Data  Engineering, 20 07, pp . 896–905 [23]   M .  H u a ,  J .  P e i ,   W .  Z h a n g ,  a n d   X .  L i n ,  “ Eff i ci ently answering  probabilistic thre shold top-k qu eries on uncerta in   data ”, in  Proceedings of th e 24 th  IEEE In ternatio na l Conf eren ce  on Data Eng i neering, 2008 , pp . 1 403–1405.  [24]   X. Zhang and J .   Chomicki, “Seman ti cs and eva l u a tion of top - k qu eries in prob abil istic da tab a ses”,  Distributed and  Parallel  Databa ses , vol. 26 , no 1, pp . 67–126 , 2 009.  [25]   J .  J e s t es , G .  Corm ode, F .  Li, and  K .  Y i , “S em antics of ranking queries  for probabilistic data,”  IEEE Trans. Knowl.   Data Eng ., vo l.  23, no . 12 , pp . 1 903–1917, December 2011.  [26]   F.  Li, K.  Yi,  a n d J.  Je ste s ,  “ Ra nking distribu ted probabilisti c d a ta ”,  in Proceed i ngs of the 2009  ACM SIGMOD  nternational Conference on Management  of Data,  ser. SIGMOD ’0 9. Ne w York, NY, USA:  ACM,  2009, pp. 361– 374.  [27]   Y. AbdulAzeem , A. E l desouk y ,  and H. Al i, “ R anking in  un cer tain d i stribut ed  datab a se env i ro nm ents”, in  The  Seven th Int e rnat ional Conf erenc e  on Co mput er E ngineering  and  Systems ( I CCES) , 2012, pp . 275 –280.  Evaluation Warning : The document was created with Spire.PDF for Python.