Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   10 ,  No.   5 Octo be r   2020 ,  pp.  4910 ~ 4917   IS S N:  20 88 - 8708 DOI: 10 .11 591/ ijece . v 10 i 5 . pp 4910 - 49 17           4910       Journ al h om e page http: // ij ece.i aesc or e.c om/i nd ex .ph p/IJ ECE   Ear li er sta ge for str aggler  detecti on  and h an dli ng  usin co mb ine d CPU t est and  LATE  m ethod ology       An w ar  H. K atrawi 1 , Rosn Ab d ull ah 2 , M ohammed  An ba r 3 ,  A m mar   Ka m al  Abasi 4   1,3 Nati ona Adva nce IPv6 C ente (Nav6), Unive r siti   Sains   Malays ia ,   Ma lay si a   2,4 School  of  Co m pute Scie n ce s ,   Univer si ti Sain s Mal a y sia ,   Ma l a y si a       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Oct   15 , 201 9   Re vised  Ma r   17 , 2 020   Accepte Ma r   30 , 202 0       Us ing  Map Reduc in  Hadoop   hel ps  in  lower ing  the   execut i on  ti m and  power  consum pti on  for  la rge   sca l da ta .   How eve r ,   the r c an  b a   d el a y   in  job  proc essing  in  circum stanc es  where   t asks  are   assigned  to  bad  o conge ste d   m ac hine ca l led  "s tra ggle tas ks" which  in cre as es  the   t i m e,   power  consum pti ons  and  the r efo re   in cre asing   the  co sts  and  l ea ding   to  poo r   per form anc e   of   computing  s ystems .   Thi re sea rch   propose h y bri d   MapReduc fr a m ework  ref err ed   to  as  the   combinat or y   l at e - m a c hine   (CLM)   fra m ework.   Im ple m ent ation  of  th is  fra m ework  will   facil i tate  e arly  and  ti m e l y   det e ct ion  and  ide nti f icati on  o straggl ers  th ere b y   facil i tati ng  prom pt   appr opriate   and effe c ti ve   a ct ions .   Ke yw or d s :   Bi d at a   Com bin at or l at e - m achine     Hado op   Ma p   r e duce   Strag gler   Copyright   ©   202 0   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Anwar H . Kat r awi ,     Nati on al   A dv a nced I Pv6 Ce nt er (Nav6 ),     Un i ver sit i Sai ns M al ay sia ,   11800 U SM,   P enang,  Mal ay sia .     Em a il : akatraw i@st ud e nt. us m .m y       1.   INTROD U CTION   si gn i ficant  am ou nt  of   data  ( bi data is  store an trans f err e onli ne  by   tho us a nds  of  com pan ie s,  orga nizat ion s ,   an in div id ua ls.  This  la r ge ly   un str uctu r ed  data  is  dif ficult   to  a naly ze  an pr oces us in conve ntion al   da ta base  m anag e m ent  too ls  w hich  create ne chall en ges   in  the  analy sis  and   the  st orage  of     data  [ 1].  Re ce ntly there  has   bee an   inc r easi ng   i nterest   in  key  a reas  su c as  real - ti m data  extra ct ion ,     wh ic re veals  an  ur gen nee f or   bulk  a nd   stric perform ance  c on st rain ts.  Conseq ue ntly the  ada pta ti on   of  huge  data  to  i m ple m entat ion on  distri bu te com pu ti ng  pl at fo rm is  necessary.  On w ay   of   do i ng  thi is  to   adopt  an im plem ent  the  po pula pro gr a m m ing   m od el   known  a Ma pRed uce  [ 2].   Its  su cces li es  i si m plici t y,  scal abili ty eff ic ie nc and  exte ns i b il it that  pu s he the  IT  in dus try   le ader s   su c as  G oogle,  Y ahoo,  Faceb ook  a nd   Am azon   to  e xtensi vely   ad opt  Ma pRe du ce   as  po werful   and   reli abl e   too for  Bi Data   processi ng.  Th ere  are  four   fa ct or s,  i nclu ding  pro cessi ng,  storing,  vis ualiz at ion a nd   a na ly zi ng   la rg data  i m od ern   or gan i zat ion a nd   e nt erprises.  Ma pR edu ce  ca r un  the  a pp li cat ion on  pa rall el   cl us te of  ha rdware   autom at ic ally.  In   ad diti on;  it   can  process  te r abyt es  and   pet abyt es  of   data  m or rap idly   [3 , 4] Re centl y,  it   has  gaine po pu la r it in  a   wide  r ang of  ap plica ti on du t it abili ty   to  pro vid highly   eff ect ive  a nd  ef fici ent   fr am ewo r for   the  par al le ex ecuti on  of  t he  app li cat io ns da ta   al locat ion   i distrib uted  da ta base  syst em s,  an fau lt   tolera nce   networ com m un ic at ion [ 5 ] Fo insta n ce Goo gle  runs  m or than  10, 000  disti nct  pr ogram s   us in Ma pRe duce  inclu ding  gr a ph  processi ng [ 6] te xt  pro cessi ng,  m achi ne  le arn i ng,  an sta ti sti cal   machine   translat ion.  M or e over,   the   f a m ou open - s ource  Ha doop   softwa re  f ra m ewo r for  di stribu te sto r age  a nd   processi ng   of  big   data  F i gure   set us es   Ma pr e duce  as  central  to ol  to  sp li the  data process  it   a nd  m ake  it   no only   m anag eable  but  al so   a vaila ble  f or  use rs ’  c on s um pt ion   or   f ur t her   proces sin g.  Als o,   t he  Ha doop   Ma pRed uce  e nv i ronm ent  prov i des  fa ult - tole ran so l utions  in  case  of  ha rdwar fail ures  or   s of t war e   errors   durin t he  e xe cution o ta s ks   [ 7 ]   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Earlier st age f or  str aggler  de te ct ion  an d h andlin g usi ng c ombin e CP U t est  …   ( Anwa r   H.  K atra wi )   4911       Figure  1 .   Ha do op  f ram ewo r k       Accor ding  to  the  w ork  prese nt ed  by  [ 8 ] Ha doop  Ma pRe duce  has  the  abili ty   to  tolerat s ever al   ty pes   o f  f a ults an t he y are as  f ollo ws:   a.   Nodes  fail ur e:   no de  in  Ma pRed uce  cl us t er  m a fail   at   a ny  tim e.  In   this  case,  the  J obTrack e rem oves   this  sla ve  node   from   the  li st  of   no des  av ai la ble  and   re - execu te t he  ta sk on   oth e nodes It  can  be   con cl ud e that   no de  is  de cl ared   fail in if  at   le ast  on e   ta sk   la un c hed  on   it   has  fail ed.   At  the  tim e,     the  JobT rack e r   chec ks   if  t he  node  i quest i on   sho uld   not  be  blackli ste d.  If   sla ve  node   is  "blackli ste d" ,   the  JobT rack e r   will   no   lo nge assig it   m a or  re duce.   It   can  be  rem oved  f ro m   this  list  if  his  be ha vi or   beco m es nor m al  an d d oes  not  co m m it  f aults  dur in a  certai ti m e interval.    b.   So ft war Fail ure:   ta sk   m a stop   beca us of   a error   or   e xcep ti on  in  the   m app ing   or   re du ct io pr ogra m In   this  case,  t he  JobT rack e r   order the  re - execu ti on  of  the  fail ed  ta sk   to  lim it ed  nu m ber   of   at te m pts     (four  by  def a ult), bey ond w hi ch  the  task  and  the  j ob  of the  task is c onside r ed fault y.   c.   Stoppe Task:  As  an  e xam ple the  process  of  runn i ng   ta sk  m ay   s top   unex pectedly   due  to   transient  bu in the und e rly ing   virtu al  m ac hin e.  In  t his case, th e JobT rac ker  s how  in Fi gure 2   will  b e n otifie an it  w il l   reord e t he job  as d esc ribe a bove .   d.   Bl ock e Tas k:  It’s  co ns ide re fa ulty   if  after  so m tim ea   m app in or  r edu ct io ta s rem ai ns   blo ck e without a ny pr ogress; i this  case, the  JobT r acker  ord e rs  t o kil l t he pr oces s runnin g   t his t ask.   e.   Delay ed  Task s: W he so m ta sk are  unex pectedly   ta king  longe execu ti on  ti m com par ed  with     the av e ra ge  e xe cution t im e, t hese tas ks  call ed  stra ggle rs           Figure  2 .   Job  t r acker         Seve ral  stud ie ha ve  bee de vo te to  im pr ov i ng   t he  toler ance  of   syst e m to  fau lt s.  Fo i ns ta nce ,   Mi cro s of re ve al that  wh en  the  CPU  an cor par ts’  e rror occur  in  one  m il l ion   cus tom ers’   com p uters ,   Hado op  does   not  ha ve   the  ca pa ci ty   to  deal  w it these  ty pe of  pote ntial   er r or s T his  al s i nclu des  oth e t ypes  of   e rrors   relat ed  to  t he  ta sk   it sel (when  one  or  m or of   these  ta sk s   ta ke  lo nger  or   s top befo re  th wor ou tc om es  are rea li zed)   Pr oble m   sta teme nt.  The  del ay ed  ta sk a re   cal le strag gl ers  an play   key  r ole  in   increasi ng    the  exec ution   tim of   big   da ta   and   ene r gy  consum ption Fo ll owin the  Ma pRed uce  f r a m ewo r k,   stra gg le rs   ref e to  the  ta s ks   that  ta ke  longe tim to  be  execu te co m par ed  to  oth e ta sk s.  T here  are  va rio us   te chn i qu e s   of   detect ing   a nd   ha nd li ng  st ragglers  s uc as  Do ll y,  the  Hado op   native   schedule r MonTo ol,  L AT and  Ma ntri.  Re ga r dless  of  the   te chn i qu e al rea dy   in  place,  st ra gg le detect io rem a ins  pr obl e m at ic   in  the  fiel of   data analy ti cs.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 5 Oct ob e r   2020     49 10   -   49 17   4912   The pr opos e s olu ti on We  propose  a al go rithm   that faci li t at es the calc ula ti on  of stra ggle tolera nc e   thres ho l us i ng  CPU  te st  an LAT m et h odology.  O ur  appr oach   c onsiders  c ru ci al   issues  s uch   as  t he  Q oS   with  m ajo fo c us   on   th tim ing   con st raints,  the  pro gress  of   ta s ex ecuti on,  an t he  us a ge  of   c luster   resou rces.  E ve thou gh   ta s sel ect ion   does  not  app ea to  be   big   pro blem   in  the  init ia s t ages,  we  ha ve  bee able  to  show  t hat  it   is  big   issue  that  requ ires  cl os at te nt ion T her e fore we  rec omm e nd   ide ntifyi ng  tho s e   ta sk th at   le ad   to  t he  lo ngest   res pons e   ti m e s.  We  al s rec omm end   t hat  this  need s   to   be   done   as   earl as  po s sible  so   th at   there  cou l be  no  la te su r pr ise s Takin these  into  account,  it   is  po s sible  to  see  that  our   LATE  m et ho dolo gy  is  based  on   the  est im a te   of   the  ti m e   that  is  le ft  with  the  go al   of  early   det ect ion   of   the   ta sk that  are  r unning  sl ow ly .   I s umm ary,  the  m eth od ology  is  ba sed  on  m aking  decisi ons  earl y,  us ing   the  fi nish i ng  ti m es  and  not  th pro gr e ss  rates,  no as sig ning  s pec ulati ve  t asks  t sl ow  node a nd  opti m iz at ion  of r es ource  util iz at ion .   S ign i ficance  of  the  resea rch I the   cu rr e nt  stu dy,  m et hod  is  pro pose with   the   pur pose  of  addressi ng  the   strag gler   pr oble m W e   pr opose   a al go rithm   wh ic ca e na ble  cal cu la ti on   of  thre s ho l of  strag gler  tole r ance  earli er  usi ng   CP te st  and   Lo ngest   Appro xim at Ti m to  End   ( LATE m et ho do l og y.   Our  a ppr o ach   fo c us es   on  t he  ti m ing   c onstrai nts,  pro gress  of  ta s e xecu ti on,   an the  us age   of   cl us te r   resou rces.  In  this  w ork our  m ajo r   co ntribu ti on   is  that  unli ke  ot her   stu dies  that   ass um e   that  it   is  ha rd   to  ha ve   co rr el at io betwee ta s execu ti on  an node   sta tu s,   we  s how  t hat   it   i possible   an feasible  to  ha ve   cor relat io and   detect   stragg le rs  us in L ATE  m et ho dolog an CPU   te st.  Ou m e t hodolo gy  is  si m ple  enou gh and ea sy t acc omm o date with  lo w ov e r head s   Orga nizat ion   of  the   resea rc h The   re st  of   this  pa per  is  orga nized   as   f ollow s:   Sect ion  2   co ve rs     th li te ratur e   r eview,   sect io 3   co ve rs  t he  m et hodo l og y,   se ct ion   4   th r e s ults  an discu s sion,  sect io 5   cov e rs  the pr opos e s olu ti on/rec omm end at ion, a nd se ct io n 6   c ov ers  the  conclu s ion .       2.   LIT ERATUR E REVIE W   Hado op   an Ma Re duce  a re  am on t he  m os co m m on ly   us ed   f ram ewo r ks   when  it   c om es  to  ta sk   execu ti on  ac r oss  seve ral  no de for  op ti m al   per f or m ance.  E ven   t houg the   fr am ewo r ks   ha ve  beco m popu la r,   they   sti ll  face  sever al   chall eng e wh e it   com es  to  the  eff ect ive ness  of   ta sk e xecut ion   [ 8 ] S pecifica ll y,  achievin pre dicta ble  exec ut ion   has  be co m pr oble m a tic  becau se  of   strag glers.   Due  to  stragg le rs ta sk execu ti on  ta ke lon ge to  co m ple te   than  ori gin al ly   antic ipate [ 9] S uch   delay are  unde sirable  beca use   they   resu lt   in  re duc ed  ser vice  pe rfor m ance  an can  al so   po te ntial ly   vio la te   QoS  (Quali ty   of   S erv ic e)  re qu ire m ents   con ce r ning  ti m ta ken  to  c om plete   ta sk s.   F or  ser vice  pr ov i de rs,   ta s ks   t hat  ta ke  m or ti m to  com plete   le ad  to   reduce avail a bili ty   of   syst em s   and   cause  j obs  to  c onsum m or tim e Strag glers  ha ve  bec om com m on   especial ly  in  cl oud data ce nter s [ 10 ]   Ther e f or e,  it   is  vital   to  de te ct   and   m iti gate  them   pr om ptly Ad diti on al ly center with  la r ge   com pu ti ng   in frast ru ct ure  can  al so   ex per ie nc delay that  c an  le ad  to  inef fecti ve  job   e xe cution.  Als o,   la rge   data  cente rs  ha ve  high  i ntake  of   ser vice  creati on  w hic m ake  them   vu l ner a ble  to   strag glers.   T he re  are   sever al   r oot  causes  to  stra ggle rs  inclu ding  r eso ur ce  c on te nt ion hardw a re  heter og e neity backg rou nd   ne twor tr aff ic ,   an op e rati ng   syst em   r el at ed - le vel  ca us es  [ 11 ] C onsidera ble  ef fort   has  bee m ade  to  st udy  stra ggle rs .   Ov e the  ye ars ,   the  siz of   c om pu ti ng   in fr a structu re  an job e xec uted  hav c on ti nu e to  gro w hi ch  has   dr am at ic ally  increased   the  im pact  of  stra g glers.   St ragglers   are  kn own  t exten j ob  e xe cution  substa ntial ly  wh ic ne gativ el aff ect t he   “C ons um er  Serv ic Level   Agreem ent”  an Q oS  perfor m ance  re qu i re m ents.   In   st ud c ondu ct e by  B ort nik ov,  Fr a nk,  Hill el and   Ra o,   the  a utho rs  pro po se  t wo   w ay of   d eal ing  with   strag glers  na m el toleranc and   a voida nce  [ 12 ] H oweve r,   a voidi ng   strag glers  is  diff ic ult  since  it   is  i m pr act ic al   to  purs ue.   T he r efore,  str ag gle tolera nce  is   the  ap proac adopte by  m o st  sta keh ol der s.   In  stra gg le to le ran ce,   the   ex ecuti on  prog re ss  of  a   ta sk  is   m on it or ed   us ing  per c enta ge   sco re  m ade  up  of   values   ra ng i ng  from   to  w hich  re pr ese nt  sta rt  an c om pleti on C urren tl y,  the  a ppr oac hes  us e for  str agg le r   detect ion can  e it her   be descri bed as  offli ne or  onli ne  a naly ti cs   [1 3 ]   Nonetheless it   is  w or th   noti ng  that  onli ne  de te ct ion   can   oc cur   t oo  la te   du rin the  e xec ut ion   cy cl of  ta sk The refor e strag glers   cannot  be  preven te f ro m   run ning  slowe eve after  t he  im ple m entat ion   of   sp ec ulati ve  co pies.  On   t he  oth e ha nd,  offli ne  a pp r oac hes  ar norm al ly   app li ed  to  av oi stra ggle rs.    This  ap proac is  seen  as  le ss  feasible  an th us   it   is  un c omm on Howe ver,  bette res ults  can  be  ac hieve by   com bin ing  bot on li ne   a nd  offli ne  a ppr oac hes.  Wh e us e to geth er,   the ca si gn i ficantl help   to  i m pr ov e   the ef fecti ve ne ss of “str ag gler  d et ect io n”.     2.1 .      Rela ted w orks   Fo r   Stra ggle Detect ion ,   m any  te chn i qu es   ha ve  bee dev el op e d.  O uyan g et   al pro poses an   al go rithm   base on   t he  pro gr ess   sco re   of  ta sk  exec ution  that  e na bles  dynam ic  thres hold  det ect io for  str agg le r     ta sk [ 14 ] T hi strat egy  has   i m pr oved   pe rfor m ance  sig nif ic antly   by  re duci ng  j ob   exec ution  by   44  pe rcen t.   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Earlier st age f or  str aggler  de te ct ion  an d h andlin g usi ng c ombin e CP U t est  …   ( Anwa r   H.  K atra wi )   4913   In   st udy  co nducte by  Zah aria  et   al .,  the  auth or pro pos ne Stra ggle Detect ion  that  ta kes  int a ccount   bo t the  pro gress  sco re   an el apsed   ti m with  the  obj ec ti ve  of   im pr ov ing   the  pro gre ss  sco re  strat e gy  [ 15 ].    The  aut hors  de te rm ine  that  the  strat egy  do es   no ha ve  the  c apacit of   dete rm ining   how  f ast   ta sk   ru ns  a m ong  diff e re nt  ta sk sta rting   at   different  ti m es  hen ce  the  nee f or   im pr ov em ent.  Dea a nd   G hem awat  hav a dopte te chn iq ue  ca ll ed  Sp ec ulati ve  Execu ti on   in   wh ic they   la un c c op ie of  the  strag gler  on   al te r native  node s   with  the   ai m   of   im pr ov i ng  pe rfor m ance  [ 16 ] G oogle  ac kn ow le dg e that  Sp ec ulati ve  E xe cution  im pr oves  job  execu ti on  by  44  per ce nt.  Howev e r,   t his  te c hn i qu e   can  re duce  the  overall   thr oughput  due  to  the  duplic at ion   of   ta sk s.  T her e for e,  so m Had oop  a dm inist rat or pr e fer   no to  us the  S pe culat ive  Exec ut ion   opti on  [ 17 ,   18 ].  Yanfei  et   al   propose a no t he te ch nique  f or  Strag gler  ha ndli ng   w hich  c on sist of   e nding   t he  de la ye ta sk s   and   rea ssig ning  them   to  ano t her   no de  with out  strag glers,   howe ve r,   G uo,  Ra o,   Jia ng,  an Zh ou   disag re es  with  t h i s   t e c h n i q u e   a n d   a r g u e   t h a t   i t   r e s u l t s   i n   w a s t a g e   o f   r e s o u r c e s   a n d   t h e r e f o r e   i n c r e a s e s   e n e r gy   c o n s um p t i o n   [ 19 ].     In   sim il ar  st ud y,  Z hou,  Li,   Yang,   Jia a nd  Li  pro pose  te chn iq ue  known  as  “B igR oo ts”   wh ic involves  inc or porati ng  both  syst e m   featur es  and   fr am ewo r f or   t he  an al ysi of   root  causes  of   stra gg le rs   especial ly   in  big   data  syst e m [ 20 ] The  au thors  est ablish   that  “B igRoot s”  is  eff ect ive  wh e it   co m es  to   identify in th “r oo ca us e s”  of  stra ggle rs  wh ic ca sig nificantl help   in  opti m iz ing   pe rform ance .   An   e xam inati on   by  P ha at te m pted  to  com e   up   with  “e nergy  eff ic ie nt  st r agg l e m i ti gatio n”  te c hn i que  for  bi data  ap plica ti on es pecial ly   i the  cl ou en vir on m ent  [ 21 - 23 ] T he  f ram e work   em plo ye by  the  a utho ta ke s   into  acco unt  how  hete roge neity   of   res ources  a ff ect   the  pe rfor m anc and   e nergy  con s um ption  of   bi g   data ap plica ti ons.   I a no t her   st ud ie s   by  Ha rlap   et   al .,   Kim ,   W. ,   the  a utho rs  s ought  to  so l ve   the  strag gler  pro blem   fo r   par al le ML  [ 24,  25 ] .   T he  auth or s   c om bi ned  m or flexible  sync h ronizat ion  m od el ”  to gethe with   t h e   e x p e r i m e n t s   i n v o l v i n g   r e a l   s t r a g g l e r   b e h a v i o r s   a n d   s y n t h e t i c   s t r a g g l e r   b e h a v i o r s   t o   c o m e   u p   w i t h   n e a r - i d e a l   run  ti m es  acro ss  al the  strag gler  patte rn t he te ste d.   Sim i la rly Yadwa dkar  et   al cam up   with  fr a m ewo r cal le W ra ng le r”  w hich  c ould  predict   w he stra gg le rs  w ere  goin to  oc cur   a nd  ai i m aking   sc he du li ng   decisi ons  [ 26] .   The  form ulatio ns   em plo ye by  the  auth or captu red   the  s ha red   str uctu re  in  their  data  so   that  i t   cou l im pr ove  the g e ne rali zat i on p e rfo rm ance of th ei r  d at a .       3.   METHO DOL OGY   As  note ea rlie r,   we  est im ate  the  tim re maining   for  eac ta sk   ba sed  on  the  pro cess  s cor der i ved  from   Had oo p.  In  pract ic e,  thi he ur ist ic   wor ks   well Howe ver,  we  wan t   to  po i nt  ou t ha there  are  i nci den ce wh e it   can  ba ckf ire Wh e this  ha pp e ns,  th heur ist ic   can   prov i de  inc orr ect   est i m a te a nd   giv res ults  that   ta sk   la unche la te fi nish es   earli er.  T de m on strat the  delay we  ass um that  the  progress  of   ta s gr ow s   by  fi ve  pe rce nt  duri ng   t he  firs ph a se.  We  as su m that  during  this  first  phase,  the   to ta s cor e   is  fifty   pe rcent   and   t hat  the  rat reduces b one  pe rce nt  in  the  sec ond  ph as e.  I the  fi rst  phase,  it   is  ex pe ct ed  that  the  ta sk   will   ta ke  te sec onds   a nd  fifty   se conds   in  t he  se cond   phase   to  pro du ce   t otal  of  si xty  seco nds.   Wh e t wo  cop ie s   of  th sam ta s a re  la un c he at   the  sam tim e,  the  first  ta sk   is   de note by   T1,  the   seco nd  is  no te by  T2  a nd   the  fi rst  ta sk  st arts  at   ti m wh il t he  nex t   sta rts  after   te seco nd s T he   pro gr e ss  rate  is  check e after   t wen ty   seco nd w her e by  twenty   seco nd s it   is  exp ec te that  T1  will   hav fi nish e the  first  phase   and   will   be  th rou gh   fifth  of  the  s econd  phase T her e fore,  it   will   hav pro gr e ss  scor of   sixt per cent.  Its  r at of   pro gr es s   wil l   be  60 %/ 20s=3 %/ s.  O t he  oth er  ha nd,  T w il j us be  th rou gh  with   th firs and  it sco re  will   be  50%.  Its  rat e   will therefo re,   be  50%/ 10 s= 5%/s.  T he  est im at ed  tim re m ai nin f or   T will   be  (10 0% - 60% )/( 3%/s )=13. 3s .   Fo T 2,   t he  est i m at ed  tim e   lef will   be  (10 0% - 50% )/( 5%/s ) =1 0s T he refo re,  the  heurist ic   will   illustrate  that  T1  will   ta ke  a   longer   tim t r un  c om par ed  to  T2 Howe ver,  in  reali ty T2  will   finis seco nd  com par ed  t T1.   W e   al so  de te rm ined  the   cr it eria  that  we   c ou l us t i de ntify  stra gg le rs We  to ok  the   f inish  ti m fo r   e ver y   ta sk  to  b e  r e pr e sented  b ( 1 ) .       EF   =t k   1 PS ( t a sk )   PS ( t a sk ) (t k - t 0 )   (1)     In  this   insta nce E F   re pr ese nts   the   est im at ed  finish  ti m e.  PS   is  us e to   re pr esent  t he   pro gr ess  sc or e   for  a s k   wh erea s   t0  is  sta rting   tim wh il tk  is  the  tim est a m reco rd i ng   for  PS ( t ask ) Our  pro pose LATE  m et ho dolo gy  ta kes  i nto   acc ount  the  sco pe  of  data  and   t he  s peed  of   processi ng  data.  By   ta king  thes e   into  acco unt,  we  can  deter m ine  the  patte rn   of   stra ggle r   detect ion   a nd  correl at this  with  the  at tribu te of   syst e m   no rm al ly   hypo thesi zed  to  giv the m   the  ability  t cause  stra gg l ers.   S om e   of   the  at tribu te in cl ud e   resou rce  util iz at ion   (m e m or y,   CPU,  dis k),  hard war fa ults,  unha nd le r equ e sts,  am on oth e rs.   Wh e w e       Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 5 Oct ob e r   2020     49 10   -   49 17   4914   com bin these   runtim featur es  with  dy na m ic   info rm at i on,  we  can   c om up   wit b et te pre dicti on  an le arn in m od el that  can  disc r i m inate   stragg le rs  prom ptly   a nd   l ow e the  num ber   of   fail ures  occ urrin due  to   la te  tim ing .       4.   RESU LT S  AND DI SCUS S ION   This  researc has  i den ti fie the  nee f or  im pr ov in t he  eff ect ive ness   of  Ma pRe duce  processes   t facil it at costs  re du ct io an m axi m u m   utilizat ion   of  res ources Pe rfo rm ance  im pr ove m ent  can  be   a chieve by  el i m inati ng   ineff ic ie ncies   broug ht  ab out  by  the  existe nce  of  stra ggle rs.   Stra gg le r hav t he  effe ct   of   resu lt in in  po or   us e co de  a nd   unev en  a gg reg at io of   w orkl oad s P oor  us er  c ode  is  th pro du ct   of   l oopi ng  conditi ons  tha are  desi gn e ine ff ect ively   and   une ven   aggre gation  of   wor klo a ds   re su lt from   extrem e   co - al locat io of  w orkl oad s   due  to  i neffici ent  sche duli ng.   In  the  case  of  Ma pRe du ce   ta sk wit m assive  nu m ber   of  wri te   and  rea queries,   it   is  c omm on   for  file   re qu e sts  to   be  overloa de there by  le a din t ineff ic ie ncy  in   handlin the  r equ e sts.  It  is  nota ble  that  on c the  thre shold   of   t he  m ast er   node  is  s urpa ssed ,   strag glers  set   in  w hich   im pli es  that  the  wait ing   queue  f or   req ue sts  becom es  lon g.   I the  requests  co ntinu e   increasin g,  the the   m ast er  no de   bec om es  overl oad e t hereby  f ur t her  slo wing  dow the   ha nd li ng  proc ess  of   the  re qu e sts.  This  e xp e rim e nt  f ocused  on   inv est igati ng   how  t he  occ u r ren ce  of  stra ggle rs  is  a ff ect ed  by  con te ntion   of  resou rces.  An   ob s er vation  of   the  occ urrenc of   st ragglers   t hat  took  pla ce  ov e per i od   of   20 d ay s  yi el ded  the  r es ults  presented  in  F ig ure  3.             Figure  3 .   G raphical  presentat i on   of t he  fi nd i ng s       In   t he  analy sis m il li on of   ta sk processe in  five  hund re ser ve rs  in  Cl oud  Datace nte r   [ 27 ]   wer e   inv est igate d.   T he  incl us io c r it eria i nvolv e d:   a.   Ser ver s  wh os ta sk had DoS - Inde x values  great er tha n o e qu al  t o 10   b.   Ser ver s  wh os util iz at ion  of C PU   was g reater  tha n o e qual  to 80%   c.   Lat ency  from   file   processin gr eat er  tha 400m wh ic translat es  to  slow   handlin of  wr it an re ad   requests   Fr om   the  in ve sti gation,  it   ca m to  our   at te ntion   t hat  42%  of  stra gg l ers  a re  broug ht  ab out  by   ov e rloa ding  of  disk wh il 59%  of  st ra ggle rs  exist  un de high  se rv e CPU  co ndit io ns T he  fi nd i ngs  al so  rev eal e that  slow  ha ndli ng  of  re quest was  res pons ib le   for  th oc currence   of  34. 3%  of  stra ggle rs .     Fr om   the  find i ng s it   is  eviden that  the  existe nce  of   stra gg le rs  is  sign ific antly   caused   by   hig util iz at ion   of  resou rces.  It  was  al s obse rv e that  strag glers  ca be  c ause by  oth e fact or su c as  the  c ondit ion of     the n et wor k.       5.   RECOM ME NDATIO N/P ROP OSED  S OLUTIO N   In   t his  pa per, w pro pose  c om bin ed  strat e gy  cal le CO MB IN A TOR Y   LATE - MAC HINE  that  te st s   the  CPU   m achine.  T he  CP m achine  is  te s te to  determ i ne  it vulne ra bi li t to  strag gl ers.   T ac hiev this,    the  CPU  a nd   t he  RAM  are  te ste to  determ i ne  m achines  th at   hav CP us a ge  le ss  tha 85.  Th os fou nd   t m eet   this  con di ti on   are  dr oppe an the  on e that  exceed  85  are  sel ect ed  and   placed  i perform ance  char t   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Earlier st age f or  str aggler  de te ct ion  an d h andlin g usi ng c ombin e CP U t est  …   ( Anwa r   H.  K atra wi )   4915   sta rting   with  t ho s that  ha ve   the  hi gh est   pe rfor m ance.  I f   for  any  reas on  the  CP U/Me m or is  lower  than   a   certai thre s ho l d,   t he  jobs  will   autom at icall be  re direct ed  t a no t her  m achine  with  hi gh e CP U/ Mem or perform ance.  This  sta ge  is   run  once  a nd  helps   in   creati ng  li st  of  pe rfor m ances  f or  al the  m achines .      Af te r   this  ste p,  Stra ggle De te ct ion   a nd  ha nd li ng  a re  i niti at ed  at   the  sa m tim us ing  LAT al go rithm .     The  al go rithm   has  se veral   be nef it that  m ake  it   su it able   for  heter og e ne ous  jo bs   sin c it   re - exec ute only    the  slowe st  ta sk s.  T he  pr im ary  adv a ntage  of  the  pro posed  m et ho dolo gy  is  the  increa sin pro ba bili ty   t detect   the  strag gler  m achines  a nd   str agg le ta sk wi th  the  sam e   alg ori thm   in  earl ie sta ges.   O ur  LATE  sch ed ul er  is   desig ne s uc that  it   incl udes  al the  feat ur es   ne ede f or  it   to  f un ct i on  well   i a   r eal ist ic   env ir onm ent.     The  m ajo i ns i gh be h in the  LATE  al gorith m   is  that  ta sk belie ved  to  fini sh   la st  can  be  e xecu te at   any  tim e   in  the  fu t ur e   be cause  t his  is  t he  best  way  t hro ugh  w hich  t he  r esp onse  ti m can  be   im p rove d.   T he  fr a m ewo r of the  pro pose c om bin at or Lat e - Ma ch ine   strat egy is il lus tra te in  F ig ur e 4 .           Figure  4 .   Pro pose c om bin at or l at e - m achine  fr am ewo r k       5.1 .      Li mi t at i on and  fu t ur e researc   Our  obser vatio did   not  f ocus  on  the   co ndit ion of  the   m e m or capaci ty   as  well   as  ove rlap ping  of  conditi ons.  T he refor e , th is  w arr a nts the  n ee d for  furthe in vestigat io ns       6.   CONCL US I O N   In   this  pa per we  pro pose the  Com bin at ory   Lat e - Ma chin (CLM)  strat egy  to  ide ntify  (in  earli e r   sta ges)   the  str agg le for  bot node an ta sk s,  an the   op ti m a no de   fo re - e xecu t ion   of  slo ta sk s .     The  overall   e xecu ti on  ti m e   is  im pr ov e sign ific a ntly   usi ng  this  te ch nique  c om par ed  to   tra diti on al   jo sche du le r s.  I the  fu t ur e t he   CLM   strat egy  will   be  te ste with  Ha doop   to  evaluate  th eff ic ie ncy  of   this   te chn iq ue.   The   find i ngs  pro vi de  ne insi gh t into  early   str agg le detect io n.   Howe ver t he   current  strat e gy  has   it sh ort com ing a nd  the re  is   need  f or  e xhau sti ve  a naly ti cs  to  es ta blish   the  relat ion s hi betwee st ra gg le rs  and  the  c on te nt ion   of   res ourc es.   T he  propos ed  al gorithm   cou l be  use f or   resea rch   a well   as  in  the   industry   to im pr ov e  the  tim e and  c os t f or b i g data p rocessi ng.       ACKN OWLE DGME NT   The  a uthors w ou l li ke  to  tha nk   al l t he  resea rch   pa rtic ipant s f or thei ti m e , effort, a nd  c ontrib utio to   the r esea rc h       Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 5 Oct ob e r   2020     49 10   -   49 17   4916   REFERE NCE   [1]   E.  A.   Moham me d,   et   al. Appl ic a ti ons  of  th MapReduc e   pro gra m m ing  fra m ework  to  clini ca l   big  data  ana l y si s:  cur ren t   l andsc ap and   futur e tre n ds,   B io   Data   M ini ng ,   vol. 7 ,   no .   1,   pp.   22 - 44,   20 14.     [2]   S.  Valvå g,   et   a l. Cogset:   high  per form anc MapReduc eng ine ,   Con currenc and  Computati on:  Pract i ce   a nd   Ex peri enc e vo l.  25,   no .   1 ,   pp .   2 - 23,   2012   [3]   Sum al at ha,   S. ,   a nd   Subram an y a m ,   R.   B.   V.  D istri bute m ini n of  high  uti li t ti m int erv a seque nt ia pa tt e r ns   using mapre duc e   appr oa ch,”   Ex p ert  Syst ems wi th   Appl ic a ti ons vo l.   141 ,   112967 ,   Mar.   2020 .   [4]   Medda h,   I.   H.,   and   Bel kadi,  K.   Para ll el   Distri bute Patt ern Mining  U sing  Hadoop  MapReduc Fram ework,   Inte rnationa l   Jo urnal  of  Gr id  an High  P erformance   Comput ing vol .   9 ,   no .   2 ,   pp .   70 - 85 ,   2017 .   [5]   S.  Khez and  N.  J.  Navimipour,   MapReduc and   Its  Applic at ions ,   Chal l enge s,  an Archi te c ture a   Com pre hensive  Revi ew and   Dir e ct ions f or   Future   Resea r ch ,   Journal  of   Gr id  Computing ,   vol .   15 ,   no.   3 ,   pp .   295 - 3 21,   2017 .     [6]   Pram ee la   De ' v i.  Chil la kuru ,   T.   K um ana n,   CH.   Sa rad Dev i,  Conte nt  b ase Re tri e val   Man age m ent S y stems   in  W eb   Engi ne eri ng,   In te rnational   Jour nal  of  R ecent   Te chnol ogy  and  E ngine ering  ( IJRT E) vol.   8,   no .   2S11,  p p.   81 - 93,   Sep .   2019   [7]   A.  Y.  Pigul,   Com par at ive   St ud y   Para ll e Join  Algor it hm f or  MapReduc envi ronm ent ,   P roce edi ngs  of  t he  Instit ute f or S yst em  Program ming  of RA S ,   vol .   23 ,   pp .   285 - 306 ,   2 012.     [8]   I.   Hashem ,   et al. ,   MapReduc e   sc hedul ing   al gor ithm s: a   rev ie w,   The  Journal  o S uperc omputing ,   2018.     [9]   K.  M it suzuka e al. Prox y   R e spons es  b y   FP GA - Based  Sw it ch   for  MapRedu ce  Straggl e rs ,   IEI CE  Tr ansacti ons   on  Information  a nd  Syste ms ,   vol.  101,   no .   9 ,   pp .   2 258 - 2268,   2018 .     [10]   J.  Rogoff,   Strag gle rs,   Sewan ee  Re v ie w ,   vo l .   124 ,   no .   3 ,   pp .   397 - 397,   2016 .     [11]   M.  F.  Aktas,   et  al . Straggler  Miti gation  b y   Delay ed  Re la un ch  of  Ta sks ,   A CM  SIGMETRICS  Pe rform ance   Ev aluation  Revi ew ,   vo l. 45, no.  2,   pp .   248 - 248 ,   2018.     [12]   E.   Bortn ikov,  et  al. Predicting   execut ion  bo tt l ene cks  in   m ap - re duce  cl ust ers ,”   Proceedi ngs  of   the   4 th  USENI X   con fe ren ce on  H ot  Topics  in  Clo ud  C omputing ,   p p.   1 - 18 ,   2012 .     [13]   A.  K.  Abasi ,   e t   al.,   Li nk - base m ult i - ver se  o pti m iz er   for  t ext  documents  c luste ring ,”   Appl i ed   Soft   Comput ing ,     vol.   87 2019 .     [14]   X.  Ouy ang,   e t   al . Straggl e Dete ction  in  Para ll el   Com puti ng  S y stems   through  Dy n amic  Thre shol d   Cal culat ion,   20 16  IEE 30th  I nte rnational   Co nfe renc on  Ad vanc ed  In formation  Net working  and  Appl ic a ti on s   ( AINA ) pp.   414 - 421,   2016 .   [15]   J.  Xie ,   et   al . ,   Im proving  MapReduc p e rform anc thro ugh  dat p lace m ent   i hetero gene ous  Hadoo cl usters ,   2010   I EE E   Inte rnat ion al  Symposium  o Parallel  &   Di stribute Proce s sing,  Workshops   and  Phd   Forum  ( IPDP SW) pp.   1 - 9 2010 .   [16]   J.  Dea and  S.   Ghem awa t,   Map   Reduc e si m pli fie data  p roc essing  on  large  cl uste rs ,   C omm unic ati ons  of   the   ACM ,   vol. 5 1,   no .   1 ,   p .   107 ,   2008.     [17]   H.  W u,   et   al . Heuri stic   Specul a ti ve  Ex ec u tion  Strat eg y   in  Hete rog en eous  Distribut ed  Env i ronm ent s ,   2014   Six th   Inte rnat ion al  Symposium o Parallel Archi t ec tures,   A lgorit h ms   and  Program ming pp .   268 - 2 73,   2014 .     [18]   A.  K.  Abasi,   e t   al . Te xt  Feat ur Selecti on   Te chn ique   bas ed  on  Bina r y   Multi - Verse  Op ti m iz er  for  Te x Cluste ring ,   201 IEEE  Jordan  Inte rnat ional   Joi nt   Confe ren c on  Elec tri cal  Engi n ee ring  a nd  Informatio n   Technol ogy   ( JEEIT) ,   Amm an,   Jordan,   pp .   1 - 6 2 019.   [19]   Y.  Guo,  et   al. FlexSlot Moving  Hadoop  Into  the   Clou with   Flexi ble   Slot  Mana gement ,   S C14:  Inte rnatio nal   Confe renc for   High  Pe rform an ce   Comput ing, N et working ,   Stora ge  and  Analysis ,   2014.   [20]   H.  Zhou,  et  a l . BigRoot s:   An  Eff ective  Approac for  Root - Cause  An aly s is  o Strag gle rs  in  B ig  D at S y stem ,   IE EE   Ac c ess ,   vol .   6 ,   p p.   41966 - 41977 ,   2018.     [21]   T.   Phan,   et   a l. A   New  Frame work  for  Eva lua ti ng  Straggler   De te ct ion  Me c hani sm in  MapReduc e ,   ACM  Tr ansacti ons on Modeli ng   and  P erfo rm ance   E valuation  of   Compu ti ng  S yste ms ,   vo l .   4 ,   no .   3 ,   pp .   1 - 23,   2019 .     [22]   Chaowe Yang ,   Qun y ing  Huang ,   Zhe nlon L i,   Kai  Liu  &   Fei  Hu,  Big  Data  and  c loud  comp uti ng:  innova t io opportuni ties  an cha l le ng es,   I nte rnational   Jo urnal  of  Digit a l   Earth vo l.   10 ,   no 1,   pp.   13 - 53,   2017.   DO I:   10. 1080/175389 47. 2016. 123977 1   [23]   L.   Gre eshm a,   Prade ep ini   Ger a Big  Data  Anal y t ic with  Apa che   Hadoop  MapRe duce   Fram ework ,   Indi an  Journa of  Sc ie nc and   Technol og y ,   Vol  9,   no .   26 ,   Jul y   2 016 .   [24]   A.  Ha rla p ,   et   a l. ,   Address ing  the  straggler  proble m   for  i terati v conv erg e nt  par al l el   ML ,   Proc ee d ings  o f   the   S event AC Symposium o Cloud  Comput ing  -   SoCC   '16 pp.   9 8 - 111 ,   201 6.     [25]   Kim ,   W . ,   Kim ,   Y.,   and   Shim ,   K. ,   Para l le l   computat ion  of   k - nea r est  ne ig hbor  joi ns  usin MapRe - duc e,”   In  Proceedi ngs  of  th I EE E   Int e rnational   Conf ere nce on Bi Da t a ,   pp .   696 - 705 ,   2016 .   [ 2 6 ]   N.  Yadwadka r ,   e a l. Multi - Ta s Learni ng   for  S tra ggl er  Avoidin Predictive Job  Schedul ing ,   Jo urnal  of  Ma chi n Learning  Re sear ch ,   vo l. 17, pp.  1 - 37 ,   2016 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p : / / j m l r . o r g / p a p e r s / v o l u m e 1 7 / 1 5 - 1 4 9 / 1 5 - 1 4 9 . p d f .   [27]   Gigas  the cloud  computing  comp an y .   [Onl ine ] .   A vai l abl e :   ht tps:/ / giga s.c om /e n /c lo ud - dat a ce nt er .                 Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Earlier st age f or  str aggler  de te ct ion  an d h andlin g usi ng c ombin e CP U t est  …   ( Anwa r   H.  K atra wi )   4917   BIOGR AP HI ES OF  A UTH ORS        An w ar   H.   Kat ra w i   re ce iv ed   B.   Sc.   In   comp ute r   sci ence   fro m   al   Mus ta nsiri y a   univ ersity Ira q   and   M.Sc .   in   the   comput er  informati on  s y stem   from   Ara Aca dem y   for   Mana gement,   Banki ng  and  Fi nanc i al   Scie n ce s   of  Jordan.   He  i cur ren tly   PhD   Candi dat in  the   school  of  Com pute Scie nce s   (NA V6)   at   Univer siti   Sains   Malay si a.   His   rese arc h   in te r est s   inc lude   Big   dat a ,   d at a   ware h ouse,   m ac h ine  L ea rning     and    data  an aly t ic s .         Ros ni   Ab d ullah   is  profe ss or  in  par al l el   comput ing  and  one  of  the   nat ion al   pion ee rs  in  the   said   dom ai n.   She  w as  appoi nte Dea of  the   School  of  Com pute Scie nce at   U nive rsiti   Sains   Malay s ia   (US M)  in  June  2004,   aft er  h avi ng  ser ved  as  it Deput y   Dea (R ese ar c h)  since   1999.   She  is  al so  the   Hea of  the   Par al l el   and  Distrib ute Proce ss ing  Resea rch   Group   at   the   Schoo since   it s in ce p ti o in  1994 .             Mohamme F.R.  An bar   rec ei ved  his  bac helor  of  Com pute Sy st em  Engi nee ri ng  from     Al - Azha r   Univ er sit y ,   Pal esti ne  and  M.Sc.   in  I nform at ion  Tec hnolog y   f rom   Univer siti   Utar Malay s ia,  Mal a y sia   (UU M).  He  obta in ed  h is  PhD .  in  Advanc ed  In te rn et  Secur ity   and  Monitori ng from   Univer sit y   Sa in s   Malay sia  (US M).  He  is  cur r en tly   sen ior  l ec tu rer   at  Nati on al   Advanc ed IPv6  Cent re   (NA v6),   Univer siti   Sains   Malay s ia.           Ammar  Kamal  Ab asi   rec ei v ed   B.   Sc.   in  computer   informa ti on   s y stem  from   Jordan   univers ity   of  scie nc and  technolog y ,   and  M.Sc.   in  the   int e rna ti on al   busine ss   from  the   unive rsit y   of  Jordan .     He  is  cur ren tly  PhD   Candi dat in  th scho ol  of  Com pute Scie nce s   a Univer siti   Sa ins   Malay s ia.  His  rese arc int er ests  inc lude   evol ut i onar y   al gor it hm s,  nat ure - inspired  computat ion ,   and  th ei r   applic a ti ons t o   opti m iza ti on  prob le m s.       Evaluation Warning : The document was created with Spire.PDF for Python.