Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   12 ,  No.   3 Decem ber   201 8 , p p.   11 32 ~ 11 42   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v1 2 .i 3 .pp 11 32 - 11 42          1132       Journ al h om e page http: // ia es core.c om/j ourn als/i ndex. ph p/ij eecs   An Accu rate and  Effici ent  Schedul er for H adoop M apReduce  Fra m ework       D C  Vinutha 1 G.T. R aj u 2   1 Depa rtment of inform at ion  sci en ce   and engi ne ering,  Vid y av ard ha ka   co ll eg of   en gine er ing, m y sur u,   Indi a   1, 2 Depa rtment   of   Com pute sci en ce   and e ngineeri ng, R. N.S.I . T ,   B e ngal uru, Indi a       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Dec   28 , 201 7   Re vised J an  9 , 201 8   Accepte Aug   2 1 , 201 8       MapReduc e   is   th pr efe rr ed   computing  fra m ewor used   in   l arg e   d at a   an aly sis   and  pro ce ss ing a ppli c at ions.   Had oop  is  a   widely   used  MapRedu c fr amework  ac ross   diffe r ent  comm unity   du to  it open   source   n at ure .   C loud  servi c e   provide r   such   as   Microsoft   az ur e   HD Insight  o f fer resourc es  to   its   customer  and  onl y   pa y fo the ir  use .   How eve r,   the   cri t ical   cha l le nges  of  cloud  service   provide is  to   m e et   user   t ask  Servi ce   le v el   agr e eme nt  (SLA)  r equi re m ent   (ta sk   dea dl ine ).  Curr e ntly ,   th e   onus  is   on  c li en to   compute   the  amount  of   resourc e   req uire d   to   run  a   job on   c loud.  T his  work  pre sen t   a   novel  m ake sp an m odel  for  Hadoop  MapR educ e   fr amework  name l y   O HM (Optimiz ed  H adoop   MapReduc e)   to   proc ess  data  in  real - ti m an uti l iz e   s y st e m   resourc eff icientl y .   The  OH MR  pre sent  a cc ura te   m odel   to  compute  job  m a kespa ti m e   and  a lso  pre sent   m odel  to  prov ision  the  amount   of  cl oud   resour ce   r equi re d   to  m eet   t ask  d e adl in e.  Th e   OH MR  first   bui ld   pro file   for   each  job   and   computes  m akes pan  ti m of  jo using  gre ed appr oa ch.   Furt her m ore ,   to   provision  amount  of  resourc req uire d   to  m e et   t ask  dea d li n La g ran g e   Multi pliers  t ec h nique  is  appl i ed .   Expe rimen ar conduc t ed   on   Microsoft   Azure   HD Insight  cl oud   pl at form   conside ring   di ffe ren t   app li c at ion   such  as   t ex t   computing  and  b ioi nform at i cs  ap pli c at ion   to   ev a l uat e   per form an c of   OH MR  of  over   exi sting   m odel   show sig nifi c ant  per form anc e   improvem e nt  in  te rm of  computation   ti m e.  Expe r i m ent   are  cond uct ed   on  Micr osoft  Azure   HD Insight  cl ou d.   Over al l   good   cor re lation  is  rep orte d   be tween  pra c ti c al  m ake span  values   and   the or et i ca l   m ake span  values .   Ke yw or d s :   Bi data   Bi oin f or m at ic s   Cl oud  c om pu ti ng   Hado op   Ma pRed uce   Parall el  co m puti ng   Copyright   ©   201 Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e .     Al l   rights re serv ed .   Corres pond in Aut h or :   C   Vinutha ,   Dep a rtm ent o Inform at ion  Sc ie nce &   en gin e erin g ,   Vidyava r dh a ka   colle ge o e ngineerin g, m ysu ru, In dia ,     Em a il vin ud c @ gm ai l.co m       1.   INTROD U CTION     The  Ma ny  org anizat ion s   s uc as   in dustria l,  gove r nm ent  and  ed ucati on  i ns ti tuti on  colle ct m assive   a m ou nt  of  dat from   var io us  source suc as  sen sor  network,  s ocial   ne twork bi oinf or m at ic and   World     W i de  We et c.  f or   var i ous  a pp li cat io us e s Per form ing   s c al able  an an al ysi on   thes e   unstruct ur e data  is  m os desired   acro s m any  or ga nizat ion.  T he  sta te - of - a rt   m od el   fin ds   diff ic ulti es  in  perform ing   re al - tim e   analy sis  on  c onti nuous/st rea m   data.  Fo r   pe rfor m ing   re al - tim analy sis  for  data  inten siv ap plica ti on s ,   Goo gle   hav e   c om up  with   pa rall el   pro gr am m ing   m od el   cal le Ma pRed uce  fra m ewo r [ 1].  It  is  highly   sc al able,     fau lt   tole ran and  pa rall el iz exec ution  in  distrib uted  nat ur e   acr os cl ust er  of  c om puti ng   nodes H adoo Ma pRed uce  f r a m ewo r [ 2]  ha bee wi dely   a dopted  ac r oss  var i ou orga ni zat ion   w hen   c om par ed  with  counter   par ts  Phoe nix   [ 3], Mars  [4] an d Dr ya [ 5]  due to  op e n so ur c e n at ure  [6 ] .       The  Ha doop  M apRed uce  m odel   pr e dom inantly   con sist   of  f ol lowing  ph a ses Setu p,  Ma p,  S huff le ,   S or and   Re duce  w hich  is  s ho w in  F ig ur 1.   T he  Ha doop  fr a m ewo r ks   c onsist of   m ast er  node  a nd   cl us te of   com pu ti ng   node s.  Jobs  s ubm i t te to  Hado op   are  f ur t her   distrib uted  int M ap  an Re du ce   ta sk s.  In   set up  ph a se,   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       An  Acc urate   and Ef fi ci ent S c heduler f or   Hadoo M apRed uc e Framew or ( D. C.Vi nuth a )   1133   input  data  of  a   j ob  to  be  proc essed  ( residi ng  gen e rall on   t he  Ha d oop  Di stribu te Fil Syst e m (H DFS))  i s   log ic al ly   pa rtit i on e into   ho m og e nous  vo l ume cal le ch unks  f or  the   Ma worker   no des.  Hado op  div ide eac Ma pRed uce  jo i t set   of  t asks   we re   eac c hunk   is  pro cessed   by   Ma w orke r.  Ma ph a se  ta kes  i nput   as  key/ valu pair   as  ( 1 , 1 an ge ne rate  li st  of   ( 2 , 2 interm ediat key/ value  pair  a ou t put.  S huf fle  phase  beg i ns   with  c om ple ti on   of  Ma phase  that  c ollec ts  the  interm ediat key/ value  pair  from   al the  Ma ta sk A   so rt  operati on  is  perform ed  on  the  i nterm edia te   key/ value  pair  of   m ap  ph ase.  F or   sim plici ty   so rt  an s huff le   ph a ses  a re   cu m ula ti vely   consi der e i t he   sh uffle   ph ase   Re duce   phase   pr ocesses   s or t ed  i nterm ediate  dat a   base d on us e r defi ned f un ct i on. O utput o f re du ce  phase  is s tore d/wr it te n t o HDFS.             Figure  1 .   Ha do op MapRe du ce  Com pu ta ti on   Mod el           The   Az ure  H D In si gh t   Cl oud  a id  i ac hievi ng  scal able  perfor m ance  i.e.   us er   can   set   up  a nd   r un  Hado op   app li cat io on  la rg e - scal cl us te r.   Az ur H DInsig ht  Cl ou al lo us e to   config ure  the  a m ou nt  of  res ourc e   (v irt ual  c om puti ng   node )   re quire t pe rform   certai ta sk .   H oweve r,  at   pr ese nt  Ha doop  job  with   dea dlin e   requirem ent  is  no s upporte i H DInsi gh cl oud.   The  onus   is  on   t he  cl oud  us er/cl ie nt  to  com pu te   the  a m ou nt  of  re source   re qu i rem ent  to  m eet   ta sk   dea dline   w hich   is   a   chall en ging   ta sk.  The refo re,   Ha doop   m akes pan  m od el li ng   ha s b ecom an   im p or ta nt  crit eria   in  c om pu ti ng  a m ou nt  of r es ources r e qu ire to  m eet   ta sk  d e adlin e .   It  s hould  be   no te t hat  m akes pan  m od el ing  is   c halle ng i ng  ta s k   sin ce  Ha doop   j obs   in vo l ves   m ulti ple   processi ng   sta ge   w hich  c om posed  of  three   co re  sta ge   (i.e.   M ap,   Shuffle   a nd  Re du c sta ge ).  More over,   the  first   wav e   of  s huff l sta ge  is  ge ne rall processe in  par al le fas hion  with  Ma sta ge  (i.e.  ove rlap ping  ph ase an rest  of  the   wa ve of   the   S huff l sta ge   are   pro cessed   post  c om ple ti on   of  M ap  sta ge  (i.e.   non - ov e rlap ping   phase ).     To  util iz the  cl oud  res ource ef fici ently num ero us  m akesp a m od el f or  Ha doop   is  presente [7 ] ,   a nd  [ 8].  Howe ver,  thes appr oach e a re  not  ac cu rate  and   i nc ur high   com pu ti ng   ov erh ea d/tim e.  Since  these  a ppr oach e did   not co ns i de r ov e rlap ping a nd no n - overlap ping  ph a ses  of  the S huff le   sta ge.       Re centl y,  num ber   of   sop his ti cat ed  Hadoop  pe rfor m ance   m od el are  propose [ 9 - 14] .   Starfish  [ 9]  colle ct a   r unni ng  Ha do op  j ob  pro file   at   f ine  gr a nula rity   with   detai le inf or m at ion   f or  job  est im ation   a nd   op ti m iz ation On   t he  to of   Starfis h,   Ela sti ci ser  [ 10 ]   is  pr opos e f or  res ource  prov isi onin in  te rm of  virt ual   m achines.   H oweve r,  c ollec tin the   detai le exec utio pro file   of  a   Hado op  j ob   inc ur s   a   hi gh  ov e r head  w hic le ads  to   an   ove restim at ed  job  execu ti on   tim e I [11],  [12],  and  [ 13]   co ns i der s   both   the   overla pp i ng  an non - ov e rlap ping   sta ges   an us e si m ple  li near   re gressi on   f or j ob  estim ation .   T his  m od el   al so  es tim a te the  am ount  of   resou rces  f or  jo bs   with  dea dline  re quirem ents.  CR ESP  [ 14 ]   est im a te j ob   e xec ution   a nd   s uppo rts  res ourc e   pro vision i ng  in   te rm of   m ap  and  re duce  slot s.  H oweve r,  bo th  the H P   m od el   and  CR ESP  ignore   the  im pact  of   the  nu m ber  of  redu ce   ta sk s   on  job  perform a nce.   T he  HP  m od el   is  restri ct ed  to   a   c on st ant  nu m ber  of  reduc e   ta sk s,  wh e reas   CR ESP  only   consi ders  sin gle  wa ve  of   t he   reduce  phase I CR ESP the  num ber   of   reduce   ta sk ha to b e equ al   t num ber   of  re duce  sl ots.  It  is u nr eal ist ic   to  config ure  ei ther  t he  sa m nu m ber   of r ed uce  ta sk s   or   the   sin gle  wa ve  of  t he   re duce   phase   f or  al l   the   j ob s.  It  ca be  a r gued   t hat  in   pra ct ic e,  the   nu m ber  of   reduce  ta s ks   va ries  de pe nd i ng  on  th siz of   t he  in pu da ta set the  ty pe  of   Ha doop  a pp li cat io ( e. g.  CPU  intensive or  di sk  I/O   i ntensi ve a nd   us e r   re quirem ents.  F ur t her m or e,   f or  t he   re duce   phase,   usi ng  m ulti ple  wav e Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   12 , N o.   3 Dece m ber  2 01 8   :   11 32     11 42   1134   gen e rates  bette perform ance  than   us i ng  si ng le   wa ve  e sp e ci al ly   wh en   Ha doop  processes   la r ge  dataset   on   a   sm a ll   a m ou nt  of   resou rces.   Wh il sin gle  wav reduces  t he  ta sk   set up   over hea d,   m ultip le   wa ves  im pr ov t he   util iz at ion  of t he disk  I /O .     To  a ddress  t he   researc c halle ng e this  wor prese nt  an  a ccur at a nd  ef f ic ie nt  m akesp a m od el   f or   Hado op  Ma pRedu ce   fr am ework  nam ely  OHM ( Op ti m iz e Ha doop   Ma pR edu ce )   to   pro cess  data  i rea l - tim and  util iz syst e m   resour ce   ef fici ently The   OH MR   pr e sent   accu rate  m od el   to  com pu te   j ob  m akesp a ti m an al so   present   a   m od el   to  pro vi sion  the   am ount  of  cl oud  res ource   re quired   to   m eet   ta sk   de adline.   T he   O HMR   first  buil prof il f or   eac job   a nd  com pu t es  m akesp an  ti m of   jo us i ng  gree dy  ap pro ach.  F urt her m or e to  pro vision am ou nt  of r e source  r e qu ire t m eet  task  dead li ne  Lagran ge  M ul ti pliers tec hn i qu e  is a pp li ed .        The  C on t rib ution o f researc h work i as  f ollow s:   1)   This  wor k pr es ent an ac c ur at e  m akesp an  m od el  for HMR  ai ding  perform a nce im pr ovem ent.   2)   Ex per im ents co ns i der i ng d i ve rse  cl ou c onf igurat ion s  and  var ie a pp li cat ion  c onfi gurati on.   3)   Correl at ion   bet ween t he or et ic al   m akesp a m od el  a nd e xp e r i m ental  v al u es.     The   rest   of   the   pap e r   is  orga nized a fo ll ow s .   E xtensiv e   rese arch  s urvey  is   carried   ou t   in   S ect ion   2 .   In  S ect ion   3   t he  pro posed   m akesp an   m od el li ng   for  Hado op  Ma pRed uce  fr am ewor is  pr ese nted.  I penult i m ate   sect ion  e xperi m ental  stud y i s  carr ie d ou t.  T he  c on cl us io n and f uture  wor is  desc ribe i la st sect io n.         2.   RELATE D  W ORK       In   t his  sect io n,  detai le li te ratur e   is  pr es ented  a bout  t he   co nv e ntio nal   sta te - of - a rt  da ta   analy ti c   te chn iq ues I [9 ] l ocali ty   base Ha doop  cl us te m od el   is  ad op te wh i ch   rely   upon  t he  distance  betwee input  inf orm ati on   a nd  pr ocess ing   nodes T his  te chn i qu t ry  to  overc om fr om   var io us   is su es  of   sta te - of - a rt   te chn iq ues  su c h as  high  ove rhead,  require d l arg st or a ge c a pacit and   e xp ensive i n real   ti m e.  Howev e r,   it   al so  induce s lar ge d el ay  an c ause s p e rfor m ance  degra dation.     In   [10],  cl ou base op ti m i zat ion   f ram ewo r is  ad opte to  m ee dead li nes  an acc om pl ish  data  local it y.  They  pr ese nted  he uri sti te chn iqu to  pro visio ta sk   SL re quir e m ent  of   cl ou us er This  te c hn i que   p rese nted   a optim iz at ion   te chn i qu e   to   m eet   ta sk   dead  li ne  a nd  m ini m iz the  num ber   of  no des  require f or  ta sk  processi ng.  T he so lve sin gle  no de  fail ur e   a nd  pr ese nted   trade off  betwe en  m ini m izing   dead li ne   a nd  lo cal it const raint.   Ou t com sh ows   re du ct io o f   sto r age  a nd   com puta ti on   over hea d.  H oweve r   th ey   did  not  c ons idere ta sk   dead li ne  a wr e  sch e duli ng and  perform ance ev al ua ti on c on si der i ng com pu te  intensiv e ap plica ti on .       In   [11],  perform ance  enh a nc e m ent  te chn iq ue   is  introd uced   for Ha doop  m od el   base on   m et adata  of   interrelat ed   ta sk s.  This  te c hn i qu e   pe rm it Na m Nodes  to   fin bl oc w hi ch  ar preset   i the   cl us te r   to   store   sp eci fic  data.   T heir  m od el   at ta ined   supe rior  pe rfor m ance  tha Ha doop  fr am ewor k.   For  pe r form ance  eval uation  they   co ns ide re Bi oi nfor m at i c ap plica ti on .   Ex per im ent  outc om sh ow s   good  pe rfor m ance  in  te rm of  I .O   c os t   m ini m iz at ion   and   m akesp a tim e   red uctio n.   H owe ver t hey  did   no c on si der e perf or m ance  evalu at ion  consi der i ng d i f fer e nt appli cat ion an t hey co ns ide red pe rfo r m ance ev al uation f or   sm al l gen om ic  d at a size .   In  [ 12 ] ,   Ha doop  m od el   is   presente bas ed  on  Ma pRe du ce   pe r form a nce  m odules  t reduce  dela and  con te ntion   i the  netw ork   and   e nhance   perform ance  of   the  syst e m An it   also   hel ps   to  decr eas e   synch ronizat io delay   an sc hedule  diff e re nt   ta sk at   ti m e.  T hey  al so   pr esented   the or et ic al   evaluati on  of   their  m akesp a m od el Atta ined  good  acc uracy   an pe rfo rm ance  evalua ti on   is  car ried   ou for  word   count   app li cat io ns H ow e ve r,   t hey  di not  c onsider ed  perform ance  evaluati on   c on si der i ng  d i ve rse  a pp li cat io a nd   evaluati on  on c loud  platfo rm     In   [13],  a A f fordHa doop  a pp li cat io is  a dopted  t re du ce  cost  in  fini sh in var i ou ta sk an t al locat data  and   sc he du le   ta sk a nd   hen ce  eff ic ie ncy  of  s yst e m   get  enh anced.  H oweve r NP - ha rd   prob le m   occurs  wh il sc hedulin dif fe r ent  ta sk in  sta t e - of - a rt  te chn i qu e To  a ddres NP - ha rdness ,   they   adopted  i ntege r   pro gr am m ing   te chn i qu e an heurist ic   reduc ti on   an op ti m iz at ion   to  ena bl an  optim al   s olu ti on.  E xperi m ent  are  c onduct ed   consi der i ng  W ord   co unt  a nd  So rt   a pp li cat io at ta ine go od  res ults  i te rm of   cost   m ini m iz at ion Howe ver, the oret ic al  accur ac y per form ance ev al uatio is  not p rese nted.     In  [ 14 ] ,   Hadoop  m od el   is   pro posed   to   pre dict  ta sk s   r un - t i m and   al loca te   so m sp eci fi ed  resou rces   to  accom pl ish  ta sk in  a assi gn e ti m per iod.  He nce,  t he  dead li ne  c onstr ai nts  are  m et It  us es  m ulti ple  wav e of  s huf fle  sta ge.   Ex pe rim ent   are  c onduct e consi der i ng  word  co unt  a nd  sort  ap plica ti on.  The or et ic al   acc ur acy   perform ance  evaluati on  of   m akesp a m od el   is   prese nted  s hows  good   accur acy H oweve r,   it   in du ces  hi gh   ov e r head   t finish   ta s ks   a nd  data  inten sive  and  di ver se   ap plica ti on   s uc as  bio i nfor m at ic app li cat io is  not  consi der e d f or   perform ance ev al uatio n.       In  [ 15] Hadoop   m od el   is  a dopted   to   opti m iz H ad oop  par am et ers  wit t he  help   of  pro gr am m ing   base PS O.   T he  PS te ch ni qu helps  t fi nd   optim al   par a m et ers  in  Ha doop  net works   for  sp eci fied  ta sk .   Howe ver,  perf or m ance  e valu at ion   unde r   cl oud  c om pu ti ng  env i ronm ent  is  not  c onside re d.  I [ 16 ] ,   a   Bi gD at a   com pu ta ti on al   m od el   is  ad opte t re du ce   c os with   the   he lp  of  geo - distrib uted   datace nters.  T his  te c hn i qu e   helps  t deci de   the  pa ram et e rs  to  sel ect   the   final  data  ce nt er.    He re,  f r a m ewo r f or  eff ic ie nt  in form at ion   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       An  Acc urate   and Ef fi ci ent S c heduler f or   Hadoo M apRed uc e Framew or ( D. C.Vi nuth a )   1135   m ov e m ent  and  to  pr ov i de  re source   al locat ion   and  to  sel ect   require data  c enter  t decr ea se  cost  of  the   s yst e m   is desc ribe d.   H ow e ve r,  tas k d eadli ne req uire m ent o f  task is   no t c onside red.     Extensi ve  rese arch  s urvey  ca rr ie ou sho w num ero us  a ppr oac is  prese nted   to  m ini m i ze  cost,   ti m e   and  am ou nt  o f   resou rce  re quir ed  to   com pu te   ta sk   on  H ad oop  Ma pRe du ce   fr am ework.  T he  s urvey  s hows  nee to  de vel op  ne m akesp a m od el   that  m i nim iz a m ou nt   of  resou rce  re qu i red  to  ta s dead li ne   with  good   accuracy  c ons iderin div e rs ap plica ti on .   In  ne xt  sect ion   t he  pr opose m akesp a m od el   for  Hado op  Ma pRed uce  fra m ewo r is  pr esented .       3.   MAKE SP AN  M ODELL I N F OR  P ROP OSED   O PT IMIZ ED  S C HEDU L A FOR   H A DOOP   MAPRE DUC E FR AM E W ORK       This  w ork  pr e sent  an  optim i zed  sc heduler  for  sc hedulin j ob  to  m eet   t ask  dead li ne  t m eet   Qo S   require m ent  of  ap plica ti on   on   Ha doop  Ma pRed uce  ( HMR)  f ram e work.  Firstl y,   this  wor present  a   m at he m at ic a m od el   to  c ompu te   com pleti on  ti m of   M apRed uce   jo b.  Sec ondly,  t he   am ou nt  of  re so urce   require to  m e et  task  dead li ne  of a pp li cat io is  pr e sente d.     3.1.   Makesp an   mo dell ing/prop osi tion     Firstl we  eval uate  the  perf orm ance  lim i ts  fo a   gi ven   m ak espa of  s pe ci fied  set   of     ta sk th at   is  processe by    slots/ serv e rs.  L et   1 , 2 , 3 , ,   be   the   tim e   pe rio of    ta sk of  pa rtic ular  j obs T his   work  co ns i der   slot  al locat ion   t ta s ba sed  on  slot  with  Mi nim u m   Execu ti on  Tim (  )   by  a dopting  G reedy   al gorithm .     Let     be  the m axim u m  t i m e p erio d of     ta sk w hich  is  r e pr ese nted  a s :     = ma x { }   (1)     and    be  the  ave rag e  tim e p erio d of    ta sk  whic is  represe nted  as:     = ( = 1 ) .   (2)     The   m akesp an   of   ta s t m eet      is   at   le ast       an at   m os t   ( 1 )   + We  c onside t he  w or st   cas e   scenari f or   uppe li m it that  is,  the  longest   ta sk   { 1 , 2 , 3 , ,   }   with  ti m per i od     is  the  la st  processe ta s k. Co ns ide rin t his sce nar i o, th e tim e taken  b e fore c omm enc e m ent of last  ta sk     is sc he dule i s   at   le ast   ( 1 = 1 ) ( 1 )   T her e fore,  t otal  exec ution  ti m of   al assignm ent  is  at   le ast   ( 1 ) + T he  l ow e li m it   is  sm a ll er,  since  t he  best  cas is  w he   ta sk  distrib uted   eq ua ll a m on t he    avail able   slots.  T he refore the   total   e xe cution  ti m of   is  at   le ast   T he  t otal  jo c om pl et ion   ti m fo r   s cheduli ng  li es   betwee the   lo wer  an uppe lim it These  li m it   are  m os tl ben e fici al   in  c ase  w he the   ti m per io of  l ongest  ta sk  is sm al l as  co m par ed  to  t otal exec utio n t i m e, i.e.  w hen  .     3.2.   Co m pu ting j ob co mple tio t im e     Let   co ns ide jo   with   kn own   exec utio ti m that  is  obta in ed  from   pr e vious  e xec ution.  Let     be   execu te with  new   set   of   data  that  is  segm ent ed  into    m ap  ta sk a nd     reduce   ta sk s.  Let     be  the  num ber   of m ap  slots as sign e t o job    a nd    be  the   nu m ber o f red uce  s lots assi gne t o job   . Let    be   t he  m ean   tim per io of   m ap  ta sk  of  a   pa rtic ular   jo     a nd    be  t he   m axi m u m   tim per i od  of  m ap  ta sks  of  a   pa rtic ula j ob   T hen, u sin m akesp a m od el li ng ( pr opos it ion)  in   sect ion   a t he  lo we li m it   and  up per  lim it   on tim e p erio d of al l m a ph as e are c om pu te d as f ollo ws :     =   (3)     = ( 1 ) +     (4)       Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   12 , N o.   3 Dece m ber  2 01 8   :   11 32     11 42   1136     The   re du c ph ase  is  c om po se of  s huf fle,  sort  a nd  re duce   s ta ge.   Sim i la to  m ap  ph a se,   the  m akesp a m od el li ng   (pr opos it io n)   c an  be   app li e to  est i m at the  lower   lim it   ( ) and   uppe lim it ( )   of   reduce  sta ge   com pleti on   tim e.  Since we  possess   m easur em ent  o m ean  and  m axi m u m   ta sk ti m per iod s   in  re du ce  s ta ge,  al locat ed  re duc e slots  and the  nu m ber   of r e duce ta s .       The  ref i nem ent  li es  in  com puti ng   the   ti m per io of   t he  s huf fle  sta ge F or  easi ne ss,  t he  so rt  sta ge  is   m erg ed  w it h s huff le   sta ge.  T her e fore,  the s huff le   sta ge  i n t he  rem ai nin g r edu ce  phase  is  est i m at ed  as f ol lows :     = (   1 )   (5)     = (   1 ) +   (6)     Finall y,  ta king   Eq uatio n   (5)  and  ( 6)  to geth er,  we  ca f orm ula te   the  lo w er  a nd  up per  li m it   of   the   over al jo com pleti on  tim e of  , which  is  sh ow as  foll ows :     = + 1 + +   (7)       = + 1 + +   (8)     wh e re    de picts  the  opti m ist ic   pr edict io of   job    com pleti on   ti m and     de picts   the  pessim istic   pr e dicti on   of  jo   com pleti on  tim e.  In  sec ti on   c we  c ompare   w hethe t he   predict io t ha is  base on  m ean  value   bet w een  lowe li m it  an d u pp e li m i ts t end s  to  b e  close to  m easur ed  t i m e p erio d.   Th eref or e , we sta te :     = ( + ) 2   (9)       The  E q uati on   ( 7)   ca be  re - w r it te fo r   by  repl aci ng   pa rts  with  E q.   ( 3)  an ( 5),  an sim il ar  equ at io for  s ort  and re duce sta ges  as  foll ows :     = + ( + ) + 1   (10)     The  E q uatio n   ( 8) can  b e  sim pl ifie to  co m pu t e the m akesp a ti m e is   as f ol lows :     = + + ,   (11)     wh e re   = = ( + ) an = 1 The  E q uatio n   ( 11) re pr ese nt  m akesp a tim e   of   jo as  f unct ion / operati on  of  m a a nd  re duce  sl ots  assi gn e t j ob    f or  pe rfo r m ing   it m ap  and  re duce  ta sks that  is, as a  f un ct io n of   ( , ) . In  sim il ar  w ay   and    is wri tt en  as foll ows :     = + + ,   (12)     = + + ,   (13)     3.3.   Resource  re q uire ment  e sti mat i on   t mee t as k  de ad li n e     Her e   we  e valu at the   m ini m u m   nu m ber   of   m ap  an re duc slots   re quire t m eet   ta sk   dead li ne .   To   assure  gua ran ti es  of  ta sk  d ea dl ine  of  Job    in  ti m   we  nee to  c om pu te  w hat  is  t he  m i nim u m   nu m be of   Ma pRed uce  sl ots  need e t be  al locat e to   m eet   ta sk   dea dline    with   in put  da ta   siz e   F or  achie ving  it   the   fo ll owin g q ues ti on nai res nee ds t o be c onside red.   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       An  Acc urate   and Ef fi ci ent S c heduler f or   Hadoo M apRed uc e Framew or ( D. C.Vi nuth a )   11 37       is co ns i der e d as a lo we li m i t of the  jo m a kes pan tim e. Generall y, this  aid in re duci ng a m ou nt  of   resou rces all oc at ed  f or jo t o m eet  task d ea dl ine   . T his sett ing m igh t no be  ideali sti c in real  en vi ronm e nt.       is  c onside red  as  a uppe li m it   of   t he  job  m akesp a ti m e.  T his  will   le ad  t over   al lo cat ion   of   resou rces   an m igh le ad   to   ver y   sm al le j ob  c om pleti on   t i m than     beca us e   w orst  case   sce nar i a re   ve r y   rar phen om eno n i n p rod uctio e nv i ronm ent.       is  c on si der e as  m ean  between  lo wer  a nd  uppe li m i ts  on  the   j ob  m akesp a ti m e.  Th is  strat eg m ay  aid in pro vid in g bala nce d resou rce all oc at ion /uti li zat i on that is cl os e to  jo m akesp an  tim e   .     The  assi gnm ent  of   m ap  an r edu ce   slots  t j ob    f or   m eet ing   ta sk  dea dline     co ns ide rin know j ob  pro file  are e valuate d usin g variat io in   E q uation   ( 11),  wh e re  , and    a re  def ine d.      . + + =   (14)     The  E q uatio n   ( 14)  ca n be sim plifie as  foll ows :     =   (15)     wh e re    an de pi ct s the num ber   of  m ap  an d re du ce  slots all oc at ed  to  jo   re sp ect ively , a nd     and    dep ic ts t he  c orrespo nd i ng exp ressio n from  E q uatio n   ( 14).     The o bj ect ive   of our m od el  is to m ini m iz e th e num ber  of m ap  a nd r e duce  slot f or jo b   . i.e. , w e   m ini m iz ( , ) = +   over   = . W e  consi der   Lagr a nge m ultip li er a nd set   = + + + . By dif fer e ntia ti ng     with  res pe ct  to     an d     an d eq uating t o ze ro, we  ob ta in ,      = 1 2 = 0   (16)      = 1 2 = 0   (17)      = + = 0   (18)     So lvi ng E q uati on   ( 16), ( 17)  a nd (1 8)  sim ultaneo us ly , we  ob ta in ,     = ( + ) ,       = ( + )   (19)       Using  these  e quat ion   t he  opti m al   value  of   m ap  an reduce  slot  are  obta in ed  suc t hat  th nu m ber   of   slots  is  m ini m i zed  wh il m ee ti ng   ta s dead l ine  co ns trai nt.  Her we  r ound   up  the   val ues  ob ta ine from   these   equ at io n f or  a ppr oxim a ti on . Si nce th ese  v al ue s h a ve  t o be i nteg ral.     In  ne xt   sect ion  the  perform ance  eval uatio of  pro po se sc he du le over   sta te   of  art  te c hn i qu is  s how n.        4.   RESU LT   A N D ANALY SIS     This  sect ion  pr ese nt  pe rform ance  e valua ti on   of  pro po sed   O HMR  ov e r   sta te - of - art  Hado op   Ma pRed uce  F r a m ewo r [11].  Hado op  is  the  m os widely   use d/ad op te Ma pRed uce  platfo rm   fo c om pu ti ng  on   cl oud  e nviro nm ents  [ 17 ] ,   he nce  it   is  c onsi der e f or  com par is ons.  Ha doop  2.0  i.e.   ver s ion  2 .7  is  us e an is   dep l oyed  on  a zur cl oud  us i ng   H DInsig ht.  The  Hado op  cl us te is  c om posed  of   one  m a ste w orke no de  a nd  four  w orke r/sla ve  nodes Eac work e node   is  de plo ye on   A virtu al   m achine  i ns ta nce s   w hich  c om po s ed  of   virt ual  com pu ti ng   c or e s,  GB  RAM  an 120  GB  of   st orage  sp ace .   U ni form   con fig ur a ti on   is  co ns ide r ed   f or  bo t O HMR  and   HMR.  F or   e xp e rim ent  analy sis  diff ere nt  a pp li cat io are  consi der e s uc as  Ge ne  se quencin (Bioin form at ics) , Wo r d fr e qu ency sta ti sti cs com pu ta ti on  a nd Hot - wor d d et ect ion .     4.1.   Gene se quenci ng     Gen e   se qu e nce   al ign m ent  is  fun dam ental   op erati on  a dopte to   ide ntify  si m il arities  that  exist  bet wee qu e ry  protei seq ue nce,  D NA   or   R NA   a nd   database  of   se quences  m ai ntained.   Se qu e nce  al ig nme nt  is  com pu ta ti on al ly   heav an d i ts  com pu ta ti on   c om plexity   is  re la ti ve t o pro duct   of   tw o seq ue nces  bei ng  cu rrentl y   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   12 , N o.   3 Dece m ber  2 01 8   :   11 32     11 42   1138   analy zed.  Ma s sive  vo l um es  of  seq ue nces  m ai ntained  in   the  database   to  be   searc he in duces  a dd it ion al   com pu ta ti on   bur de n.   BL AS T   is  widely   a dopte bio i nform at ic too f or  seq ue nce  al i gnm ent  wh ic pe rfor m   faster  al ig nm e nts,  at   e xpense   of  acc ur acy   (possib ly   m issi ng   s om po te nti al   hits)  [18].  D rawbac ks   of  BLAS T   and  it im pr ov e m ents  is  disc us se i [19].   Fo r   e valuati on   he re  t he  im prov e BLA ST  al gorithm   of   [ 19 ]   is  adopted T i m pr ov c om put at ion   ti m heu risti strat e gy   is  us e c om pr om isi ng   accu r acy   m ini m ally.   In  the  heurist ic  strate gy init ia l m a tch  is  fou nd and  is l at er ex te nd e to  obtai t he c om plete   m at c hing se quence .     Ex per im ent  are  cond ucted  to   evaluate  O H MR   and   HMR  perform ance  fo per form ing   gen s eq ue nc e   al ign m ent.  Th dataset   f or   exp e rim ent  analy sis  is  ob ta ined   f ro m   NCBI  [ 20 ] For  perform ing   al ign m ent   Dros ophila  database   as  a   refe ren ce   databas an Q ue ry  s equ e nce   of   va ried   siz es  of  f ro m   Ho m sa pien s   chrom os om al   s equ e nces  a nd  genom ic   scaff old is  c on si de red   sim il ar  to  [1 9]  w hic are  ta bu la te i Ta ble  1 All  six  e xp e ri m ent  are  co nd ucted  us i ng   B LAS T   al gorith m   on   HMR  a nd  O HMR  f ra m ewo r ks .   The   total   m akesp a tim e   of   both  HMR  and   O HMR  f or   al six  e xpe rim ent  is  no te an gr a ph  is  plo tt ed  as  s ho wn   i   Fig ure   2.   It  m u st  be  note t hat  the  init ia li zat io tim of   the  V cl us te is  not   consi dered  is  c om pu ti ng   m akesp a as it  is unif or m  in bo t h OH M R an d HMR  owin to  sim i la cl us te c onfi gurati ons.     The  t otal  m a kes pan  of  O HMR  an H MR   is  de penden on  t as exec utio ti m of   virt ual  com pu ti ng /w or ker  no des  duri ng  Ma an R edu ce   ph ase .   T he  total   m akes pan  obse rved   in  BL AS T   se quence   al ign m ent ex pe rim ents ex ecut ed o n HMR  a nd  O HMR   fr am eworks is  sho w i n Fi g ure   2.  The  outcom es sh ows   sign ific a nt  perf or m ance  in   te r m of   re duce  m akesp a ti m e of   O HMR  over  HMR.  A   m akes pan  re duct ion  of   43.44% 44. 85%,  56. 9%,  57. 17%,   62. 83%   and  65.01%   is   ob ta ine f or  si e xperim ent  by   O HMR  over   HMR.  An av e ra ge  m a kes pan re du ct i on of  55. 03 %  is achie ved b OH MR   over  H MR  acro ss  all   exp e rim ents.         The or et ic al   m a kes pan  of  O H MR   i.e.,    giv e by  Eq uatio ( 11)  is   com pu te a nd  c om par ed  a gainst   the  pract ic al   va lues  obse rv e i al the  e xp e ri m ents.  R esults  ob ta ine is  sho wn  in  Fi gure   3.  Mi nor  va riat io ns   is  ob s er ved  bet w een  pr act ic al   and  the or et i cal   m akesp an  c om pu ta ti on s.  O ver al good  c orrelat ion  is  r e ported  betwee pr act ic al   m akesp an   va lues  an the or et ic al   m akesp an  val ues.   Ba se on  the  r esults  presente it   is  ev ident   that  exec ution  of   BL AST  se qu e nce  al ig nme nt  al gorithm   on   pro posed   OH MR   yi el ds   su p erio r esult w hen  com par ed  to  s i m i la exp e ri m ents  cond ucted  on  e xisti ng  HMR  fr am ework.  A ccu rac and   c orrect ness  of  theo reti cal   m a kes pan m od el  o f  OHMR  pres ented  is  prove d t hro ugh  c orrel at ion  m easur es .       Table  1 Sim ul at ion   par am et e c on si der e d   Exp eri m en I d   Qu ery g en o m e   Qu ery g en o m size    Ref erence gen o m e   Ref erence gen o m e   size   1   NT_0 0 7 9 1 4   1 4 8 6 6 2 5 7   Dros o p h ila datab ase   1 2 2 ,653,9 7 7   2   AC_ 0 0 0 1 5 6   1 9 3 1 7 0 0 6   Dros o p h ila datab ase   1 2 2 ,653,9 7 7   3   NT_0 1 1 5 1 2   3 3 7 3 4 1 7 5   Dros o p h ila datab ase   1 2 2 ,653,9 7 7   4   NT_0 3 3 8 9 9   4 7 0 7 3 7 2 6   Dros o p h ila datab ase   1 2 2 ,653,9 7 7   5   NT_0 0 8 4 1 3   4 3 2 1 2 1 6 7   Dros o p h ila datab ase   1 2 2 ,653,9 7 7   6   NT_0 2 2 5 1 7   9 0 7 1 2 4 5 8   Dros o p h ila datab ase   1 2 2 ,653,9 7 7           Figure  2 .   BLA ST se qu e nce al ign m ent total  m akesp a n   ti m e  observe d for e xp e rim ents co nducte d on O H MR   and H MR   fr am ewor ks     0 50 1 0 0 1 5 0 2 0 0 2 5 0 3 0 0 3 5 0 4 0 0 4 5 0 1 2 3 4 5 6 Execu tio n  T im (s) Exp erim en n u m b er Makes pan  Tim e HM R OH MR Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       An  Acc urate   and Ef fi ci ent S c heduler f or   Hadoo M apRed uc e Framew or ( D. C.Vi nuth a )   1139       Figure  3 .   Co rr e la ti on  b et wee n t heoreti cal  an d p racti cal   m akesp a ti m es f or   BLAST  seque nce ali gnm ent  execu ti on  on  O HMR f ram ewo rk       4.2.   Word fre quen cy  s tatistics c om putat i on s     The  w ord  fr e qu ency  sta ti sti app li cat io is  de velo ped  us in J ava  pro gr am ing   la ngua ge.   Th W i kip e dia   dataset  [2 1] is  consi der e d f or  exp e rim ent an a ly sis. Th e   W i ki ped ia  d at aset  is hu ge  i siz e  ( i. e. > 100 GB a nd is   sp li into 2048   MB   each   an store i Az ure  c lo ud  c on ta i ner.  F or  e xperi m ental   analy sis  this   w ork   co ns ide 16GB  of  data.  The  w ord  fr e quency   sta ti sti cs  ap plica ti on s   w ere  e xec uted  on  t he  OH MR   a nd  HMR  f ram ewor and   t he  res ults ob ta ine a re  note d.   The  outc om es  sh ow s sign i ficant  pe rfo rm ance  in  te rm of  r ed uce  m akes pan  tim es  of   O HM ove HMR.   m akesp an   re du ct io of  43.7%,  44. 34%,   45. 69%  an 51. 57 is  obta ine f or   data   siz of  20 48  M B,  40 96  MB 8192  MB   a nd  16384  MB   res pec ti vely   by  O HM over  HMR.  An  ave ra ge  m a kes pan  reducti on  of   46 .39% is ac hiev ed by O HMR  ov e r HMR  acr os s all  e xp e rim ents.        The or et ic al   m a kes pan  of  O H MR   i.e.,    giv e by  Eq uatio ( 11)  is   com pu te a nd  c om par ed  a gainst   the  pract ic al   va lues  obse rv e i al the  e xp e ri m ents.  Re su lt ob ta ine is  sho wn  in  Fi g ure   5.  Mi nor  va riat io ns   is  ob s er ved  bet w een  pr act ic al   and  the or et ic al   m akesp an  c om pu ta ti on s.  O ver al good  c orrelat ion  is  r e ported  betwee pr act ic al   m akesp an   va lues  an the or et ic al   m akesp an  val ues.   Ba se on  the  r esults  presente it   is  ev ident   that  execu ti on   of   word   fr e quency  sta ti sti app li cat ion   on  pro pose O HMR   yi el ds   superi or   re su lt wh e com par ed  to  s i m i la exp e ri m ents  cond ucted  on  e xisti ng  HMR  fr am ework.  A ccu rac and   c orrect ness  of  theo reti cal   m a kes pan m od el  o f  OHMR  pres ented  is  prove d t hro ugh  c orrel at ion   m easur es .           Figure  4 .   Wo r d fr e quency  sta ti sti c app li cat ion  total  m akespan ti m e o bs er ve d for e xp e rim ent con du ct e d on  OH MR  a nd  H MR  f ram ewo r ks       0 20 40 60 80 1 0 0 1 2 0 1 4 0 1 6 0 1 2 3 4 5 6 Execu tio n  T im (s) Exp erim en n u m b er Makes pan  Tim e OH MR OH MR-T h eo r y 0 50 1 0 0 1 5 0 2 0 0 2 5 0 3 0 0 2 0 4 8  M B 4 0 9 6  M B 8 1 9 2  M B 1 6 3 8 4   MB Execu tio n  tim (s) W ik ip ed ia  d ata size Makes pan  t i m obser ved HM R OH MR Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   12 , N o.   3 Dece m ber  2 01 8   :   11 32     11 42   1140       Figure  5 .   Co rr e la ti on  b et wee n t heoreti cal  an d p racti cal   m akesp a ti m es f or   word f re qu e nc y st at ist ic   app li cat ion   e xe cution o n O H MR  f ram ewo r k       4.3.   H ot - w or d d e t ection  co m pu t at i on s     The   hot - w ord   detect io al gorithm   [22]  is  de velo pe us i ng  Ja va   pr ogram ing   la ngua ge .   The “ M ov ie tw eet ing s”  datase [23]  is  co ns id ered   f or   e xperi m ent  analy sis  and  sto red   i A zur cl oud c on ta ine r.  Tweets  c onsist ing  of  2000 0,  40000,  6000 and  80000  m ov ie is   co ns i de red  a nd  is  repr esented   as   20 K,  40 K,  60K   an 80K.  The   hot - w ord  detect ion  al go r it h m   wer e   e xe cuted   on  the   O HMR  a nd  HM f ram ewo r a nd  the   resu lt s   obta ine a re   note d.  T he  t otal  m akesp an   ti m e   of  O HMR  a nd  e xis ti ng   m od el   is  no te a nd   is  s how i Fig ure  6.  E xp e rim ent an al yses  shows  a s nu m ber  o tweet s  incr eases t he  c om pu ta ti on  ti m e o f b oth   OHM R and  HMR  incr ease s.  T he  ou tc ome sho ws  si gn i ficant  perform ance  in   te rm of   re du ce   m akesp a ti m es  of   O HMR  ov e r HMR .  A  m akesp a n red uc ti on   of  54.19 %,  45.13% , 60.6 8%  a nd  54. 69% is  obtai ne d f or tweet   siz of 20 K,  40K,  60 a nd  80K  res pecti ve ly   by  O HMR  over   HMR.   A aver a ge  m akes pan  re duct ion  of  53. 67%  is   a chieve by OHMR   ov e HMR a cr os al l exp e rim ents .       The or et ic al   m a kes pan  of  O H MR   i.e.,    giv e by  Eq uatio ( 11)  is   com pu te a nd  c om par ed  a gainst   the  pract ic al   va lues  obse rv e i al the  e xp e ri m ents.  Re su lt ob ta ine is  sho wn  in  Fi g ure   7.  Mi nor  va riat io ns   is  ob s er ved  bet w een  pr act ic al   and  the or et ic al   m akesp an  c om pu ta ti on s.  O ver al good  c orrelat ion  is  r e ported  betwee pr act ic al   m akesp an   va lues  an the or et ic al   m akesp an  val ues.   Ba se on  the  r esults  presente it   is  ev ident   that  exec utio n   of  H ot - wor de te ct ion   on  pr opos e OH M R   yi el ds   superi or  res ults  w he c om par ed  t sim il ar   exp e rim ents  co nducted   on  e xi sti ng  HMR   f ra m ewo r k.  Accuracy   a nd  c orrec tness  of  t heoret ic al   m akesp an   m od e l   of OHMR  pres ented  is  prove d t hro ugh  c orrel at ion  m easur es .           Fi gure  6 .   H ot - word de te ct ion t otal m akesp an  ti m e o bs er ve d for e xp e rim e nt con du ct e d o n OH MR  a nd  HMR  fr am ewo r k       0 20 40 60 80 1 0 0 1 2 0 1 4 0 2 0 4 8  M B 4 0 9 6  M B 8 1 9 2  M B 1 6 3 8 4   MB Execu tio n  tim (s) W ik ip ed ia  d ata size Makes pan  t i m obser ved OH MR OH MR-T h eo r y 0 20 40 60 80 1 0 0 1 2 0 2 0 K 4 0 K 6 0 K 8 0 K Execu tio n  tim (s) Nu m b er  o f  twitter     f eeds   co n sid ered Makes pan  t i m obser ved HM R OH MR Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       An  Acc urate   and Ef fi ci ent S c heduler f or   Hadoo M apRed uc e Framew or ( D. C.Vi nuth a )   1141       Figure  7 .   Co rr e la ti on  b et wee n t heoreti cal  an d p racti cal   m akesp a ti m es f or   BLAST  seque nce ali gnm ent  execu ti on  on  O HMR f ram ewo rk         In  this   sect ion  t he  e xec ution  of  the   im pr eci se  and  bio in f or m a ti cs  ap plica ti ons  nam el word  fr e qu e ncy   sta ti sti cs,  ho word  de te ct ion,  an ge ne  se quenci ng  (BL A ST)  is   prese nted.   The   res ults  presente here  pro ve   that  the  OH M m od el   reduc es  the  m akesp an  obse rv e due   to  the  optim ized   m akesp an  m od el   incorporate i to  HMR.   An  a ver a ge  re du ct i on  of  53. 67%  f or  w ord   f reque ncy  sta ti sti cs  and  46. 39%  f or  the  ho w ord  de te ct ion   is  re ported   a nd  53. 67%  f or  th ge ne   se qu e nc ing  (BL AS T )   co ns id erin th O HMR  m odel   w hen  c om par ed   to  the  e xisti ng  H MR   m od el   [ 11] T he   c um ul at ive  a naly sis  ov e r   sta te - of - a rt  te ch nique   in   Ta ble  II  s hows  t he   eff ic ie ncy  of  O HMR  ov e sta te - of - a rt  te ch ni qu e   in   te rm of  r obus t ness   an scal a bili ty S ince,  O HMR  s upport   execu ti on  of  diff e ren a ppli cat ion   su c as   Bi oinfo rm atics  and  te xt  m ining  over   cl oud  pla tfor m s.  O ur  O HMR   m akesp a m odel   ai ded  in   bet te cl oud  re sou rce  util iz at ion .   The oret ic al   com par ison  e va luati on  is  c on s idere and   at ta ine be tt er  resu lt   w he com par ed  with   [12]  an [ 14] Ado ption   cl ou platf or m   a id  in  pr ov i ng   s cal abili t of   processi ng   of  la rg am ount  of   data  of  va rio us   ty pes  on  la r ge  com pu ti ng  cl us te rs.   All  these  featu re  at tribu te to the pe rfor m ance im pr ove m ent o f  OHM R o ver   sta te - of - art m od el s.        Table  2 .   C om par iso n wit sta t e of art tec hniq ue     [11 ]   [12 ]   [13 ]   [14 ]   [15 ]   O H M R   MapR ed u ce platf o r m   co n sid ered   Had o o p   Had o o p   Had o o p   Had o o p   Had o o p   Had o o p   Clo u d  adopted   Yes   NO   Yes   Yes   No   Yes   Ap p licatio n  con sider ed     Bio in for m atics   W o rd co u n t   W o rd co u n an d  T era  so rt     W o rd co u n an d  Sort   W o rd co u n an d  Sort   Bio in for m atics  an d  text  m in in g     Makes p an  acc u rac y   ev alu atio n  con sid e red    No   Yes   No   Yes   No   Yes   Av erage percentag i m p rov e m en t ov er  HMR f ra m ewo rk   4 0 .28 %   1 3 .33 %   3 4 .83 %   2 7 .7%   4 3 .91 %   5 1 .16 %       5.   CONCL US I O N     The   sig nifica nc of  cl ou c om pu ti ng   platf orm is  disc us se d.  Com m on ly   adopted   Ha doop  m ap  re du ce  fr am ewo r w orki ng  with   it draw bac ks   is   pr esented T lo wer  m akesp an   tim es  and   e na bl eff ect ive   util iz at ion   of  cl oud  re sour ces  this  pa per  pro poses  a O H MR   fr am ew ork.   The   m ai co ntributi on  of  th is  w ork  is   pres entin an  acc ur at e   an e ff ic ie nt  m akesp a m od el   f or H ad oop  Ma pR edu ce   f ram e work.  T he   am ou nt r es ource r e qu i re to  m eet   ta sk   dead li ne  is  done  base m akesp a m od el   prese nt ed  he re.  To   ev al uate  the  perf or m ance  of  pr opose OH MR   fr am e work  com pu ta ti on al ly   hea vy  bio in f or m at ic app li cat io an im pr eci se  ap plica ti on   s uch  as  w or fr e qu e ncy  sta ti sti cs  and   hot  w ord  detect ion   is   co ns ide red.  Pe rfor m ance  of  O HMR  fram ewo rk   is  c om par ed   wit HMR  f ram ewo rk  in  te rm of   m akesp a ti m e .   A ve rag e   ove r al m akesp an   ti m es  reducti on  of  55. 03%,   46. 39,  a nd   53.67%   is  ac hi eved  us in O H MR   fr am ewo r w hen  com pared  t HMR  f ra m ewo r f or  BL AS T,   wor fr e qu e ncy  sta ti sti cs,  and   hot  w ord  detect ion  ap plica ti on s Ex pe rim ents  pr ese nted   pro ve   rob us tnes of   OH MR   fr am ework,   it capa bili ty   t ha nd le   di verse  a pp li cat ions   on   pu blic  an pr i vate  cl ou pl at fo rm s.  Re sul ts  pr e sente t hro ugh  exp e rim ents  co nducted   pro ve  su pe rio r   pe rform ance  of  O H MR   again st  Ha doop  fr am ework.  G ood  m at c hing  i s   repor te d betwe en  the  the or et i cal   m akesp a n of O HMR p res ented  a nd e xpe rim ental  v al ues  obser ve d.     0 20 40 60 80 1 0 0 1 2 0 1 4 0 2 0 K 4 0 K 6 0 K 8 0 K Execu tio n  tim (s) Nu m b er  o f  twitter     f eeds   co n sid ered Makes pan  t i m obser ved OH MR OH MR-T h eo r y Evaluation Warning : The document was created with Spire.PDF for Python.