Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   11 ,  No.   3 June   2021 ,  pp. 2 525~ 2534   IS S N: 20 88 - 8708 DOI: 10 .11 591/ ijece . v11 i 3 . pp2525 - 25 34          2525       Journ al h om e page http: // ij ece.i aesc or e.c om   A smart  method f or spark  using  ne ural n etwork  f or big data       Md. Ar ma nur  Rahm an 1 ,  J.  Ho sse n 2 , Az iz S ultana 3 , Ab dull ah   Al  Mamun 4 , N or Az l ina  Ab .  A z iz 5   1,2,4,5 Facul t y   of E ngine er ing  an Te chno log y ,   Multi m edi a   Univer s ity ,   Mela k a, Ma l a y si a   3 Facul t y   of  Com puti ng  and  Eng i nee ring ,   Dhak I nte rna ti ona Uni ver sit y ,   Dhaka ,   Bangl ad esh       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   A ug  24, 202 0   Re vised  Oct  6 ,   2020   Accepte Oct  27 , 202 0       Apac he  s par k ,   f amous l y   known  for  big  data  han dli ng  ability ,   is  distri but ed   open - source   fr a m ework  tha u t il izes  th id ea   of  distri but ed  m emory   to   proc ess  big  data .   As   the   per form a nce   of  th spa rk  is  m ostl y   bei ng   aff ecte b y   the   spark   pre do m ina nt  conf igur at ion  par amete rs ,   it   is  cha llengin to  ac hie v the   opt imal  r esul from   spark Th cur r ent   pr actice  of  tun ing  th p ara m et ers is   ine ffe ct iv e,   as  it  is  per form ed  m anua lly .   Manu al   tuni ng   is  challe nging  fo r   la rge   spa ce   of  par amete rs  and  complex  intera c ti ons  with  and  among  the   par amete rs .   This   pape proposes  m ore   eff ec ti v e,   self - tuni n appr oac h   subjec to  n e ura ne twork  c a ll ed  Sm art   m ethod  for  spark  using  neur al  net work   for  big   dat (SS NN B)  t avoi the   d isa dvant ag es  of  m a nual   tun ing   of  the   par amete r s.  The   pape has   sele cted  five   pr edominant   par a m et ers  with  five   d iffe r ent   si z es  of  da ta   to  te s the  appr o ac h .   The   proposed   a pproa ch  h as  inc re ase th spee of  aro und  30%  compare with  the   d efa u lt  par amet er   conf iguration.   Ke yw or d s :   Ap ac he spa rk    Bi data   Config ur at io n param et ers   Ma chine  le a rn i ng   Self - c onfig ur at ion   This   is an  open   acc ess   arti cl e   un der  the  CC  B Y - SA   l ic ense .     Corres pond in Aut h or :   Md. Arm anur  Ra hm an   Faculty  of E ngineerin a nd T echnolo gy   Mult i m edia Universit y   Me la ka,   75450, Ma la ysi a   Em a il : ar m an. bd m ai l@gm a il.c om       1.   INTROD U CTION   Aroun t he  world,  the  num ber   of   onli ne  us e rs  is  i ncr easi ng  at   ra pid  rate   with  t he  a dva ncem ent  of  so ci al   com m u nicat ion   a nd   e - com m erce  bu s iness.  Be sides ,   lot  of   us er are  stori ng   the ir  con te nt  cons ta ntly   for  f utu re  us e.   As  ind ic at ed  by   In te r natio na data  cor po r at ion   (IDC) di gital   sp ace  is  pro j ect e to  in crease   m or than  44  Z.B.  in  volum by  2020   [1 - 3].   In   t he  era  of   dig it al   data,   big   data  is  som et hin that  can' be  ov e rlo oked T her e fore  rece nt ly the  big   data  era,  di ff e ren t   industries  an governm ents  hav giv e em ph a sis   on  big   data  te chnolo gies.  Si nc the  conven ti on al   com pu ti ng  te chn i qu e cou l not  pro vid the  ex pected  res ult   and  ef fici ency  to  m anag bi g   data.  T he  diff e ren distrib uted   fr am ewo r ks   li k h ad oop  [ 4],  sp ar [5 ] a nd  storm  [6 ]   hav e  b ee i ntr oduce to  sa ti sfy the prere quisi te  o f  taki ng care  of the  bi g   data.     Ap ac he   sp a r is  one   of  t he   m os no ta ble  an broa dly  us e fr am ewo r ks   beca us e   of  it hi gh  pe r form ance  and   fle xib il it [7 ] Ap ac he  s pa r ha over  18 param et ers  with  de fau lt   v a lues.  The  a ppr opriat e   values  of  the  par am et er  can  be  sel ect ed  by   the  use m anu al ly   wh il pr ocessin dif fere nt  siz es  an t ypes  of   data.  Th pe rfor m ance  bec om es  un sat isfac tory  due  to  t he  ina pprop riat sel ect ion   of  pa ram et er  values.   Ther e f or e,   a ddit ion al   tu n in of  the  pa ram eter   is  require f or  each   pa rtic ul ar  ap plica ti on  [8 ] The   use rs   require  appr opriat know le dg f or  m anu al   tu ning  of   the  par am et er in  the  sp ar f ram ewo rk,  ho wev e r,   m anu al   tun in is ver y t e dious   du e  to   t he  c omplex i nteracti on  betwee the m   A pe the  c ur ren pr act ic e,  par am et er  tun i ng   i bi g   da ta   is  perform ed  in  ways.  Fir stl y,  m anu al   tun in of  the  par am et er  by  tria an er ror.  This  process  i ve ry  com plica te as  it   re qu ires  lo ng  ti m an dep t kn ow le dge  due  to  la r ge  num ber   of  par am et ers   and  it internal  co r relat ion   with  e ach  ot her.  To  a ddress  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  11 , No 3 J une  2021   25 25   -   2534   2526   the  m anu al   tun in pro blem [9 ]   aut hor  pr opose c os t - ba sed  m od el   for  the  ha doop  s yst e m Ho we ve r,   the   m od el   need t be  perseve re by  us ers  bas ed  on  diff e re nt   po li ci es.  S ec ondly,  sel f - tu ni ng   pa ram et er  wh e it   requires This  pap e proposes   an  ap proac ba sed  on   ne ural   networ to  m ini m iz the  dr a w back   of  m anu al   tun in g.   T he  re search  dev el oped  sel f - tu ning  ap proac tha can  per f orm   sel f - tu ning  of  the  par am et er  range   base on   the  neural  netw ork  m od el T his  app r oac has   three  key  ad van ta ges  com par e to  the  existi ng   appr oach es Firstl y,  al ta sk are  processe by  the  neural  ne twork  m od el Seco nd ly al t ypes  of   dataset that  consi st  of   str uc ture data,  se m i - structur e data,  an un st r uctu red   data  ca be  pro cesse d.  Thir dly,  any  vo l um e   of the  dataset  c an be  processe d.     The  trai ni ng   da ta   has  bee c ollec te f or   th sel ect ed  five   par am et ers  by   changin th par am et er  range  an var i ou in put  of   da ta   set s.  The  trai nin process  is  on ly   fo one   tim to  le arn   the  m achi ne  le a rn i ng  m od el w hich  then   can   pre dict  the  nu m erical   valu es   f or   the  s el ect ed  par am et ers.   T he  m et ho ha be e i m ple m ented  on   te s tbed  th at   us es  Dell   Po we rE dg 720  se rv e r,   hos ti ng   sp a rk   f ra m ewo r k,   an r un as   sp ar no des.   T he  te st  resu lt s p r ovide  that  ou pro posed  m eth od  ca pe rform   eff ect ive  sel f - tu ning b ased o t he   neural  netw ork   m od el   so   that  it   m eet s   m axi m u m   reso urce   us age  capa bil it and   saves  processi ng   ti m e.  The  key comm itm e nts  of  t he  m et ho d are  as  fo ll ows:      It  has  im ple mented  a arti fici al   neu ral   net work   i the  a ppr oach   that  processes  s park  jo bs   us i ng   i ts   app li cat io ser vice  base on   the  ne ur al   network  m od el Hen ce use rs  do  not  re quire  i n - de pth   knowle dg e   of the i nternal   syst e m  f un ct io n.   Th us ,  they c an  sa ve  ti m e b y avo i ding m anu al  t un i ng.     The  sel f - tu ning  facil it of   the  ap proac integ rates  pa ra m et er  ran ge  a ll ocati on It  he lps  to  m eet   t as dead li ne s a nd im pr ov es t he o ver al perform ance  of sp a r k .     In   our  eval uat ion   us in sp a r w orkloa ds   with  five  dif fe ren in pu dataset s,  the  ap proach   ac hieve an   aver a ge per f orm ance sp ee dup o a bout  30 %   perform ance.    The  rem ai ns   of   the  pa per   ar organ iz e as  fo ll ows.  Sect ion   2,   prese nting   the  backg r ound  of  th e   stud y.  Sect i on   3,   the  relat ed  work,  is  disc usse d.   Sect i on   pr ese nts  the  de ta il of   the  arti fici al   neu ral  ne tw ork S e ct ion   pr es ents  the  arch it e ct ur of  SS NNB T he  m e tho dolo gy  is  pr ese nt ed  in  s ect ion   6.   Sect io pr esents   resu lt s a nd a na ly sis - finall y, Con cl us io ns  a nd  futur e  wo rk pr esented  in  sect i on 8.       2.   BACKG ROU ND OF  THE  STUDY   2.1.    Spa r k   In   t he  area  of   big   data Ap a che  S park ”  is  t he  m os acce pted  ope n - s ource   platfo rm   that  su pp or ts  t he   idea  of   resil ie nt  distrib uted  dataset (RD D s).   T he  RD Ds   al low  rap i tr eat ing   of  the  m assive  siz of   data  le ver a ging  distrib uted  m e m or y.  Data  op e rati on  in  m e m or is  appr opriat for   re petit ive  a pp li cat io ns   s uc as   gr a ph  al gorith m and   reit era ti ve  m achine  le arn i ng.  RD D   is  co ns ide red  as  the  m ai featur e   of   s pa rk I t   char act e rizes  read - only   colle ct ion   of  entit ie al locat ed  am on seve ral  m achines.  A RDD  e xp li ci tl stores   in  the  cac he  m e m or by  th us e ov e se ver al   m achine an ca be  reu se a the   par al le ope rati on   i m ul ti ple  Ma p Re du ce R DD  ha the   fa ult  tol eran ce   abili ty   ov e a   no ti on  of  e xtracti on.   Wh ene ve a   pa rtit ion   of   RDD  is  lost,  it   can  re bu il it   since  it   has  su f fici ent  inf o r m at ion   reg a rd i ng   it ori gin.  Th ough  RD Ds   do   no t   hav s har e m e m or con st ruct ion on  the  one  ha nd,  they   can  re pr ese nt  r el ia bili ty  and   scal abili ty   and on   th e   oth e ha nd,  s weet - s po am on e xpressi vity RDDs  a re  well - su it ed  f or  div er sit y   of   app li cat io ns .   F igure  1   pr ese nts   the  s park - cl us te fra m ewo r [10].   s pa r c omprises  dri ve r   node  t hat  is  equ i valent  to  a   m ast er   node  a nd  se ve ral  w orke node that  are   co r respo nd e nt  to   sla ve  nodes.  T he  dr i ver   node   m anag es  al worker   nodes  t hro ugh  the  w orke node  proce s s.  T he  w orke node com m un ic at with  the  dri ver   node  t hro ugh  t he   worker  node   proces a nd  m a nag e   local   e xe cuto rs.   Each   a pp li cat io c onsist of  m ulti ple  exec uto r a nd  one   dr i ver All  the  j obs  in  an  a ppli cat ion   com fr om   the  sa m execu to rs.   T he  sp a rk   c on te xt  is  creati ng   by  the  m ai j obs   of  th ap plica ti on   t hat  are   r un  by  t he  dr i ver   proce ss.  Eac of  the  worker  nodes   a ccom plishes  one  or   m or execu t or   bac kend   proc ess  du rin la unchi ng,  a nd  sing le   e xec utor   back e nd  do e m anag ing  ex ecu t or   instance.  An  e xecu t or  m an ag es a thr ead  gro up  that r uns ea ch  of the tasks a s a sing le  thr e ad.  N e ve rthele ss,  the  tim of   exec ution  of  s pecifi ta sk   in   the  pl at fo rm   of   A pa che  dep e nds  on  var io us  facto rs  s uch  as  in pu data  vo l um e,  data  ty pe,   CPU  spe ed,   m e m or siz e,  nu m ber   of   no des,   c onfig ur at io pa r a m et ers,   desig an i m ple m entat io of  the  syst em   and   so   on.  Ba sed  on  these   factor s the  ti m of   execu ti on  tim of   sp eci fic  jo in  apache   sp a r m a diff er  c on s pic uous ly   [ 11 ] T her is  m or than  180  config ur at io par am et er  in  apach sp ar t hat  us er   can   tu ne  acc ordi ng  to  t he  ne ed  of  s pecifi ap plica ti on   t e nhance   the   perform ance.  I is  the   m od est   and  m os op e rati ve  a ppr oach  to  e nhance   the   enac t m ent.  Users  t un e   these   pa ra m et ers  ph ysi ca ll by  exp e rim ent  [1 2].  At  prese nt,   the  par am et ers  are  m anu al ly  tun e by  e xperim entation   that  is  no e ff e ct ive.  I t   needs  com plica te interact io ns   with  the   pa ram et ers  and  ta kes  la rger  pa ram et er  sp ace.  A gain ,   these   par am et ers  m u st be  re - t un e d f or v a rio us  a ppli cat ion s a nd clusters .   Ar ti fici al   ne ural   netw orks  ( AN N)  is  m at hem a ti cal   pr oc essing  m et ho that  ca be  us e f or  bot cl assifi cat ion   and   re gressi on  [13,   14] .   The  neur on m ake  it   a   po we rful  le arn i ng   m od el   fo this  reas on  f or   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A smart  meth od fo r s pa r us ing   Ne ural N et work fo big   data   ( M d.   Arm anur R ahm an )   2527   regressio a naly sis.  It  is  the  best  cho ic e,  incl ud i ng   m ult iple  inputs  an out pu data   [15,   16] ne ural   ne twork   can  predict   nu m erical   values  correct ly and   it   can  pr ev ent  over fitt ing   easi ly ANN  is  m uch   su it able  in  se ver al   areas, i nclu ding  natu ral la ngua ge  a nd im age p r ocessi ng, pre dicti on  a well  as em otion  r ec ogniti on [1 7 - 19] .                               Figure  1. A  com m on   la yout  of a pach e  sp a r k       3.   RELATE D  W ORK   In   recent  ye ars one  of  the  ke enest  resea rc is  in  the  op t i m iz ation   of  th perform ance  of   big   data   syst e m Howe ver,  al m os all  the  existi ng   researc hes  ha ve  been   done   on  the  Ha doop  platfo rm   or   t h fr am ewo r of  Ma pRed uce  c om pu ti ng .   Star fish  [ 9]  util iz es  sim ulati on   and  c os t - base m od el   to   se ek  t he   require jo c onfig ur at io for  the  work l oad  of   Ma pRed uc e.  AROM [ 20]   us es  a op ti m iz at ion   fr am ewor and   tw o - phase   ML  to  automa te   reso ur ce   distribu ti on  a nd   j ob  co nf i gurati ons  co ns i der i ng   he te rog eneous   cl ouds T he  a uthors  of   [ 21 ] ind ic at ed  that  hado op   s cheduler  in  t he  heter ogene ou e nviro nme nt,  the   perform ance  r edu ct io an pro po se a nother   sche dule nam ed  longest   ap pro xim a te   tim to  en d I [ 22 ]   a   diff e re nt  w ork   con ce ntrate on   e xam ining   the  dif fer e nt  re so urce  c onsu m ption   e ff ect f or   var ia nt  set   f or   t he   Re du ce   slots  a nd  Ma p.  T hese   pro blem have  bee a ddress ed  in   [ 23] th r ough  a   f ram ewo r cal le “P r of il in and   Per form ance - base Syst e m ”  (P PA BS ),   wh ic can  at om ic al l tun th config ur at i on  of   ha doop  set ti ng   by  deducti ng  th requirem ents  of  a pp li cat ion  pe rfor m ance.  M od i fyi ng  the  popula r   KMea ns+ cl us te ri ng  al ong  with  the  sim ulate A nneal in al gorithm   are  the  m ai cont ribu ti ons  of   [ 24 ] w hich  we re  nee de to  a dju st  to   the  Ma pRed uc par a dig m Re fer e nce  [ 23 ]   reco m m end easi ng   this  iss ue   by  an  en gine   that  su ggest the  config ur at io ns   for  ne a nal yt ic al   j ob   ti m e ly   and   intel li ge ntly This  e ngine  is  em bedded   i an   ada pt ed  k - near est   neig hbor   (KN N)   al go rithm   to  discover  the  ap pro pr i at config ur at ion   base on  th past  job   e xpe rienc e   that  is  execu te well H ow e ve r,   the  resea rch  of   optim iz ing   apach s park  pe rfor m ance  is  sti ll   in  the  beg i nn i ng   sta ge.   T he  aut hors  of  [ 24] present  sim ula ti on   dri ve f oreca st  m od el   to  antic ipat the  perform ance  of   jo with  hi gh   c orre ct ness  f or  Apa che  S park.  T he ir  pro posed  m od el   can p re dict  m e m or us age   and   e xec utio tim e   of  s park   syst em s   in  the  case  of   de fa ult  para m et ers.   [25]  Show e that  the  sup port  vec tor  re gr es sio (S VR )   m od el   is  com pu ta ti o nally   ef fici ent  with   hi gh  accu racy.  Acc ordin t th ei r   fin dings,   it   ca be  c oncl ude th at   us in the  aut o - tun in m et ho can  offer   c ompara ble  or   bette perf or m ance  com par ed  to  sta rf ish  with  few e r   nu m ber   of p a ra m et ers.       4.   AR TIF ICIAL  N EU R AL  NETWOR K (A N N)   The  sci kit - le ar is  an   esse ntial   too since  it   al lows   on ly   a   few   li ne of  cod i ng  an prevalent  data  gro undwo rk.  I ord er  to  proc eed  with  t he  e valuati on,  th Ker as  wr a pper nee to  be   pr ov i ded   with  def i ne functi on  to  cr eat AN N I fact,  the  f un ct i on   is  f or m ulate to  create   a   base  m od el   t hat  is  the  su bj ect   of   evaluati on.  T he   base  m od el   is  connecte wi th  three  ne uro ns  throu gh   hidden  la ye r,   as  il lustrate in  Fig ur 2.  The  hi dd e a nd  outp ut  la ye is  act ivate with  Re LU  a nd  s oft m ax  act i vation  functi ons F ur t her m or e,  a eff ic ie nt  opti m iz er  " A dam c an  be  use to  update  netw or weig hts  it era ti vely   based   on  trai ning  data The  obj ect   i the   K eras  wr a pper,   known   as  KerasR egr es sor,  is   us e as   regr ession  est im a t or  in  t he  sci kit - le ar n.   The  f unct ion   of  A NN   is  t hen  creat ed  im m e diate ly   to  pass   par am et ers  including  the  ba tc siz an e po c hs   nu m ber   al on with  the  f unct ion   of   t he  m od el bo t of  w hi ch  are  set   to  def a ult.  F ur the rm or e,  proce ss  of   arb it ra ry  num ber   creato with   const ant  ar bi trary  seed  has  been   i niti al iz e to  c om par the  co ns ist ency   of   t he  m od el s.  In   this  researc h,   the   pr oce ss  of   ar bitrary  num ber   creator s   is  rep eat ed  f or   th evaluati on   of  each   m od el .   neur on   ta kes  in pu t s,  does  so m m at with  them ,   and   pro duc es  an  outp ut.  A   sim ple  neu r on   lo oks  li ke  w hat is s how n   i Fi gure  3.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  11 , No 3 J une  2021   25 25   -   2534   2528       Figure  2. A  n e ur al   netw ork w it hidde la ye           Figure  3. Lay out o a  sim ple  neur on       Thr ee  thin gs ar e h a pp e ning  he re. Fi rst, eac i nput is m ulti pli ed by a  weig ht:     1   1   1   2   2   2         (1)     Nex t,  all  the  w ei gh te d i np uts  are a dd e t og et her with  a  bias  b :     ( 1 1 ) + ( 2 2 ) + ( ) +   (2)     Finall y, the s um   is passe th r ough a act ivat ion   f un c ti on:     = (   1 1 + 2 2 + ) +   (3)     4.1.    Act i vation f un ctions ReL U a nd  s oftm ax   Re ct ifie li nea un it   (ReLU ),  is  rece ntly   popula r   act ivati on  f unct ion  in   neural  netw ork [ 26 - 28 ] .   It   is  well - def i ned  as   ( ) =  ( 0 , ) O n e   of   the   ad va ntages   of  the   f unct ion  i s,  it   is   al so  no n - li nea a nd  ca run  bac kw a rd  for  er r or   m inim iz at ion A dd i ti on al ly the  functi on  act ivate m ulti ple  neuron  la ye rs Fi gure  sh ows  the  rec ti fied  li nea r u nit  (ReLU act ivat ion   f un ct io n.    So ftm ax  is  t ype  of   l og ist ic   functi on   i m at hem atics.  The  s of tm ax  func ti on   accom m od at es  outp uts   of   ea ch  unit   in   betwee t 1,   disp la ye in   K - dim ensio nal  vect or  of  r andom   real  nu m ber [29 - 31] The   functi on  is  us e as  a act ivat ion   functi on  due  to  it cat eg or ic al   pr ob a bi li ty   distribu ti on   char act e risti c.  Th e   functi on  is  us e f or  a ny  num ber   of  cl asses  and  able  t est i m at the  probabil it that  any  o f   the  te ste c la sses   are tr ue.   The   s of tm ax  functi on  pro vid e d by     ( ) =   = 1   (4)       b 1   X2   X1   W 2   a 1 1   a 3 1   a 2 1   b 2   a 1 2   a 2 2       W 1   Ŷ   Ou tp u t   Hid d en   Inp u t       1   X 1   X 2   X m     f   ()   W 0   W   W 2   W 1   Inp u ts   W eig h ts   W eig h ted   Su m   Activ atio n     Fu n ctio n   Error   W eig h t Upd ate   Ou tp u t   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A smart  meth od fo r s pa r us ing   Ne ural N et work fo big   data   ( M d.   Arm anur R ahm an )   2529       Figu re  4. Re ct ifie li nea r u nit       5.   SSNNB F R A MEWO RK   The  s pa rk   co nfi gurati on  pa ra m et ers  are  tu ne by  the  predi ct ed  val ues  fro m   the  sel f - t un i ng  ap proac SSNNB,  wh ic arc hitec ture  is   sh ow in  Fig ur 5.   SS N NB  consi ders  two  i nput  val ues,   w hich  are  datase siz e   and ex ec utio t i m e.   Fr om  F ig ur e  5, t he re a re  sev e ral b l ocks  su c as :     Trainin g data i s obtai ne f r om  a d at abase     The dat has b een  receive d,  a nd the m od el  is  g e ner at e d by the “ M od el  T ra ining  b l oc k     Gen e rated  m od el  h as  bee sto red in a  f ixe l ocati on b y t he  ' Stor e   Mo del on  Disk '  b l ock     “Pre dicte Pa r a m et er V al ue”,  this  blo c k pro vid es  the  pr e di ct ed  opti m u m   par am et er v al ue     Finall y, the  pr e dicte d op ti m um  v al ues  are  re cei ved  a nd  upda te in t he  Spark   Syst em ” b l ock           Figure  5.  SS N NB ar c hitec tur e       6.   METHO DOL OGY   6 .1   Par amet er  sel ection   The  sel ect ed  five  pa ram et ers  are  sho wn   i Table  1.  The  c olu m ' Def ault  value'   disp la ys  the  de fau l t   par am et er  valu es,  an the   col um ' Ra ng va lue'   disp la ys  the  ra nge  of  th sel ect ed  pa ra m et ers  in  the   sp ar m et ho [ 32 - 34] . S el f - tu ning is r eq uire whe processi ng vario us  sizes an dif fer e nt ty pes  of  d at a to mi ni m iz e   processi ng   ti m an ac hieve  m axi m u m   per f or m ance  f ro m   sp a r [35].  T hi pap e sel ect ed  fi ve  pr e do m inant  par am et ers  of   the  sp a r k,   base on  t he  re vie of  th aut hors  [ 36] Th nota ble  rea son  i s:  firstly the  s el ect ed   five  par am et ers  are  co ve red,   includi ng  CP U,   m e m or and   dis of   t he  resou rce  in  cl us te r.   Se co ndly in  sche du le   an s huff li ng  m od ul es,  it   has  gr eat   i m pact.  Third ly this  par am et er  al so   has  sign ific a nt  i m pact  on  the m ach ine and clu ste le ve [37].         Table  1.   Def a ul t par am et er v a lue  of s pa rk  wi th r a nge   Sp ark Para m ete rs   Sp ark Para m ete r   Ran g e Value   Def au lt Value   d river.c o res   d river c o res fo a  driv er  p rocess   1 - 8   1   d river. m e m o r y   d river  m e m o r y  f o a driv er  p rocess   1g - 4   g   1   g   ex ecut o r. co res   co res ar e  f o ex ecut o p rocess   10 - 40   1   ex ecut o r. m e m o r y   ex ecu to o f   m e m o r y  f o  per  execu to p rocess   2g - 8   g   1   g   redu cer. m ax SizeIn Flig h t   Max size of  the  m a p  ou tp u ts    2 4 m - 96   m   48   m         Predicted   Para m eter   Valu e   Tr ain in g   Data   Mod el  Tr ain in g   Test and   sav e M o d el   Sto re  Mod el on   Disk   Databas e     Sp ark  Sy ste m   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  11 , No 3 J une  2021   25 25   -   2534   2530   6.2.    Data  c oll ectio n   Trainin data  has  been  colle ct ed  by   t he  s pa rk   job,  wh ic is  com plete by  cha ngin t he  par am et er   and  val ues  a nd   va rio us   datase siz es  an ty pe s.  Fi nally the   su m   of   3,0 00  sam ple  data  ha ve  been  c ollec te for  trai ning  a nd  te sti ng   t he  ne ur al   netw ork  m od el F or  the  hi gh  accu racy  of  the  m od el t h norm al iz a tio has   been d one.     6.3.     Tr aining  and  te stin g   Fo trai ning,  th neu r al   network   m od el   has  r andom ly  sle et e 80%   an the  rem ai nin 20%  data  have   been   us e f or   t est ing T get  the  best  acc ur a cy   fr om   the  m od el t he  trai ni ng   cy cl has  be en  re peated  s ever a l   tim es.  In   trai nin g,   the  e po c siz has  increased  up  to  25 0,   an the  m o del  accuracy  le vel  was  97. 1%   and  96.7%  f or   te sti ng.  It  ha obse rv e that  the  a ccur acy   has  be en  incr eased  duri ng   trai ning  and   te sti ng  wit the   nu m ber   of  e pochs  is   inc rease d.   It  is   obser ve from   Figur that,   after   250  ep oc hs t he re  is  no  si gn i ficant  i m pr ovem ent i n bo t m od el  a ccur acy  a nd m od el  l os s.             Figure  6. Mo de l acc ur acy  a nd lo ss in  traini ng       6.4.    Te st  be d   The  SS NN appr oach   has  us e the  Dell   Po we rE dg R720  ser ver   a s   te stbed.   The  ser ver   is   equ i pp e with   I ntel®  Xe on ®  CP E 5 - 26 50  ve rsion   2.0   2.6 0   GH z   16 - c or e   proce sso r   a nd  32   G PC3   m e m or y.  The   op e rati ng  syst e m   was  Ubu ntu,  a nd  the   ve rsi on  wa 17.10   a nd  ha do op  ve r sion  2.8 .1  wit sp a r k   ver si on   2.2.0.  The  sel f - tu ning  ta sk   ca be  r un   us i ng   a in dep e ndent  or   a   diff e re nt  VM.   As  li ste in  T able   2,   the  sp ar jo is  run  with  five   diff ere nt  datas et ran gi ng   f r om   5   GB,  10   G B,  15   GB,  20   GB  and   50   GB wh ic is  colle ct ed  f rom   the  Pu m B ench m ark   s uit.   In   orde to  fa ci li ta te   fair  c om par ison   wit the  def a ult  s yst e m ,   the  five  pa ram et ers  are  sel ect ed.  D at aset ra ng i ng  f r om   1   GB  to 5   GB h a ve  bee us e duri ng   trai ning,  and   t he   rest of t he data set s up  to  50   G B ha ve been  u s ed durin t he  e valuati on  proc ess.       Table  2.  C onsidere da ta set s   Sp ark   Size of  datas et   So u rce  o f  datas et   W o rd co u n t   5  GB   Pu m a Ben ch m a rk   1 0  GB   1 5  GB   2 0  GB   5 0  GB       6.5.    Art ific ial  neur al ne twork  m od el  de velo pm ent   In   A NN  m od el   de velo pm ent,  the  ML  li brari es  are  re qu ire d,  w hich   are   im ported   f ro m   K eras.  O ne  of  th well - know li br a ries o K eras  a nd  b e hind  it   Tens orFlo w,   is  s upporte d Ke ras  f ram e work  is  m uch   easi er  to   us instea of  directl us in Tens orflo w.   I so m resp ect s,  the  va riables  X,   Y,   a nd   a re  us e to  l oa an store   the  trai and   te st  data.  Thu s an com pr ise   t wo   trai ni ng   da ta execu ti on   tim and   dataset   siz ob ta ine by  m anu al   pa ram eter   tu ning.  Sim il arly the  va riable  holds  t he  siz a nd  ti m of   e xec utio of   t he   te st  data.  The  te st  dataset as  well   as  the  train are  fill ed  int the  syst e m The  nece ss ary  hidden  la ye is  bu il from   the  base  m od el Fu rthe r m or e,  fu ncti ons  for  act ivati on   are  al so   a dded.   I the  ba se   m od el the  dr opout   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A smart  meth od fo r s pa r us ing   Ne ural N et work fo big   data   ( M d.   Arm anur R ahm an )   2531   functi on  ( 0.02)  is  add e to   pr e ven ov e r fitt ing .   It  pass ed   the  opti on al   le arn in rat of   0.000 f or   the   com pilat ion   of  the   m od el an the  desi gn at ed  le arn i ng   rat is  0. 01.  A fter  that,  the  opti m iz er  Ad am   a nd   the   m ean  sq ua re error   (l os f un ct ion a re  com piled  with  the  base  m od el X   and   data  ar then  fitt ed  w it scal f un ct io n. To  predict   the  accur acy  of  Z  d at a,  t he  base m o del  com bin es  batc siz e a nd  ep oc h.  Th e v al idit and  loss   of  an al ysi are  pr int ed.   The   act iva ti on   functi on  or  the   num ber   of  ep oc or  th opti m iz er  m us be   change if  the  accuracy  is  lower   tha the  e xp ect e res ult.  The  a ccur acy   of   96. 9%  f or  te sti ng   an 97. 8%   for  trai ning  data  cou l be  acco m pl ished  by  util iz ing   25 epo c a nd  ap pro pr ia te ly   ch ang i ng  the  oth ers - th e   accuracy  of   i nc rem ents  in  trai nin an te sti ng   segm ents  w hen   t he  qu a ntit of   e po c hs   is  increase d.   Fig ur sh ows  that  bey ond  25 ep ochs,  accuracy  or  l os is  no sub sta ntial ly   i m pr ov e d.   T he  m o del  will   be  saved   f or   ever pa ram eter It  has  five   m od el buil by  m od ify in th with   five   disti nct   par am et ers,   w hich   is  il lustrate in  Fi gure  7.           Figure  7. A NN m od el s to pre dict t he op ti m i zed  par am et er ( for   t he para m et er)         7.   RESU LT S  AND A N ALYSIS   7.1.    SSNNB   mo del effici enc   Figure  re pres ents  the  c om puta ti on al   tim of   s park  work  ind e pe nd e ntly   f or   both  def a ult   desig a nd  SSNNB.   For  va rio us   siz es  of   input  dataset s.  It  has  bee see that  the   tim necessa ry  in   e xecu ti ng  s pa rk  j ob  i s   essenti al ly   lowe with   SS N N rather  tha t he  def a ult  pa ra m et er  bounda r set ti ng f ree  of   i nfor m at ion   siz in   the sc op e  of  5 GB to  50 GB.           Figure  8.  Com par is on w it h S SNNB ap proac a nd d e fa ult config ur at io n       7.2.    Ab il ity  of S el f - tuni ng a nd  e xecu tion time  speedup   To  assess  t he  a bili ty   of   the  SS NN fr am ework,  sp a rk   job   has  bee e valu at ed  f or   fi ve  di sti nct  siz es  of   i nput  data  e xt en ding  f ro m   5   GB 10   GB,  15   GB,  20   GB to  50   GB  i nd e pende ntly   with   bo t the  S SNNB  an the  de fa ult  de sig n.  T he  pr e di cat ed  ideal   pa ram et ers  valu has   bee int rod uced  in  Figure  9.  Re fe rri ng   t   Figure  8,   wit the  de fau lt   co nfi gurati on,  for  dataset   siz es  of  5,   10,  15,  20,  and   50  GB,  spa rk   ta kes  8.3 3,  14.8,   19.83,  25. 45,  and   52. 11   m i nu te se pa ratel y.  No t withstan ding,  the  SS N NB  fr am ewor ta kes  5.9 8,   10.35,  13.55,  17. 29,   a nd  35. 21  m inut es  sepa ratel y.  In  Ta ble s   a nd  4,   it   can   be   s een  from   the  r esult  that  t he  S SNNB   appr oach   ac hi eved   a a ver a ge  30%  faster   com par ed  to  the  de fau lt   co nf i gurati on   wit in dep e ndent   dataset   siz e.   8 .33 1 4 .8 1 9 .83 2 5 .45 5 2 .11 5 .98 1 0 .35 1 3 .55 1 7 .29 3 5 .21 0 20 40 60 5 10 15 20 50 Minu te Data   Size W ith  Defau lt Co n f ig u r atio n W ith  SSN NB Sy stem     Relo ad  M o d el  &  Co rr esp o n d   Argu m en d ata   m e m o ry _ m o d el.h5   co res_ m o d el.h5   m e m o ry _ m o d el.h5   m ax Size InFlig h t_ m o d el .h5   co res_ m o d el.h5   P - 1  Value 4   P - 2  Value 4g   P - 3  Value 30   P -   4  Value  6g   P - 5  Value 80 m   Dataset    Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  11 , No 3 J une  2021   25 25   -   2534   2532       Figure  9. Dete ct ed  opti m u m   values  for   sp a r k param et ers       Table  3.   Proce ssing t i m e redu ce f or   dif fer e nt  d at aset     Proces s with  D ef au lt Co n f i g u ration   Proces s with  SS N NB syste m   Ti m e  Saved   Data I n p u t   Execu tio n  T i m e  ( Min)   Execu tio n  T i m e  ( Min)   In Min   5  GB   8 .33   5 .98   2 .35   1 0  GB   1 4 .8   1 0 .35   4 .45   1 5  GB   1 9 .83   1 3 .55   6 .28   2 0  GB   2 5 .45   1 7 .29   8 .16   5 0  GB   5 2 .11   3 5 .21   1 6 .9       Table  4.   Pr e dic te opti m u m  p aram et er v al ue  u si ng  SS NN B   appr oach     Co n f i g u rable Par a m e te rs   Def au lt    Para m eter   Valu e   W ith   SSNNB   5  GB   W ith   SSN NB   1 0  GB   W ith   SSNNB   1 5  GB   W ith   SSNNB   2 0  GB   W ith   SSNNB   5 0  GB   Nu m b e o f  cores o f  driv er  p rocess   1   3   4   6   6   8   Driver proces m e m o ry size in   Gig Bytes   1   g   2   g   4   g   4   g   4   g   4   g   Nu m b e o f  cores o f  execu to p rocess   1   20     20     30   30   40   Execu to p rocess   m e m o ry si ze in  Gi g a By tes   1   g   3   g   4   g   4   g   5   g   6   g   Maxi m u m  nu m b er  of  the  m ap  to each  r ed u cer  task   48   m   48   m   60   m   60   m   65   m   80   m         8.   CONCL US I O N   This  resea rc intr oduces  novel  way  to  dea with  the  sel f - tun in a ppr oac f or   s pa rk   predo m inant   par am et ers  to  sp eed  u t he  ex ecuti on   w hile  handlin b i da ta includi ng   t he  dif fer e nt  siz es  of   the  datas et   and  var ie ty   of   data.   Moreove r,   est i m ation   of  opti m u m   par am e ter   value  for  five   sel ect ed  par a m et ers  is  enab le by   the  ap proac h.   The  a ppro ac r ecei ved   the  optim u m   value  from   th neu ral  netw ork  m od el   and   update it   in  the   sp ar syst em   bef ore  proces sin g.   Dell   Power e dg R 70   ser ve r,   inclu ding  fiv diff e ren dat aset s,  has  bee us ed   in  the  pr ocedu re.  T he  pe rfo r m ance  of   SS N NB  is  com pared  with  t he  de fau lt   co nf i gura ti on a nd   t he  r esult   s hows  the  perf or m ance  i m pr ov em ent  is  30%  on   a ave ra ge.   It  ha al so   been   obser ve that  the  perfor m ance   was  im pr ovin w hile  inc re asi ng   t he  dataset   siz e.  Fu t ure  researc will   fo c us   on   ho to  sel ect   a   m or appr opriat nu m ber   of   par am et ers  an us be tt er  serv e r to   ob ta in   bette outc om es.  Me ta heurist ic al gorithm are to  b e  consi der e d for t his opti m iz at ion .       ACKN OWLE DGE MENTS   This  resea rch   is  fund e by  t he  Mi nistry  of  Higher  E duca ti on Ma la ysi a,  unde the  F undam ental   Re search  G rant   Schem FRGS/1/2 019/ICT 02/M MU/0 2/15.   The  a utho rs  a lso  w ould  li ke   to  ack nowle dge  the   anonym ou s r e vi ewer f or  t heir  v al ua ble c omm ents and insi gh ts .       REFERE NCE S   [1]   Archa na ,   R.   A.,   Ravi ndra   S.  Heg adi ,   and  T .   N.  Manjunath,   "A   Stud y   on  Big  Data   Privacy   Prot ecti on  Models  using   Data   Masking   Metho ds,"   Int ernati onal  Journa of   Elec tri cal  a nd  Computer  E ngine ering   ( IJE CE) ,   vol.  8,   no.   5,     pp.   3976 - 3983 ,   2018,   doi 10 . 11 591/i jece . v8i5 . p p3976 - 3983   [2]   Anagnostopoulos,   Ioa nnis,   Sher al Zeada l l y ,   an Erne sto   Expos it o,   "H andl ing   b ig  data:   Rese arch  challe ng es  a n future   d irecti ons , "   The  Journal  o f   Superc omputing ,   vol .   72 ,   no .   4 ,   p p.   1494 - 1516 ,   2 016.   [3]   Salkut i,   Surend e Redd y ,   "A   surve y   of  b ig  data   and  m ac hine   l e arn ing, "   Inte rnat ional   Journal  of   El ectric al  and   Computer  Engi n ee ring ( IJE C E) ,   vol.   10 ,   no .   1 ,   pp .   575 - 5 80 ,   2020 ,   doi:   10. 11591 /i j ec e . v10i1 . pp575 - 580.       Para m ete 1  Valu 4”   Para m ete 2  Valu 4g”   Para m ete 3  Valu 30”   Para m ete 4  Valu 6g”   Para m ete 5  Valu 8 0 m   sp ark.d river.c o res”          = 4   sp ark.d river. m e m o ry                = 4g   sp ark.execu to r. co res”                 = 30   sp ark.execu to r. m e m o r y ”                 = 6g   sp ark.re d u cer.m a x SizeInFlig h t”          = 80 m   Sp ark Sy ste m   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A smart  meth od fo r s pa r us ing   Ne ural N et work fo big   data   ( M d.   Arm anur R ahm an )   2533   [4]   Janka tt i ,   S. ,   R ag hav endr a ,   B .   K. ,   Ragha v endr a ,   S . ,   and  Me ena ksh i,   M. ,   Perform a nce   eva lu at ion   o Map - red uc ja pig  hive   and  spark  with  m ac hi ne  le arn ing  using  big  dat a ,   In te rnational   Journal  of  El e ct rica and   Computer   Engi ne ering  ( IJ ECE ) ,   vol .   10 ,   n o.   4 ,   pp .   3811 - 3 818 , 2 020 ,   doi 1 0. 11591/i j ece. v1 0i4. pp3811 - 381 8.   [5]   Hasan,   R.   A.,   A l ha y a li ,   R .   A.  I. ,   Za ki,   N.  D. ,   an Ali,   A.  H.,   An  ada pti v cl ust eri ng  and  c la ss if ic a ti on  al gor it h m   for  Twit t er  data   strea m ing  in  Apa che   Spark , ”  T ELKOMNIKA  Telecomm unic ation,  Computing,   El e ct ronics  and   Control ,   vo l.  17 ,   no.   6,   pp.   3 086 - 3099,   2019 .   [6]   Nivash,   J.  P. ,   et   al . ,   Anal y sis  on   enha n ci ng  stor m   to  eff i ci en tly   proc ess  big  d at a   in  re al   ti m e,”  F if th  In te rnation a l   Confe renc on   C omputin g,   Com municat ions a nd   Net work ing  Tec hnologi es  ( ICCCNT ) ,   2014.   pp.   1 - 5.   [7]   Raswitha   Bandi,  and   G.  Anitha,  " Mac hine   L earning  with  P y Spark - Review,"  Indone sian  Journal  of  El e ct ric a l   Engi ne ering  and   Computer  Sc ie n ce   ( IJEECS) ,   vol .   12 ,   pp .   102 - 10 6,   2018 .   [8]   Kal y ani  K. ,   and   Pathri k ar,   Rev ie on  apa ch s par t ec hnolog y ,   Int ernati onal   Re search  Journal  of  Engi n ee rin and  Technol og y ( IRJ ET) ,   vol.   04 ,   pp.   1386 - 1388,   Oct.   2017 .   [9]   Herodot ou,   H . ,   Li m ,   H. ,   Luo ,   G . ,   Boriso v,   N.,  D ong,   L . ,   Cetin,   F.  B. ,   and  B abu,   S.,   Starfi sh:   Self - tuni ng   S y s t em   for  Big  Da ta Analy tics,”   Cidr ,   v ol.   11 ,   no .   2011 ,   pp.   261 - 272 ,   20 11.   [10]   Riz a ,   L .   S. ,   Pra t ama,   F.   D.,  Pian ta ri ,   E . ,   and   Fashi,   M. ,   Genom ic   rep ea ts   detec t i on  using  Bo y er - Moore  al gor it h m   on  Apac he  Spark  Strea m ing, ”  TEL KOMNIKA  T el e communic atio n,   Computing,   El e ct ronics  and  Control ,   vo l.   18 no.   2 ,   pp .   783 - 7 91,   2020 .   [11]   Sall oum ,   S.,   Daut ov,   R. ,   Chen ,   X.,   Peng,   P.  X.,   and  Huang,  J.  Z. ,   Big  dat ana l y t i cs  on  Apac he  Spark,”   Inte rnational   Jo urnal  of  Data   Sc ie nc and   Analyt ic s,   vo l.  1 ,   no.   3 - 4,   pp .   145 - 164 ,   2016.   [12]   Jonnala gadd a,   V .   S.,  Srikant h ,   P. ,   Thumat i,   K. ,   a nd  Nall ama la ,   S.   H,  rev ie st ud y   of   apac he   spark  in  b ig  da ta  proc essing,   Int e rnational   Journal  of   Computer  S c ie n c Tr ends  an Technol og y ,   v ol.   4 ,   no .   3 ,   pp .   9 3 - 98,   2016 .   [13]   Naser   and  M .   Abd  Ulkar ee m ,   Prediction  prices  of  basra li ght  o il   using  art if ic i al  neur al   net works ,   In te rnat ional   Journal  of   Elec t rical   and   Computer  Eng ine ering   ( IJE CE) ,   vol. 10 ,   no .   3 ,   pp .   2682 -   2689 ,   2020.     [14]   Ma hm ood,   Maha ,   Be la Al - Kha te eb ,   and  W isa m   Makki  Alwash,   rev ie o neur al   n et w orks  appr oac on   cl assif y ing   canc ers,   Int .   J .   Arti f .   Intell . ,   vo l. 9, n o.   2 ,   pp .   317 - 32 6,   2020 .   [15]   Kw ia tkowski,   B . ,   B art m an,   and  Maz ur,   The  qu al ity   of  da ta   an the   a cc ur acy   of  ene rg y   g ene r at ion  for ecast   b y   art if ic i al   n eur a net works , ”  In te r nati onal  Journal   of  E le c tric al   an Computer  Eng ine ering  ( IJE C E ) ,   vol.   10 ,   no.   4,   pp.   3957 - 3966 ,   2020.   [16]   Anh,  Q.  H.,   Ta n ,   P.  T. ,   and   An,  N.  T. ,   hy br i Artifi cial  neur al   net work - gen e t ic   al gor it hm   for  loa shedding,   Inte rnational   Jo urnal  of El e ct ri c al  and  Compu t er  Engi n ee ring   ( IJE CE) ,   vol .   10 ,   n o.   3 ,   pp .   2250 - 2 258. ,   2020.   [17]   Goa y ,   C.   H.,   et   a l. ,   Progress   in  neur al   n et work  ba sed  te chni qu es  for  sign al   integrity   an aly sis sur ve y , ”  Bul l et in  o f   El e ct rica Eng in ee ring a nd   Infor matic s   ( BE EI) ,   v ol.   8 ,   no .   1 ,   pp .   2 76 - 282,   2019 .   [18]   Souri,   A.,   El   Maa zouzi,   Z . ,   Al  Achha b ,   M. ,   and  El   Mohaji r,   B.   E . ,   Neura net wo r dea li ng  with  Arabi la ngu age,   Inte rnational   Jo urnal  of  In formatic s and   Comm unic ati on   Techno l ogy  ( IJ - ICT) ,   vol.   9 ,   no .   2 ,   pp .   73 - 78,   2020 .   [19]   Abougara ir,  A.  J.,   Neura N e t works   Ide nti fica ti on  and  Con tro of  Mobile   Ro bot  Us ing  Adapti v Neuro  Fuz z y   Infe ren c S y ste m ,   Proc ee dings   of the   6th  In te rn ati onal  Con fe ren ce   on   Eng ine eri ng  &   MIS 2020,   pp.   1 - 9.   [20]   La m a,   P.,   and  Z hou,   X.,   Aroma :Automate r esourc a ll oc at ion   and  conf igurati on  of  m apr educ envi ronm ent   i n   the   cl oud ,”  Proc ee dings o th 9 t international c onfe renc on   Au tonomic   computing ,   2012 ,   pp .   63 - 72 .   [21]   Za har ia,  M.,   Konw inski,   A . ,   Jos eph,   A.  D.,   Ka t z,   R.   H. ,   and   Stoic a ,   I .,   Im pro ving  MapReduce  per form anc e   i n   het ero g ene ous  e nvironments,   Os di ,   vol .   8 ,   no .   4 ,   pp.   29 - 42,   2008 .   [22]   W u,   D.,   and  G okhal e ,   A. ,   self - tuni ng   s y st e m   base on  ap pli c at ion   profili ng  and  p erf orm anc e   an aly sis  fo r   opti m iz ing  h ado op  m apr educ e   c l uster  conf igura t i on, ”  20 th  Annua Int ernati onal   Confe renc on  Hi gh  Pe rform anc e   Computing ,   201 3,   pp .   89 - 98 .   [23]   Zha ng,   R. ,   L i,  M.,   and   Hild ebr and,   D . ,   Findin the  bi d at a   s wee spot Tow ard aut om atic all y   re comm endi ng   conf igurations  f or  hadoop  c lust ers  on  docker  c onta in ers ,”  I EEE  Inte rnat ional   Confe renc on  Cloud  Engi n ee ri ng 2015,   pp .   365 - 3 68 .   [24]   W ang,   K.,   and   Khan,   M.  M.  H ,   Perform anc pre diction  for  a pac he  spark  pl a tform ,”   IEEE  1 7th  Inte rnationa l   Confe renc on   High  Pe rform an ce   Comput ing  a nd  Comm unic ations ,   2015,   pp.   1 66 - 173 .     [25]   Yigit basi ,   N.,   W il lke ,   T .   L.,  Li ao ,   G.,   and  Epe m a,   D.,   T owards  m ac hine   le arn ing - base aut o - tuni ng  of  m apr educ e , ”  20 13  IEE 21st  In te rnational   S ym posium  on  Mode ll ing ,   Ana ly sis  and  Simulat ion  of  Computer  and  Tele communic a t ion  Syst ems ,   pp.   11 - 20 ,   2013 .   [26]   Sahana ,   H .   P.,   Sanja na ,   M.  S. ,   Muddasir,   and  N.  M.,   Apac he   Spark  Met hods  and  Techni qu e in  Big  Data - Revi ew,”  In ve nt i ve   Comm unic a tion and  Computa t ional   Te chnol og ie s ,   pp .   721 - 726 ,   2020.   [27]   Naz m ul  Haque ,   and  Md .   Hasn at   Ri az.,   "A uton om ous  Vehic le   Control   S y st em  as  Mobil R obot  b y   Artif ic i a l   Neura N et work ,"   Inte rnationa l J ournal  of Robot i cs  and  Au tomation ( IJR A) ,   vol .   6 ,   no .   3 ,   pp .   200 - 206,   2017 .   [28]   Shatha   A.  Ba ke r,   Hesham   H.  Moham m ed,   Hana and  A.  Ald aba gh Im proving  Face   Rec ogn it ion  b y   Artifici al  Neura N et wor Us ing  Princ ipa l   Com ponent   Anal y sis ,   T ELKOMNIKA  Tele communic a t ion,   Comput ing ,   El e ct ronics  and   Control,   vo l. 18, no.  6,   pp.   3357 - 3364,   2020 .   [29]   Shaik h,   E.,   Moh iuddi n,   I.,  Aluf ais an,   Y. ,   and  Nah vi,   I . ,   Apac he   Spark:  A   B ig  Da t Proce ss ing  En gine , ”  2019   2nd  IEE E   Middle  Ea st and   North  Af ri ca  COMMunic a t ions Conf ere n ce  ( MENA COMM) ,   2019,   pp.   1 - 6.     [30]   Al - Azz awi ,   D.   S.,   Applicat ion  and  evalu at ion  o f   th neur al  n et work   in  ge arb ox,   TEL KOMNIKA  Tele communic a t ion,   Comput ing,  El e ct ronics  and   Control,   vo l.  18 ,   no.   1,   pp.   19 - 29 ,   2020 .   [31]   Abd  Rahman,   N.  H.,   and  Le e ,   M.  H.,  Artificial  neur al   n et w ork  fore c asti ng  per form anc e   wit m issing  val ue   imputat ions,   I A ES  Int ernati onal   Journal  o f Artifi ci al   Intelli g ence   ( IJ - AI) ,   vol.   9 ,   n o.   1 ,   pp .   33 - 39 ,   2020 .   [32]   Bhat tacha r y a ,   A. ,   and  Bhat nag ar,  S.,   Big  dat an apa che   spark rev ie w,”   Int ernati onal  Journal   of  Eng ine erin g   Re search  &   Sci enc e ,   vol .   2 ,   no .   5 ,   pp .   206 - 210 ,   2 016.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  11 , No 3 J une  2021   25 25   -   2534   2534   [33]   Pati l,  N .   S. et   al . ,   surve y   on  gra ph  da ta base   m ana gement  t echni ques  for  hug e   unstruct ur ed  da t a,   Int ernati onal   Journal  of   Elec t rical   and   Computer  Eng ine ering   ( IJE CE) ,   vol. 8,  no.   2 ,   pp .   1140   - 1149 ,   2018 .   [34]   Nair ,   L.   R. ,   She tty ,   S.  D.,   and   Shetty ,   S.  D. ,   St rea m ing  bi data  ana l y sis  for  re al - ti m sent iment  base ta rge t ed   adve rt ising,   Int ernati onal  Jour nal  of  El e ct ri cal  and  Computer  Engi ne ering  ( IJE CE) ,   vol .   7,   no .   1,   pp.   402 - 407 2017.   [35]   Vijay ar ekha,  K. ,   Acti va t ion  Fun ct ions,   NP TE L - El e ct ron,”  Com mun.  Eng . - Patte rn R ec og n it,   pp .   1 - 6 ,   2015 .   [36]   Md.  Arm anur   Rahman,   J.   Hos sen  and   Venka t a seshaia C . ,   SM BS P:  Self - Tuni ng  Approa c using  Mac h in e   Le arn ing  to   Im prove   Perform ance  o Spark  in  Bi Data   Pro ce ss i ng, ”  7 th  Int ernati onal  Con fe ren ce   on  Comput er   and  Comm unic a ti on  Engi ne ering ,   2018 ,   pp .   274 - 279 .   [37]   Md.  Arm anur   Rahman1,   Abid  Hos sen,   J.  Hos s en,   Venka ta s esh ai ah  C . ,   Towa r ds  Mac hine   L earning  base Self - tuni ng  of  Hadoo p - Spark  S y stem, ”  Indone sian  Jo urnal  of  Elec trical  Engi n ee ring  and  Computer  Sci en ce   ( IJEECS) ,   vol.   15 ,   no .   2 ,   pp .   1076 - 1 085 ,   20 19.       BIOGR AP H I ES   OF  A UTH ORS       Md.   Armanu Rah man  rec ei ved  B. Sc.   d egr ee   in  computer   science   and  eng inee ring   from   As ia Univer sit y   of   Banglade sh  (AU B)  in   2010,   Mast ers  ( MEngSc. degr e in   Big  dat and  Ma chi ne  L ea rning  f rom   the   Multi me dia   Univer si t y   ( MM U),  Malay si in  2019.   Now   he  i per suing  Ph.D .   in  Faci a Expr ession  Rec ognition  using  Mac hine  Le arn ing  at   Mul ti m edi Unive rsit y   (MM U).  His  rese arc int er est  i ncl ude  pe rform ance   opti m iz ation  of   big  da ta s y st em, data mining, m ac hine l e arn ing   a nd  image   pro ce s sing.           Jakir  Hossen   is  gra duated  in  M ec han ic a Eng in ee ring  from   th Dhaka   Univer sit y   of   Engi ne eri ng  an Te chnol og y   (1997),   Master in  Comm unic at ion  and  Net work  Engi ne eri ng  fro m   Univer siti   Putra  Malay sia  (200 3)  and  PhD   in  S m art   Te chnol og y   and   Robot ic   Engi ne e ring  from   Unive rsiti   Putra   Malay sia   (2012).  He  is  cur ren t l y   Se nior  Le c ture a the  Facul t y   of  En gine er ing  and  Te chno log y ,   M ult imedia   Univ e rsit y ,   Malay s ia.  His  r e sea rch   int er ests  are   in  th a rea  o Artificial  Int el l ige nc (Fuzz y   L ogic ,   Neura Ne twork ),   Infe r enc S y st ems ,   Patt ern   Cl a ss ifi ca ti on ,   Mobi le   Robot  Navig a ti on  and  Int el l ige nt   C ontrol .         A z i z Su ltana  r ec e ive th B. Sc.   degr ee   in  co m pute scie nc and  engi ne eri ng   from   Dhaka   Inte rna tional  Univer sit (DIU in   2016.   She  is  cur ren tly   per sui ng  Ma sters  degr ee   in  Com pute Scie n ce   an Engi nee ring  a the   sam unive rsit y .   Her  rese arc h   int er est  inc lud per form anc opt imiza ti on  of  big   dat s y stem,  da ta   m ini ng,   m ac h ine  le arn ing  and   ima ge  proc essing.         Ab d ullah  Al  Mam un   has  rec e ive B . Sc.   degr ee   i E lec tri c al   and   Elec troni c   Engi ne eri ng  fro m   Pabna  Univer sit y   of  Scie n ce   and  Te chno log in  2018.   Now  he  is  pursuing  M.E ng . Sc. a Mult imed ia   Univ ersity   ( MM U)  in  the   F ac ul t y   of  Engi n ee ring   and  Te chno log since   2019.   His  rese arc int er est  inc lude co m pute vis ion;   image  proc essing,   sign al   pro ce ss ing, deep  l ea rning   and   m ac hine   learni n g.         Nor  A z li na  Ab   A z i z   she  is  cur ren tly   Senior  L ec tur er  in  th Fa cul t y   of  Engi ne e ring  and  Technol og at   Mult imedia   Univer sit y ,   Me l aka .   She   is  inter este in  the   f ie l of  soft  computing  and  it appl i cati on  in  eng ineeri ng  proble m s.  More  spec ifi c al l y ,   her   foc us i s in   th e ar ea   of   sw arm i nt e ll ige n ce a nd   nature  inspir ed  op tim iz at ion   al gor ithm .     Evaluation Warning : The document was created with Spire.PDF for Python.