Internati o nal  Journal of Ele c trical   and Computer  Engineering  (IJE CE)  V o l.  5, N o . 2 ,  A p r il  201 5, p p 34 0 ~ 34 I S SN : 208 8-8 7 0 8           3 40     Jo urn a l  h o me pa ge : h ttp ://iaesjo u r na l.com/ o n lin e/ind e x.ph p / IJECE  Big Data: Challenges, Opportuniti es and Cloud Based Solutions      Hami d  B a ghe r i  *,  Ab dus al a m  Ab dul l a h  S h al t o oki * *   University  of Kurdistan,  I r an   ** University   of  Human Develop m ent, Ir aq       Article Info    A B STRAC T Article histo r y:  Received Nov 20, 2014  Rev i sed  D ec 31 , 20 14  Accepte Ja n 22, 2015      W e  are  liv ing  in  an  era  of  infor m ation exp l os io n. Th ere  ar cha lleng es  with  large and  complex amount of data gene r a ted ever y  day  b y  social networks,  wikis, blogs, emails, tr affic s y s t em, bri dges, airplanes and  engine, satellites   and weather s e n s ors .  90% of current dat a  in the world has  been creat ed in the   las t  two  ye ars .   Our s m art planet  beco mes more and more intelligent. B e sides   the ch allenges p o sed b y  such  vast amount  of data including stor age, search sharing,  anal y s is, and  visualizati on, th ere ar e also m u ch opportu nities  for t h world as it beco mes more and more digi t a li zed This stud y  pr ese n ts Big Data  and highlights its key  con cep ts   a nd s t at e-of-the- a rt im plem ent a tio n as  wel l  as   research  challen g es and suggests res earch d i rections for futur e . IT log   analy t ics, Fraud  detection pattern,  social media pattern and modeling an d   management p a tterns ar e some o f  oppor tunities.  Hadoop is a clou d based  and   open source solu tion for  Big Data Analy t ics which has been written b y   java.  Hadoop solution  is currently  still immature . In this paper, thr e e topics are  suggested for research dir ection: Security  issues in  Big Data, co ntext- aware  inform ation r e tr i e val ,   and in te gr ating onto l og y  with Big  Data.   Keyword:  Big  Data an alytics  C l ou d c o m put i n g   H a doo M a pR ed uce   Copyright ©  201 5 Institut e  o f   Ad vanced  Engin eer ing and S c i e nce.  All rights re se rve d Co rresp ond i ng  Autho r Ham i d B a gheri   In fo rm ation Te chn o lo gy ,   Kurd istan  Un i v ersity,  Ira n, Kurdistan,  Sa nanda j , Pas d ara n   st reet.  Em a il: h . b a gh eri@uok .ac.i r       1.   INTRODUCTION  We are living in an era of inform ation expl os ion which large scale am ount of dat a  is getting  i n creasi n gl y  l a rge r  beca use  o f  vi rt ual  wo rl d s , wi ki s,  bl o g s ,  e-m a il , onl i n e gam e s, VoI P  t e l e ph one , d i gi t a l   p h o t os, i n stan t  m e ssag e s (IM), tweets, traffic system , b r i d g e s, airp lan e s and  en g i ne, satellites, weath e sens ors .    9 0 of  cu rre nt   dat a  i n  t h wo rl d  h a s bee n  c r eat ed  in th e last two  years [1 ]. T h ere are c h allenges  of  m a nagi n g   s u c h  vast   am ou nt   o f  het e r oge n e ou s dat a  fo r exam pl e dat a   vari et y  and v o l u m e  and anal y t i cal   co m p lex ity. Bi g   d a ta an alytics h a s b e en   grown in  t h e last y ears  [2-3 ].  FaceBook acc um ulates huge  am ounts of data with  about  800 m i llion users a n d billions  of  page  views every  day which cause m a ny  challenges to storing  and  processi ng all these data. FaceBook needs  anal y t i c s t ool   t o  m i ne and  m a ni pul at e l a r g e am ount   of  dat a  (a bo ut   1 5  t e ra by t e s) e v ery   day  i n   d i ffere nt  l a ng uage s,  di f f e rent  t i m es, fr o m  di fferent  l o c a t i ons a n d f r o m  di fferent   pl a t form s.    In th is section   b i g   d a ta ch aracteristic, four t y p e o f   an alytics and   op po rt un ities to  create bu sin e ss  v a lue will   be di scus sed .     1. 1.   B i g D a t a  c h ar acteri s t i c   M o st  defi ni t i ons o f  bi dat a  foc u s o n  t h e  si ze of dat a  i n  st ora g e b u t  t h ere are ot he r im port a n t   at t r i but es of bi g dat a :   dat a  va ri et y   and dat a  vel o ci t y   [2]. T h ese three  Vs  of  big data  (Volum e, Variety and  Velo city) are sh own  in fi g u re  1 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Big   Da t a : C hallen g e s, Opp o r tu n ities and  Cl o u d   Ba sed   So lu tio ns   ( H a m i d  Ba gheri )   34 1     Fi gu re  1.  C h a r act eri s t i c s of  B i g Dat a   [ 1 ]       There  i s  va ri et y  of s o urces i n  bi dat a  f o r  exam ple web sources i n cluding s o cial m e dia and logs   whi c h m a ke i t  com p l e x. U n s t ruct u r ed  dat a   (f or e x am pl e audi o,  vi de o, T e xt ) a nd  sem i - s t r uct u re d dat a  (f o r   in stan ce  XML, RSS feed ) is no jo in ed  with stru ctured   dat a . Acc o r d i n g t o  M i cros o f t  O v er  85  pe rcent   of  dat a   capt u red i s   uns t r uct u red  [ 4 ] .  Vel o ci t y  or s p e e d f o r e x am pl e vi de o cam era  scan ni n g  i n  a c r o w f o r r eco g n i z i n g   specific  face is  anothe r c h arac teristic of  big data.     1. 2.   Four  Type of An alytics   New a n al y t i c s appl i cat i o n f o r  exam pl e Vi de o a nd a u di o a p pl i cat i on a r e n eeded  t o   pr oce ss st ream i n g   b i g   d a ta. So und  m o n ito r to   pred ict eart h qu ak es an d  sa tellite i m ag es to  reco gn ize cloud   p a ttern s are ano t h e exam ple whic h ha ve to be  ana l yzed.  Th e term  “an alytics” h a s fo ur typ e [3 ]: Qu an titativ e Research and   Develo p m en t, Dat a  Scien tists,  Op eration a l An alytics, an d   Bu sin e ss In tellig en ce and  Disco v e ry. By p u t tin g  b i g   d a ta an d  an alytics to g e th er  we will d i sco v er m o st sig n i fican t resu lts in   b u s i n ess  v a lu e.  In  t h e n e x t  sectio n  b i g  d a ta i s  sho w n  as a sp ecial  asset th at pro d u ces  b i g opp ortu n ities fo r bu sin e ss.    1. 3.   Sma r ter  a n d Intellig ent Planet Big  Da ta  Oppo rtunities  B e si des t h e chal l e nge s p o s e d by  suc h  v a st  am ount  o f  dat a  (B i g  D a t a ), t h ere a r e  al so  m u ch   o ppo rt u n ities fo r th world  as it b eco m e mo re an d  m o re  d i g italized . For ex am p l e, in fo rm atio n  d e ri ved  fro m   digital records can m a ke doc tors' j o b easier in accurately diagnosing an d treating illne sses, and bring down  h ealth care costs fo p a tien t s, an d th ov erall  q u a lity an d  effi cien cy of  h ealth care will b e  im p r o v e d  [5-7 ].  Our sm arter p l an et h a s b e come  m o re an d  m o re in tell ig en t. Th ere are so m e  b i g  o p portu n ities th at   deri ve fr om  big dat a  [ 6 ] :  IT Lo g anal y t i c s, Fra ud  det ect i on pat t e r n , soci al   m e di a pat t e r n  an d M o del l i ng a n d   m a nagem e nt  p a t t e rns.       2.   CU R R ENT  S T ATE A N D  R ELEVANT  TOPIC S   Big Data technol ogies a r e not a re placem ent for current technologies ; they are a com p lem e nt [6].  Big  Data m u st b e  in teg r ated   with  th rest  of en terpri se infrastru c tu re. Besid e s th e c u rre nt  sol u t i o n s  f o r bi data analysis, there a r e som e   new c h allenge s , for in sta n ce  need  for robus t statistical  me thods and m a naging  m i ssi ng dat a  [ 8 -1 0] . As m e nt i one d i n   sect i o n  1 we  ha ve  un stru ctured  and   stru ctured  d a ta; in teg r ation  b e tween  th em  is an o t her ch alleng [1 1 ] In th is sectio n   b i g   d a ta an alytics so lutio n ,  t o o l s and tech n i q u e s will b e   revie w ed .     2. 1.   Clou d Based  Big Data  Solu tion   Clo u d  co m p u tin g   prov id es  n e w cap ab ilities fo r p e rfo r min g  an alysis acro ss all  data in  an   or ga ni zat i on.  I t  uses  new  t echni cal  a p p r oac h es t o  st o r e, se arch , m i ne and  di st ri b u t e  m a ssi v e am ount o f  dat a   [6].  Problem s suc h  as la rge-scale im age  processi ng,  s e ns or  dat a  c o rrel a t i o n ,  s o ci al  net w or k a n al y s i s encry p t i on/ dec r y p t i o n,  dat a   m i ni ng,  si m u lat i ons,  an d  p a t t e rn  reco g n i t i on ca be  s o l v e d  i n  t h e   cl ou d   com put i ng d o m ai n.  Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  IJEC E V o l .  5, No . 2, A p ri l  20 15   :    34 0 – 3 4 3   34 2 To cope with  problem   m e ntione d above about F aceB ook,  Cloud allows Facebook to levera ge m o re  than  8,500 Central Proce ssing Unit (CPU) c o res a n d peta byt es of dis k  space to create ri ch data a n alytics on  a   wi de ra nge   o f  busi n ess cha r a c t e ri st i c s.     N e w  cloud  com p u tin g  tech no log i es su ch  as H a doo p,  MapReduce and  BigTable are  driving analytic  trans f orm a tion in the  way orga nizations  store ,  acce ss a n d process m a ssive am ount s of disparate data  via  m a ssi vel y  para l l e l  and  di st ri b u t e IT  sy st em s. C l o u d  ap pl i cat i on a r chi t ect ures  are  base on  t w pri n ci pl es:      Elasticity : o n l y u s e co m p u ting reso urces  wh en   n eed ed   Scalab ility: h i g h l y elastic in frastru c ture t o  resp on se ch ang i ng  co nd itio n su ch  as d a ta  vo lumes.  Researches  are  dri v ing across  the cloud  ecos y ste m  fo r s o m e  reas ons . Fi rst  of al l ,  cl ou p r o d u ces t h e   n e w an alytic cap a b ilities of  big  d a ta. Second , it  p r ov id es  massiv e ly scalab le an alytics an d th ird   reason  is all   facilities  listed  ab ov e are com b in ed  with  th e security  an d  fin a n c ial ad v a n t ag es of switch i ng  to  a clo u d   com put i ng en v i ro nm ent .   Th er e ar e ch allen g e w h en   dealin g  w ith   b i g  d a ta  o f   v o l umes g r eater  than  10  ter a b y tes. A ltho ugh  rel a t i onal   dat a base m odel s  a r e capa b l e   of  r u nni ng  i n   Dat a  C l ou d,  m a ny cu rre nt  rel a t i o nal  d a t a base  sy st em fail in  th e Data Clo u d  i n  two  i m p o r tan t  ways:    M a ny  rel a t i o na l  dat a base  sy st em s cann o t  sca l e t o  s u p p o rt   p e t a by t e s or  g r e a t e r am ount o f   dat a  st o r age .     Whe n   com p l e dat a  i s   no rm al i zed i n t o  a  r e l a t i onal  t a bl e  f o rm at  im pedance m i sm at ch ha ppe ns Wh en   d a ta is co llected often th first step  is to tran sfo r m  th d a t a n o rm al ize th e d a ta, and in sert a  row in to  rel a t i onal  dat a base.  Next us ers q u ery  dat a   base d o n   key w or ds o r  p r e-l o a d ed sea r c h  q u e r i e s and  wai t  f o th e resu lts to retu rn On ce ret u rn ed , u s ers  sift  th ro ugh  resu lts.    2. 2.   Hadoop: Ope n  Source  Heart  of Bi Data  and Cl oud Or iented  Approach  Hadoop is a  Top level Apache project  ope n s o urces oftware  fram e wo rk  th at’s  wri tten  in  j a v a   pr o g ram m i ng l a ng ua ge [ 9 ] .  I t  enabl e s ap pl i cat i ons t o   wo r k  wi t h  t h o u sa nds  o f  com put at i onal  i nde pe nde n t   com put ers an d  pet a by t e s of dat a . Ha do o p  was de ri ve d fr om  Googl e' s M a pR ed uce an d G o o g l e  Fi l e   Sy st em   ( G FS).  H a doop   h a s t w o p a r t s: a f ile system (H adoo p D i strib u t ed File Syste m  o r   H D FS)  an d a  p r og r a m m in g   para di gm  (M apR e d u ce) . Tas k s s u c h  as s o r t i ng,  dat a  m i ning , i m age  m a ni p u l a t i on,  s o c i al  net w o r k a n al y s i s i nve rt ed i nde con s t r uct i o an d m achi n e l ear ni n g  a r pri m e jo bs  f o r  M a pR educe .   HDFS is a d i stribu ted ,  scalable, an d  po rtab l e  file syste m  w r itten  in  Jav a  fo r th e Hado op   fram e wo rk HDFS st o r es  larg files acro ss m u ltip le mach in es.  It ach i ev es  reliab i lity b y  rep licatin g  th e d a ta  acro s m u lt i p l e  host s HD FS  was  des i gne d t o  ha n d l e  ve ry  l a rge  fi l e s.    Forrester re ga rds  Ha doop a s  the m o st si gni ficant  p a rt  of th n e x t -g en eration  Enterp rise Data  Ware h ousi ng  ( E D W) i n  t h cl ou d [ 7 ] .  Ha d o o p  i m pl em en t s  the core fea t ures that  are  at the heart of  m o st  m odern E D Ws : cloud-facing  architect u r es, i n - d at abase  ana l y t i c s,  m i xed  wo rkl o a d  m a nagem e nt  and a  hy b r i d   stora g e layer.         3.   PROP OSE D  RESEA R C H DIRE CTIO N   In th is section  t h ree research directio n s  are  pro p o s ed :     3. 1.   Sugges t ed T o pic 1:  Conte x t-Awar In fo r m ati o n Re trieval (I R)   Searc h  an d R e t r i e val  wi t h  a h uge am ou nt  of  st ruct u r e d  an unst r uct u re d d a t a  are affect ed  by  C ont ex t   i n  m a ny  way s . Fo r e x am pl e i n f o rm at i on i n  bi g dat a  c o nsi d e r ed a s  a  som e t h i ng dy n a m i c over t i m e and  changing ci rcum s t ances. For  sup p o rt i n g t h es e dy nam i c si t u at i on c ont e x t   m u st  be appl i e d t o  searc h  a n d  IR  a n d   new  f r am ewor k s h o u l d   be a p pl i e d.     3. 2.   Sugges t ed T o pic 2: Big  Data Sec u rity  Ch allenges   To day ,   dat a ba se m a nagem e n t  sy st em s onl y  su p p o r t  sec u ri t y  pol i c i e s at   f i ne  grai n  l e vel  [ 12]   fr om   inappropriate access; while due to the le ss structured a nd i n form al nature  of  big data curre nt soft ware  has no  suc h  sa feguards.  The future  of big  data will be in the cloud  but thes e sol u tions als o  com e   with som e  challenges s u ch  as security. In  Big Data Anal ysis on cloud,  som e  re searches about Acce ss Contro l, encryp tion  for tack lin securi t y  pr o b l e m  and en fo rci n g secu ri t y  pol i c i e m u st   be d one . F o r d e fi ni ng  ne w m odel s  and m e t hods  we ca n   follow “ D ata Security as a  Service (DaS) “a pproac h.      3. 3.   Sug ges t ed T o pi c 3 :  In te gra t i n g O n t o l o g y   w i th B i Da t a   An al yti c s   W i t h  a h u g e a m ount  of  dat a  col l ect ed by   Web 2 . 0 ,  t h ere i s   anot her  fi el d f o researc h O n t o l ogy  i s  t h e   st ruct u r al   fram e wo r k  f o or g a ni zi ng  i n fo rm at i on.  To day ,   bi dat a  i s  n o t  j u st  a b o u t  si z e  o f   dat a . T h e  m o st   Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Big   Da t a : C hallen g e s, Opp o r tu n ities and  Cl o u d   Ba sed   So lu tio ns   ( H a m i d  Ba gheri )   34 3 i m p o r tan t  in terest is d i gg ing  and  an alyzin g   un stru ctured  d a ta.  For tak i ng  adv a n t ag es of  o ppo rt u n ities  m e ntioned i n   pre v ious secti o n, Big Data  m i ght  bene fit from  ontology technol ogy and Ontology-base d   analysis.       4.   CO NCL USI O N   There  are c h al l e nges  wi t h  l a rge a n d com p l e x am ount   of  dat a  ge nerat e d  every   day  by  so m a ny  di ffe re nt  so u r c e s an fr om  di ffe rent   pl at f o r m s. Accor d i n g  t o   [1]  a b out   9 0 of  w o rl d' s dat a  h a been   creat ed   in  th e last two  years. Ou r sm art p l an et b e comes  m o re an d   m o re in tell ig ent. Besid e s th e ch allen g es po sed  b y   suc h  vast  am ount   of d a t a , t h ere are al so m u ch  o p p o rt uni t i es for t h e w o rl d as i t  beco m e m o re and   m o re  di gi t a l i zed. Th i s  st udy  prese n t s  B i g Dat a  and hi g h l i g ht s i t s  key  concept s   and c u r r ent  ap pr oac h es as w e l l  as  researc h  c h allenge s and  suggests three  re search direc tion s   for fu ture. IT l o g  an aly tics, Frau d d e tectio n   p a ttern, so cial med i a p a ttern  an d  m o d e lin g   an d  m a n a g e m e n t  p a ttern s are  so m e  o f  o p portu n ities. Hadoo p  is a  clo u d  b a sed  an d   o p e n  so urce so lu tion  fo Big  Data An al ytics wh ich  is still  i mmatu re. In  th is p a p e r, th ree  to p i cs ar e suggested  f o r  r e sear ch  d i r ectio n :   Secur ity issu es in  Big  D a ta, co n t ex t- aw ar e in fo r m atio n  r e triev a l,  an d in tegrating on to log y   with   Big  Data.      REFERE NC ES   [1]   Big Data, for b e tter or worse: 90 % of world' s d a ta gener a ted over  last two  y e ars. S c ie n ceDaily . R e trieved August 2 3 2013, from http://www.sc iencedaily .com- /rel eas es/2013/05/13052 2085217.htm  [2]   T Sutikno, D Stiawan ,  IMI Su broto. Fortif y i n g  Big Data  infr astructur e s to Face Secur i t y  an d Privac y  Issue s TELKOMNIKA (Telecommunica tion Computing   Electronics and   Control) . 2014;  12(4): 751-752 [3]   Ne i l  Ra d e n,  B i Da ta Ana l yti c Archite cture ,  20 12, Hired  Brains, Inc  [4]   Microsoft Big Data,  solution brief www. microsoft. com   [5]   Michael  Farb er, MikeCameron, Christ opher  Ellis , Massive Data   Analy t ics and  cloud, Booz Allen  Inc, 2011   [6]   C.Zikopou lis, C h .Eaton, D.d e Ro os, Unde rstanding Big Data: An aly t ics for En ter p rise Class Ha doop and Streaming   Data, Th e McGr aw-Hill Com p an ies, 2012   [7]   The Forrester W a ve™: Enterpri s e  Hadoop  Solutions, Q1 2012   [8]   H. Dem i rkan, D. Delen ,  Lev e rag i ng the capab ilit ies of se rvice-or ient ed decision support s y stem s:  Putting anal y t i c s   and big  data  in  cloud, Decis. Support  S y st. (2012 ) ,  doi:10.1016 /j.d ss.2012.05.048   [9]   http://hadoop .ap ache.org/  [10]   Jianqing Fan ,  H a n Liu ,  Sta tist i c a l Ana l y s is of  B i Data on Phar macogenomics,  Advanc ed Dr ug  Deliv er y R e v i ew s   (2013), doi: 10 .1 016/j.addr.2013 .04.008   [11]   Managing Data  in Motion: Data Integr ation  Bes t  Pract ice Techn i ques and  Techn o logies, First Ed ition (2013)  125 - 128. doi:10.1016 /B978-0-12-397167-8.00018-2   [12]   Big Dat a : What  It Is  and Wh y   You Should Car e . R i ch ard  L .  V illars . Car l  W.  Olofson. Matth ew Eastwood. June  2011      BIOGRAP HI ES OF  AUTH ORS       Ham i d Bagheri rece ived the B . S .  and M.S. degrees in Software  engineering f r om the Shahid   Beheshti Univer sity Tehr an, in 2 011.  Since 2009 , he has been  working in Informat ion Technolog y in Kurdistan  University . His   res earch in ter e s t s  include S e rvi ce Orient ed Arhcit ectur eand ,  Big Data and Ult r a large S c ale   S y ste m s.            Abdusalam Abdullah Shaltooki r eceived h i s M.S. degree in  software eng i n eering from th Sulaimniah Univ ersity , in 2011 His research  inte rests include software Eng i neerin g and Big  data  Anal y s is . He  is   working as   a l e c t urer in   th e Univ ersity  of Human  Development, Ir aq.      Evaluation Warning : The document was created with Spire.PDF for Python.