Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   23 ,  No.   1 ,   Ju ly   2021 , p p.  5 19 ~ 528   IS S N: 25 02 - 475 2,  DOI: 10 .11 591/ijeecs .v 23 .i 1 . pp5 19 - 52 8           519       Journ al h om e page http: // ij eecs.i aesc or e.c om   A deep  web dat a extrac t ion  mod el   f or we b mi nin g : a re view       Ily Amali n a A hma d  S ab ri , Mus tafa  Man   Facul t y   of  Oc ean E ngin ee ring   T ec hnolog y   and   I nform at ic s,   Univ ersit i   Malay si a T ere ngganu ,   Kua l Nerus,   T ere ng ganu,   Malay s ia       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Sep   1 1,  2020   Re vised A pr 22 , 2 021   Accepte Ma y   1,   2021       The   world   wide   web  has  b ec o m l arg e   pool   of  informat ion.  Ext r ac t ing   struct ure da ta   f rom   publi shed  webpa ges  has  dra wn  at te n ti on  in  the   la s t   dec ad e.   The   pro ce ss   of  web  dat a   ext ra ct ion  (W DE)  has  m an y   challe ng es,   du e   to  var i ety   of   web  data  and   the  unstruct ure d   d at from   h y p er t ext   m ark up   la nguag e   (HTML)  fil es.   The   a i m   of  thi pape is  to  provide   co m pre hensive   over vie of  cur ren web  data  e xtra c ti on  techni ques,   in  te rm of  ext racte d   qual ity   d ata.   This   pape foc uses  on  stud y   for  d ata  ext r ac t ion  usi ng  wrappe appr oac h es  and  co m par es  ea ch  o the to  ide n ti f y   t he  best  appr oach  to  ext ract   dat from   onli ne   site s.  To  observe   the   eff i ci en c y   of  the   proposed  m odel ,   we  compare   the   p er form anc of  data  ext r ac t ion  b y   single   web  pag e   ext ra ct ion   with  diffe r ent   m odel such  as  document  object  m o del   (DO M),  wrappe usin g   h y brid  dom   and  json   (W H DJ ),   w rap per   ext r actio of  image   usin DO M   and  JSON  ( W EID J)  and  W EIDJ  (no - rule s).  Fina lly ,   t he  expe r imentati ons  prove tha W EIDJ  ca ext ract  dat fas te st  and  low  ti m consum ing  compare to   othe proposed   m et hod.   Ke yw or ds:   Data ext racti on techn i qu e s   Do c um ent o bje ct   m od el   No isy  i nfor m ation   Web data  extra ct ion   Wr a pper  e xtr act ion   of   im age   us in g DO M  and JSO N   Wr a pper  us in hy br i D O and JS ON   This   is an  open   acc ess arti cl e   un der  the  CC  B Y - SA   l ic ense .     Corres pond in Aut h or :   Ily  A m al ina A hm ad  Sabri   Faculty  of  Oce an  E ngineeri ng  Tech nolo gy a nd Info rm atics   Un i ver sit i M al ay sia  Tereng ga nu   Ku al Ne ru s , T ereng ganu, M al ay sia   Em a il :   i ly l ina@u m t.edu .m y       1.   INTROD U CTION   The  World  Wi de  Web   has  be com la rg pool  of  inf orm ation   w hich  c on t ai ns   we pa ges inclu ding   i m ages,  au dio ,   vid e c li ps,  pro du ct   in f orm at ion W e traff ic   is  am on t he  im po rt ant  issue  due   to  the   extracti on  proc ess   [ 1] T he   pr ocess  of  e xtra ct ing   data  fro m   web   pa ges   is  c on ce r for  people  t hat  le ad  t oth e pur pose  and   giv huge   ben e fit.  Com m on ly web sit es  are  m a inly   desig f or   hum an  to  glance   certai inf or m at ion T he  str uctu re  of  we bs it es  are  di ff ere nt  eac ot her   a nd  they   a re  sem i - structu red.  Pe op le   ne ed  to   sel ect   certai i m ages  m m anu al ly   that  the are  interest ed  to  save.  It  is  t i m e   con s um ing On of  the   te chnolo gies  th at   can  be  ap plied  f or   web   dat extracti on  ( WDE)  is  cal le as  w rapper .   The  m ai go al   of   this   wr a pper  or  to ol   is  to  tra nsfo r m   the  sem i - structu red  data  i nt str uctu red  da ta The re  a re  lot  of   resea rc hes  t hat  discuss   a bout  wr a ppers Mos research es  discuss   ab out  au tom a ti data  e xtracti on  inclu des  noise   inf orm at ion post - proce s s ing   m ay   be  require in  web   da ta   extracti on  to  deal  with  be nef ic ia extract ion It  is  im po r ta nt  to  extract  the  data  with  hi gh   pr eci sion   a nd   rec al and   al so   i fastest   way  f or  us ers I this  pap e r,   wr a pp er  has   been  propose to  e xtract  dat base on  dif fe re nt  r ules  a nd  m od el s uc as  docum ent  obj ect   m od el   ( DO M ),  wr a pper   us in hybr i d   D OM  and   JS ON   ( WHDJ ),   w rapper  e xtracti on   of   im age  us ing   DO a nd  JSO N   ( W E I DJ)  an WEIDJ   ( no - r ul es).   This   resea r ch  wor ks   no t   only   f ocu s   on  how   to  extract   da ta   but  al so  f oc us   on   pr ovidin us e r   fr ie ndly   platf orm   fo de velo pe rs  t treat   t he   extracte data T his  ca be  a chieve c om plete l thr ough the  u s er frien dly b rowser f or GUI   Evaluation Warning : The document was created with Spire.PDF for Python.
                           IS S N :   2502 - 4752   Ind on esi a J  E le En &  Co m Sci,   Vo l.   23 , N o.   1 Ju ly   2021 5 1 9   -   52 8   520   Ov e the  past  new   decad e s,  nu m erous  stu di es  hav bee carried  ou on  m ining   data  from   web sit or   web   pa ge an nu m ero us  te chn i qu e ha ve  be en  ap plied  [ 2] Ma ny  rece nt  works  trie to  extract  the  str uc ture inf or m at ion   from   web   pag e us i ng  va riet of   te c hniq ue su c as   D OM,  visu al   se gm entat ion or  ot he r   te chn iq ues  [3 ] ,   [ 4] Kam anw a et   al .,   [ 5]   ag r eed  that  WD is  way  of   m i ning  us e r’s  re quisi te   figure f ro m   web   pa ges.   N ow a days,  t he  extracto is  us ed  to  e xtract  i nfor m at ion   be cause  web   pa ge   is  an  oc ean  of   data  wh ic m akes  browsi ng  inf orm at ion   as  ver com plex  task N orm ally  t he  co ntents  of   web   doc um ents  are   un st ru ct ur e d.  Web  data  extra ct ion   is  def i ne a s   process  wh ic us t oo l   an wr a ppers   as  m ediu m to  extract   inf or m at ion   from   web   doc um ents  in  hype r te xt  m ark up   la ngua ge   ( HTM L)  f or m at The   no isy   in f or m ation   s uc as tags,  adve rtise m ents, an d b ann e r x wil l be  rem ov ed by  wrapp e r.   STEM   ha bee propose by  Fang  [6]   to  e xtract  str uctu re of  ide ntifie rs   from   the  ta path  of  we pag e s.  The su f fix  tree  is  buil on   top   of   t hese  seq ue nces   and   f our  re fin ing   filt ers  are  pro po se to  vi ew  the  sect ion w hich   co ntain  un ne cessary  in form at ion Pour am i ni   et   al ,   [7]   pro posed  ha ndle - base wr a pp er  by   us in DO t re ap proach.  T hi researc wor ked  on  te xt  fea tures.  It  act as   ha nd le t m i ne  data  rec ords   from   web   pa ges.   T he   extracti on  con sist of   te xt ual  delim it ers,   keyw ords,   c onsta nts  or   te xt   p at te rn s Po ly no m ia l   al gorithm   has  been  desi gned  to  f or m   agains the  pa ge  el e m ents  in  tw s it uations m ixed  bo tt om   up   a nd  to p - dow trave rse  DO M - tree.  T he   lim it a ti on   of   this  app li cat io is  the  extracti on   proce ss  can  only   be  per f or m ed  on the  visible  pa rts. It   can  not  extract f r om  the who le   we b p ages.   TANG was  pro po se by  Jim Ć©nez   et   al .,   [ 8] ,   desi gn e to   le arn   r ules  f or  detai le an recall abili ty   extracti on  of  inf or m at ion   fro m   se m i - structu red   w eb  do c um ents.  The  high  preci sion   a nd  recall abili ty   are  pr e - requisi te in  th co ntext  of   e nter pr ise   syst e m integrati on .   It  de pe nd s   on   on  an   ope ca ta l og ue   of  ty pe that   helps  to  m ap  the  co ntents  of   do c um ents  into  kn owle dge   base.  Eac co m po nen of   we doc um ents  i D OM   node  is  denote by  HTML,  D OM,  CSS rela ti on al a nd   us e r - def i ned   featu res.   Re sea rch   done  by  et   al . [ 9]   ha s   pro po se the  de ep  we data extracti on  (DW DE)  fram ewo r to p r ovide ac cur at e res ults to u se rs  base on thei r   URLs  or dom a ins sea rch e d.   Tripathy   et   al. [10]   pro posed   VEDD  wr a pp er  to  extract  th relevan sear ch  res ults  records   ( SRR s)   from   search  eng i ne  by  filt ering   ou the  no isy   and   re dund ant  rec ords.   B FS  was  us e i the  beg i nn i ng  as  it   helpe to  re - st r uctu re  the  unstruct ur e an se m i - structured  SSR  pag e wh i ch  si m plify  the  extracti on   pr oc ess.  SSR  pag e whic in  turn   si m pl ifie the  e xtracti on  proc ess.  Dero uiche   et   al,   [11]   propose obj e ct   run ne r   te chn iq ue  cal le w rappe inf eren ce  that  processes  the  e xt racti on   an in te gr at io auto m at i cally   of   com plex   structu re data . Th e e xtracti on pro ce ss w as  done  in t wo  sta ges; au tom at ic   annotat ions an extra ct ion  te m pla te   const ru ct io ns.   X W R AP w rapper  base on   DO tree   was  de velo pe by  Liu   et   al . ,   [12] It  c onsist of   f ou r   com po ne nts;  synta ct ic al   structur no rm aliz at ion in form ation   e xtracti on  was  use for  der i ving  r ules,   code   gen e rati on  was   us e for  gen e r at ing   the   w ra ppers   pro gram s,  te sti ng   a nd  pa ckin us e f or  validat io n.   OL ERA   was  de vel op e by  Chan et   al.,   [13] It  pr oduce ext racti on   ru le from   sem i - structu re we pag es  without   consi der i ng  th trai ning   data s.  It   was  desi gn e with  vis ualiz at io sup ports.  H oweve r,   the  te chn i que  was   represe nted  by   it sensiti vity  to  the  order i ng   in f or m at ion T her wer e   al so   pro bab il it ie in  the  fail ur of  extracti on  proc ess, if  tem plates  f or   each  att ribu te   we re s im i la r.   Liu  et   al. ,   [ 14]   pro posed   MDR.  It  was   f ully   auto m at ed  syst e m   to  ide ntify  da ta   records  in   webpa ges.   T he   app li cat ion   of  this  te chn iq ue   ob li ge al data  to  hav sam par e nts  and   m ul ti ple  data  reco r ds  to  hav e   sim i la stru ct ur e s.  Th draw bac of  this  ap proac was  it disa bili ty   to  ext ract  in div id ual  fiel ds .   V IPS   was  propose by  Ca Yu   et   al .,   [ 15 ]   an Ca i   et   al .,   [ 16 ] It  was  c om bin at ion   of  tw te chn i qu e s;  pa rsing   of   HTML  in  DOM   tree  and   we pa ge  la yo ut  analy sis  us in visu al   c ues.   T he  ex pe rim ent cl early   sh ow ed  that   visio n - base w eb  pa ge  co ntent  structu re  wa ver he lp fu in  detect ing   an filt ering   ou no isy   an irrel evan t   inf or m at ion A lt ho ug this  re search   pro ve good  c om pliances  to  the  m ulti ple  data  re gions  of   dee w e bs   f or  data ext racti on, it sti ll  r est rict ed by i ts i nca pa bili ty  it  co m plete ly  r e m ov in g n oise.   Crescenzi   et   al .,   [ 17]   de velo pe Roa dR unne r.   T his  to ol  e na bled  data  e xtr act ion   th r ough   the  us of   autom at ic ally  gen e rated   w ra pp e rs.  It  was   base on  the   s i m i la riti es  and  dif fer e nces   be tween   the  we bp a ges .   The  a dvanta ge   of  Roa R unne is  that  it   ha d   no  pri or  knowle dge  a bout  t he  sc hem of   t he  webpa ges  a nd  it abili ty   in  han dl ing   neste str uctu res  of  co ntents.  Th lim i t at ion we re  it disabili ty   in  m anag in dis jun ct i on   cases  and   er r ors  in  the  inp ut  docum ents,  thu s   aff ect ing   it ’s  e ff ect ive ness.   I EPAD,  a   syst em   that  auto m atical l disco ver e e xtracti on   ru le from   web   pa ges   [18] This  sys tem   can  identify   recor bo undar ie from   rep eat e patte rn   m ining  and   m ulti ple   sequ e nce  al ign m ents.  The  adv a ntage  of   this  te chn i qu is  the  extracti on   of  inf or m at ion   inv ol ves  no  hu m an  ef forts  an con te nt  de penden heurist ic s.  The  li m it at io of  this  to ol  was  it s   poor a bili ty  in  deali ng w it c om plex  an d ne ste str uctu red  data.   Hsu  et   al.,   [19 ]   dev el op e SoftM eal as  we data  e xtracti on  to ol.  T his  t oo a ppli ed  c onte xtu al   r ules   and  fi nite  sta te   tran ducers  (FST)  te c hn i qu e   wh i c c om pr ise body  tra nduc ers  a nd  tu ple  trans du ce r.  Th body   tran du ce rs  ext racted  the  pa r ts  of   the  web  con te nts  that   con ta in  tu ple.  Then,  tup le   tran du ce rs  it erati vely  extracte the  t up le s T his  te c hn i qu e   ho wever  wa no a bl to  gen e rali ze  oversee s epa rator s.  T SI MM IS   was   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752        A d ee we b da t ext r action m od el  f or  we b m ining : a review  (Ily  Amali na A hma d Sabri)   521   an  extract or   th at   extracts  data  us ing   e x tract or  from   WW W   con te nts  then  c onve rted  the  extracte in for m at ion  into  struct ur e d   f or m at   bef ore  storing  it   into  data base  [ 20] The  releva nt   data  is  retriev ed  in  ob j ect   ex change   m od e l (O EM)   form at   Web   data  extr act ion   syst em   i so ftw are  a pp li cat io that  can  retrie ve  rel evan in form ation   s uch   a s   te xt,  i m ages,  aud i an m any  oth ers  f r om   web   s ources  [ 21 ] T his  ap plica ti on   usual ly   coope rates  with  we so urces   an m ining  the  rel e van i nfor m at i on  to  be  store d.   The   m ining   co ntents  c ons ist   of   ori gin s   in  the   HTML  web   pa ges  a nd   can  be   post - pr ocesse d,   tra nsfo rm ed  to  the  m os sui ta ble  structu re f or m at   and   s tore for  a dv a nce  pur pose.  D OM  can  be  a ppli ed  directl to   disco ve the   require i nfo rm ation   f r om   HTML   do c um ents.  A bid in   et   al.,   [ 22]   co ns tr ucted   DO tree   str uctu re  on  the   pr e li m inary  step T he n,   unne cessary  nodes   su c as   script,   sty le   need  to   be   fil te red .   Cl assifi cat ion   process   is  vital   to   th searc cl ass es  of   m ul tim edia   data.  Data  for  m e dia  will   be  reco gniz ed  wh e the  par se f ound  w ord  ā€œsrc=ā€  in  the  data  struc ture.   Finall m ult i m edia  data  can  be   extracte d.   H ow e ve r,   it   has  been   f ound  tha la rg a m ou nt   of   processi ng  tim es   are  re qu i red   f or  the  e xtracti on  of  web   pa ge w hich  c onsist la rg siz of  HTML  str uct ur es Be sides  t hat,  al i m ages  will   be  extracte with ou co ns ide rin rep e ti ti ve  file s.  Th us   W E I DJ  m od el   is  pr opos e t o   o v e r c o m e   t h e   l i m i t a t i o n s   o f   D O M   m o d e l   i n   e x t r a c t i n g   i m a g e s .   T a b l e   1   s u m m a r i z e s   w e b   d a t a   e x t r a c t i o n   t o o l s .   The  m otivati on f or  t his r esear ch  ori gin at es  from  p rev io us  works on  te ch ni qu e s and m et h odologies o f   locat ing  an e xtracti ng  data  f ro m   var i ou s   w eb  pa ges  of  dif fer e nt  sit es.  Th ese  data   can   be   ve ry  ben e fici al an us ef ul  f or   m anag erial   inf orm at ion T he  ext r act ed  inf or m at i on   is  m erg ed  i nto   the  m ultim edia  databa se  a nd   ca be  us e to  f ulfi ll   new   queries  in  the  ne xt  sta ge  of  data  m ini ng.  The  m ai con t rib ution   of   t his  resea rch   w ork  is  the  de velo pm e nt  of   the  web   data  extracti on   m od el   us in hy br id  a pproach es  for  i m age extracti on  an detai ls  rev eal at io of  it inf or m at i on.  T his  m odel   is  ex pected   to  e nab le s   a e ff ect ive  i m age’ e xtrac ti on   by  sp eci fical ly   disclose  only   relat ed  par ts,  sim ultaneousl resul ts  in  red uce extracti on ’s  tim es.  This  pap er  is   structu re as  f oll ows;  In   the   fo ll owin Se ct ion   2,  this  pa per   pr ese nts  the  resea rch   m et hod  to  ad dre ss  the  extracti on  iss ue s.  T he n,   we   will   show   the   perform ance  of  pro po se to ol   in  Sect io wh ic pr e sents   res ult   and analy sis a nd  finall y i Sec ti on   4,  t he  c on cl us io is  disc u sse d.       Table  1.   We b data ext racti on too ls   (Auth o r, y ea r)   Too ls       Mod el   Fan g Xie,  Zhan g Ch en g  and  Z h an g   [ 6 ]   STE M   Su f f i x  T ree  Ba sed   Metho d   Po u ra m in i,  Kh aj Hass an i and  Nasiri   [ 7 ]   Han d le - b ased  Wra p p er   DOM  Tr e e   Ji m Ć©n ez a n d  Co rch u elo  [ 8 ]   TANG O   DOM   Ch itra  an d   Ay sh Ban u  [ 9 ]   DW D E   Tag b ased  Feature   Tr ip ath y ,  Jo sh i,  T h o m as, Shett y  and   Tho m as [ 1 0 ]   VEDD   -   DOM  Tr e e   -   Breadt h  Fir st S ear ch  ( BFS)   Derou ich e,  Cau tis  an d  Abd ess ale m   [ 1 1 ]   Ob jectRu n n er     Liu, Pu an d  Han [ 1 2 ]   XW RAP   DOM  Tr e e   Ch an g  and  Kuo  [ 1 3 ]   OLE RA     Liu, Gr o ss m an  and  Z h ai [ 1 4 ]   MDR     Cai, Yu,  W en   an d  M a [ 1 5 ]   VIPS   -   DOM  Tr e e   -   Visu al Cu es   Crescen zi,  Mecc an d  M erialdo  [ 1 7 ]   Ro ad  Ru n n er     Ch an g  and  L u i [ 1 8 ]   IE PA D   Pattern Disco v er y   Hsu  and  Dun g  [ 1 9 ]   So f tMealy     Ha m m e r G arcia - Molin a,  Ch o Ar an h an d  Cresp o  [ 2 0 ]   TSI MM I S   Ob ject E x ch an g Mod el ( O EM )       2.   RE SEA R CH MET HO D   The   basic  co nc epts  of   data  extracti on  pro cess  m us consi st  of   data,  sel ect ion trans f or m at ion   and  knowle dge.  I the  pr el im inary  ste p,   us e rs  ne ed  to  kn ow   t he   ty pes  of   data  that  they   are  extracti ng  ei ther   te xts,   i m ages,  vid e os  or   oth e rs.  This   sel ect ion   of   da ta   m us be  do ne  earli er  beca us eac data  has  thei ow s ource s   and   e xtracti ng   m od el s.  A fter   the  sel ect ion   of   the  ty pe  of   data  has  bee do ne,   the  fol lowing  pr oces are  abstracti ng  a nd   trans f or m ing   t he  sel ect ed   data  into   ta bula f or m at   us in s pe ci fic  ap proac he w hich  nee to   be  fu ll y u nderst ood pr i or  t o dev el op a  wr a pper.   W ra ppers  are  t oo ls  that  ha ve  been   dev el op e us in s pecifi te chn iq ues  or  m od el s T his  too can  be   us e to   extract   i m ages  aut oma ti cal ly The  w rapper   can   be   cat egorized   i nto   tw m ai co m po nen ts .   The   firs t   com po ne nt   in volves  t he  in sert ion   of  we a dd ress, ā€œ URLā€  of   web  pa ge.   It  c om pr ise s   the  pa rsing  of   t he  H TML  web   pag a nd  conver ti ng  th e m   to  DO M   tree   struct ur e Th is   co nv e rsion  is  sign ific a nt   to  un de rsta nd  the   structu re  of   H TML   pa ges  in   tree  en vir onm ent.  This  m et hod  is  us ef ul   in  ha nd li ng   the  str uctur e   of  dat a ,   wh et her  it   is  struct ur e d,   sem i - structu re or   unstr uctu red.  T he  sec ond  pa rt   is  relat ed   to  t he  knowle dge  base Evaluation Warning : The document was created with Spire.PDF for Python.
                           IS S N :   2502 - 4752   Ind on esi a J  E le En &  Co m Sci,   Vo l.   23 , N o.   1 Ju ly   2021 5 1 9   -   52 8   522   const ru ct io n.   T he  e xtracti on t echn i qu e s   that  are b e en  a ppli ed  in t his r e sear ch work  a re   D OM,  hybri m od el   of   DO a nd   J S ON   ( WHDJ)   a nd   hybri m od el   of   DO M JSON  an vis ual  segm entat i on   ( WEIDJ) .   Figure  sh ows  g e ne ral  m od el s f or th re e w e b data ext r act ion  m od el s;  DO [ 23 ] , W HD J [ 24 ]   a nd  WEIDJ   [ 25 ] .           Figure  1.  Ge ne ral m od el       3.   RESU LT S   A ND AN ALYSIS   Fo e xperim ental   wo r ks se ve ral  sa m ples  of   WW we pag e wer ta ken   a nd   the  e xtracti on  of  con te nts  was  pe rfor m ed  on  t he   sam pled  data   us in HTML   so urce  file s.  T his  file   c on ta in the  in f or m at i on  of  the  im ages  whic are   goin t be  e xtracted .   Fig ur sho ws  s am ple  ext ractor  s pecifica ti on   of   file List   of  com m and s c onsist  o im ages an im age’ U RL can  be  see n i the  br ac kets  ā€˜ {ā€˜ a nd ā€˜ } ’.  M os t o the im ages  a r e   i n   . j p g   f o r m a t   f i l e .   W E I D J   i s   c a p a b l e   i n   e x t r a c t i n g   i m a g e s   o f   v a r i o u s   f o r m a t s   s u c h   a s   . j p g ,   . g i f ,   . b m p   a n d   o t h e r s .   JavaSc ript  O bj ect   No ta ti on,  a lso  know as  J SON  is  synta for  savi ng  an swappi ng   data.   JSON  ha m or ben efit   that  can  im pr ess  the  us e r.   T his  te chnolo gy  enab le us er easy   to  underst and   a nd  get  th th e   i m po rtant  te xt  in  orde tran s m itti ng   data  ob j ect s.  It  is  the  best  ch oice  f or  stora ge  an it   al so   ena bled  sp ee dy  respo ns to  in form ation   que r ie s.  The  ou t put  can  be  ra nge f ro m   si m ple   to  com plex  structu re  an hi gh ly   nested $js on_url _p at is  us e as  c on st ru ct or  to  in form   the  JSON  da ta   set   to  inclu de  the   nested  st ru ct ures  of   JSON  obj ect .   I first  ste p,   U RL  nee ds   t be   declare as  json  path.  T hen,  ā€˜s rc’  val ue  ne eds  t be  s peci fied  as   path.   T his  is  ver im po rtant   in  order   to  find   th inf or m at ion   of  im age from   the  i m age  neste str uctu re.   Figure  sho w the  struc ture   of  e xtracted   i nfor m at ion w hich   has   been  orga nized   in   structu re ways  an disp la ye in  ta ble  form at [26] T he  e xtract ion   pr ocess  in  this  exam ple  was  pe rfor m ed  by  ta ble  def in it ion s.   The  i niti al   co m m and   $js on_URL  gets  t he  con te nts  of  the   sour ce  file   or  web  a ddress   w ho s URL   is  giv en   i [ā€˜ URL ’].  Af te r   the  file   has  be en  fetche d,  the  co ntents  will   be  detai le into  s peci fic  crit eria  su ch  as   $no,   $im g_ URL,  im age,  $si ze_in _byt es  and   $to ta l_tim e_load_page.  T he  extra ct ion   inf orm ati on   will   be  d en oted  i ta ble r e pr ese nt at ion .       Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752        A d ee we b da t ext r action m od el  f or  we b m ining : a review  (Ily  Amali na A hma d Sabri)   523       Figure  2. A  sa m ple ex tract or   sp eci ficat io fi le           Figure  3. The  e xtracted  in for m at ion  in  J S O f orm at       In  ad diti on  to   the  basic  ca pabi li t ie of  WEIDJ,   our   ext ractor  al so   pro vide seve ral  oth e us ef ul  a nd   us er ’s  fr ie ndly   feature s.  On e   of   t hem   is  t he  que ries  to  the  save im a ges  are   pro vide d.   Fi gure  s how s   colle ct ion   of  im ages  that  ha ve   bee sa ved   in  sin gle  m ultim edia  databas e.  Th ese  im ages  can  be  querie f r om   database  for  be nef ic ia pur pose.  T hus,  it   can  be  us e f or   furthe pur po s su c as  ge ne rati on  of  repor ts ,   analy sis   Im ages  that  hav bee sel ect ed  will   be  sto r ed  in  m ultim e dia  databa se.  The  i m ages  are  su ccesf ully   save in  datab ase.  There  are   two  op ti on t hat  can  be  sel ect ed  by  us ers   fo sa ving  i m ages  into  m ult i m edia  database  ei t her  in  aut om at ic   o m anu al JS O as  sta ndar m od ule  c ou l acce pt  any  da ta   structu re  a nd   t urn   them   into  representa ti on  of  string.  Fig ur sho ws  im age that  su ccesf ul ly   extracte and   represe nt  in   JSON  form at . Th e ad van ta ges usin g JSO is  f ast er  and it i ver y e asy  to use.       Evaluation Warning : The document was created with Spire.PDF for Python.
                           IS S N :   2502 - 4752   Ind on esi a J  E le En &  Co m Sci,   Vo l.   23 , N o.   1 Ju ly   2021 5 1 9   -   52 8   524       Figure  4. Im ages r et rie ved f rom  d at abase           Figure  5. JS O f orm at       The  e xperim entat ion   f or  deep  we b,   t he  we data  e xtracti on   is  pe rfo rm ed  by  co ns i der i ng  the  siz an diff e re nt  le vel  of   im ages  [27] This  e xp e rim ent  has  bee c onduct ed  with   reg a rds  to  f or m er  works  do ne  by   [16]   to  c om par the  perf or m ances  of   e xtra ct ion   process.   The  im age  extracti on   has   be en  e xtracted  i three   ways:   a)   The  e xtracti on  of im ages in  g e ner al   way    b)   The  e xtracti on   of  im ages  by   co ns ide rin t he  siz e   of  im a ges  i t wo  pa r ts;   50*50  pix e ls  an 128* 128  pix el s.   c)   The  e xtracti on  of  im ages  is  te s te ra ndom ly   at   dif fer e nt  le ve ls;   pag e s,  10  pag e s,  15  pa ges,  20  pa ges,  25  pag e s a nd 30 p ages.   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752        A d ee we b da t ext r action m od el  f or  we b m ining : a review  (Ily  Amali na A hma d Sabri)   525   In  this  pap e r,  we  discuss  the   resu lt   of  dee web  data  e xtra ct ion   by  e xtrac ti on   of  im ages  that  has   bee te ste rand om l fo 30   pag es   as  sh ow in  T able s   a nd   3   a nd   by  co ns ide rin two  par ts  of   e xtracti on  pi xels;   50*50  pi xels  a nd  12 8*128  pi xels.  Ta ble  s hows  t he  per c entage  of  ti m e   extracti on  re ga rd i ng  to  Ta bl 4 ( a )   and   ( b ) .   From   t his  ta ble,  we  c an  see  that  t he  per ce ntage  of  tim extracti on   for  WEIDJ  a nd  WEIDJ - no  r u le is   lowe com par e to  im age  extr act ion   us in D OM  an WHD J.  This  perf orm ance  can  pro ve  that  the  e xtr act ion  sem i - structu re d data u sin g W EID J  is fa ste st  com par ed  t o other s .       Table  2.   Per for m ance  of im age ex tract io n by  w e b pag e ( 30  U RL f or  DOM  and  WHDJ   B en ch m a rk   DOM   W HDJ     I m ag e f o u n d   I m ag retr iev ed   I m ag f iltered   Ti m e   I m ag f o u n d   I m ag retr iev ed   I m ag f iltered   Ti m e   a m n h .org   1662   611   1051   3 8 4 5 .7 2 7 8   1077   578   499   2 4 5 7 .5 0 4 2   o cean.si.ed u   687   610       77   7 5 1 .5967   62   7 1 5 .2595   iu cn .org   289   251   38   6 8 3 .3783   227   191   36   5 0 9 .2624   en d an g eredsp ecies in ternatio n al.org   77   43   34   1 5 8 .5747   59   43   16   1 1 6 .4149   wwf .org . m y   492   375   117   5 0 3 .206   460   371   89   4 6 2 .0894       Table  3.   Per for m ance of  im age ex tract io n by  w e b pag e ( 30  U RL f or  WEIDJ a nd  WEIDJ  (no - r ules)   Ben ch m a rk   W E IDJ   W E IDJ(no - rules )     I m ag f o u n d   I m ag retr iev ed   I m ag f iltered   Ti m e   I m ag retri ev ed   Ti m e   a m n h .org   249   204   45   1 0 0 .272   5 4 3 0 / 1 6 9 1   5 1 0 .6992   o cean.si.ed u   379   366   13   8 2 .71 6 2   6 9 1 /6 7 6   2 5 4 .8985   iu cn .org   118   101   17   1 0 8 .7956   8 1 9 /2 7 4   2 0 8 .7372   en d an g eredsp ecies in ternatio n al.org   277   105   172   4 7 .43 3 5   4 2 7 /4 0 1   3 8 .95 2 1   wwf .org . m y   371   276   94   9 4 .92 8 8   4 9 5 /4 6 1   7 7 .92 7 6       Table  4.   Per for m ance of I m ag extracti on  by  p e rcen ta ge fo r   30  URL   W eb  add ress   DOM   W HDJ   W E IDJ   W E IDJ - n o  r u les   Ti m e   Percenta g e %   Ti m e   Percenta g e %   Ti m e   Percenta g e %   Ti m e   Percentag %   a m n h .org   3 8 4 5 .7 2 7 8   5 5 .6   2 4 5 7 .5 0 4 2   3 5 .5   1 0 0 .272   1 .5   5 1 0 .6992   7 .4   o cean.si.ed u   7 5 1 .5967   42   7 1 5 .2595   40   8 2 .71 6 2   4   2 5 4 .8985   14   iu cn .org   6 8 3 .3783   45   5 0 9 .2624   34   1 0 8 .795 6   7 .2   2 0 8 .7372   1 3 .8   en d an g eredsp ecies in ternati o n al.org   1 5 8 .5747   4 3 .9   1 1 6 .4149   3 2 .2   4 7 .43 3 5   1 3 .1   3 8 .95 2 1   1 0 .8   wwf .org . m y   5 0 3 .206   4 4 .2   4 6 2 .0894   4 0 .6   9 4 .92 8 8   8 .35   7 7 .92 7 6   6 .85       To  gi ve  bette r   visu al iz at ion   for  us e rs,   Fi gure  s hows  the   per f orm ance  of   ti m e   fo ea ch  m od el   in  extracti ng  im a ges  f or  WW F   web sit (r e fer   t Ta ble  4).  Fro m   this  figure,  we  ca see  that   tim per form a nce  of  Do c um ent  Obje ct   Mod el   is  44%  w hich  is  c on t rib uting   l onger   tha oth e m od el s.  This  is  because   the  m od el  needs  to  chec the  im ages  fo eac no de  on b one  be fore  extracti ng  al i m ages  from   this  web sit e.  Th e   wr a pper h ybri D OM  an JS ON  (WH DJ)  has  been  p r opos ed  to  ove rco m the  lim i ta ti on   of   D OM.  T he  resu lt sh ow  t he  hy br i m od el com bin at ion   of   D O and   J SON  ( 40%)  is  s ucces s.  H ow e ve r,   al though  the  ti m ha been   reduce but  there  a re  cer ta in  i m ages  that  can  no been   extracte d.  That   is  the  weakne ss  of   WHDJ S o,   i this  resea rch  work  we   pr opos e ne hybr i m od el   w hi ch  is  c om bin at ion   of  the  vis ual  se gm entat i on  an handlin noisy   i m ages  can   be   detect ed   to  e ns ur e   that  only   ben e fici al   im a ges  ca be  retr ie ved .   T he  def i niti on  of  noisy   i m ages  is  the  im ages  that  m a con ta ins  of  lo go,  re pe ti ti on   of   im ages  an m any  m or e This  is bec ause   web,  de sp it a ct as  la rg re po sit or ie of   knowle dge,   it   unde niably  al so  con ta i ns   nois inform at ion No isy   inf or m at ion   can  de gr a de  the  perform ances  of   data  extracti on s W E I DJ  is  propose in  orde to  overc om the  lim it at ion   of   e xtracti ng  be ne f ic ia i m ages  an rem ov noisy   i m ages  to  en su re  it   ca e xtr act   i m ages  in  f ast est   way.  From   this   f igure,  th pe r centage  of   WE ID i extracti ng   im ages  is  qu it fastest   (8%).  WEIDJ  N o - ru le s   is  i m ple m enting  sim il ar  te chn iqu in  WEID  m od el   bu this  m od el   will   ret rieve  al ty pes  of im ages  inclusi ng   no isy  im ages.   Table  an sh ows   im age  extracti on  f or  de ep  web  that  ha ve  sam ple  siz of  im age  between  50 x50  and   128x12 8.   The  reas on  th extracti on   ha been   e xp e ri m ented  in  bet ween   this  tw siz is  becau se  the   ben e fici al   i m a ge  siz norm al ly   in  rag 128x12 but  the  noisy   i m ages  suc as  head e r,   l ogo  a nd   so   for th  is  i 50x50 pi xels.     Evaluation Warning : The document was created with Spire.PDF for Python.
                           IS S N :   2502 - 4752   Ind on esi a J  E le En &  Co m Sci,   Vo l.   23 , N o.   1 Ju ly   2021 5 1 9   -   52 8   526       Figure  6. Perce ntage %   of  ti m e p e rfor m ance  for diffe re nt m od el s  in  e xtract ing  im ages       Table  5.   Per for m ance of im age ex tract io n f or d ee p web ( Size  50*5 0)   Ben ch m a rk   DO M     Link  Fou n d   I m g  f o u n d   I m g   retr iev ed   I m g  f iltered   Ti m e   a m n h .org   132   4881   2125   2756   1 0 5 5 6 .22 3 8   o cean.si.ed u   97   1966   1610   356   2 3 1 9 .4 2 4 4   iu cn .org   96   999   811   188   1 9 7 9 .6 8 5 1   en d an g eredsp ecies in ternatio n al.org   30   394   288   96   8 6 5 .8827   wwf .org . m y   142   1803   1374   429   1 9 0 0 .9 3 9 4     WH DJ   a m n h .org   132   4013   2028   1985   8 7 7 8 .3 7 4 7   o cean.si.ed u   97   1705   1505   200   2 0 7 6 .7 5 4 8   iu cn .org   96   707   596   111   1 6 2 5 .4 5 9 6   en d an g eredsp ecies in ternatio n al.org   30   300   269   31   5 3 4 .6634   wwf .org . m y   142   1626   1370   256   1 3 8 5 .7 1 5 7     WEI DJ   a m n h .org   132   1521   1385   136   4 5 7 .7495   o cean.si.ed u   96   836   803   33   3 1 2 .985   iu cn .org   96   340   310   30   3 0 8 .6347   en d an g eredsp ecies in ternatio n al.org   30   262   102   160   2 6 .40 4 8   wwf .org . m y   143   1311   1059   251   3 1 8 .2913     WEI DJ  ( no  Rul es )   a m n h .org         7 3 3 9 / 4 9 2 1   9 2 8 .7615   o cean.si.ed u         3 8 3 2 / 1 9 7 2   5 8 0 .42   iu cn .org         1 9 5 2 / 1 0 1 1   6 6 0 .984   en d an g eredsp ecies in ternatio n al.org         4 2 7 /4 0 1   3 6 .82 0 5   wwf .org . m y         3 6 7 2 / 1 9 0 7   5 7 3 .7713       Table  6.   Per for m ance of  im age ex tract io n f or d ee p web  ( Size  128* 128)   Ben ch m a rk   DO M     Link  Fou n d   I m g  f o u n d   I m g   retr iev ed   I m g  f iltered   Ti m e   a m n h .org   133   4920   839   4081   1 3 7 0 9 .22 5 3   o cean.si.ed u   97   2007   404   1603   3 2 4 4 .0 4 6 7   iu cn .org   96   998   493   505   2 9 8 0 .6 3 9 6   en d an g eredsp ecies in ternatio n al.org   30   394   78   316   8 0 8 .1518   wwf .org . m y   143   1818   307   1515   1 6 2 1 .6 7 9 6     WH DJ   a m n h .org   134   4124   822   3302   1 2 2 2 3 .65   o cean.si.ed u   98   1681   404   1277   1 8 8 8 .9 1 3 1   iu cn .org   97   790   523   267   1 7 7 2 .1 3 8   en d an g eredsp ecies in ternatio n al.org   30   300   66   234   4 3 6 .362   wwf .org . m y   143   1175   164   1011   5 9 2 .1318     WEI DJ   a m n h .org   1593   1420   173   1 6 9 7 .7 9 3 1   1593   o cean.si.ed u   98   846   807   39   1 3 6 8 .3 6 4 1   iu cn .org   97   389   330   59   1 2 5 3 .8 5 1 7   en d an g eredsp ecies in ternatio n al.org   30   277   93   184   4 5 .66 1 7   wwf .org . m y   143   1371   541   829   3 4 2 .2131     WEI DJ (no - rules )   a m n h .org         7 0 1 2 / 4 9 1 8 /   1 3 3 5 .5 3 6 2   o cean.si.ed u         3 9 0 2 / 2 0 0 5   5 3 3 .1249   iu cn .org         1 0 0 2 / 9 7 0   5 4 0 .0529   en d an g eredsp ecies in ternatio n al.org         4 0 0 /4 2 7   3 1 .12 6 8   wwf .org . m y         2 5 4 1 / 1 3 4 6   3 1 0 .7469   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752        A d ee we b da t ext r action m od el  f or  we b m ining : a review  (Ily  Amali na A hma d Sabri)   527   4.   CONCL US I O N     In  this  pa per,  we  ha ve  descr i bed  m od el   for  web  da ta   ext r act ion   pro gr am s,  wh ic pro vid es  a offe r   po te ntial   web   data  extracti on  for  us ers Am ong  17  we bs it es  that  we  us e f or  the  e valu at ion   e xp e rim e nt,  th e   exp e rim ental   work   discu sses   the  extracti on  from   fi ve  web s it es  and   the  le ve of   extracti on   is  fo cusi ng   on   deep  web.  It  can  be  op e rated  by  th act ion   of  use rs  in  cl ic king  a nd   pointi ng  th cur s or   t sea rch   th we ad dr ess   after  inse rtin the  we ur l T hi exp e rim ent  s hows  t hat  our  pro po se wr a pper  is  a ble  to   r edu ce   us e r’ s   bur de r in  w riti ng  any   co nf i gurati on   file   due  t diff e ren st ru ct ure  of   ea ch   we pag e   al th ough  it   is  in  t he   sam e   web sit e.  A i m po rtant  pa rt  of  our   w ork   was  t he  m odel   of   we data  extracti on,   the  e xecu ti on  t i m of  extracti on  bec om lon ge es pe ci al ly   in  ext r act ing   a   la r ge  nu m ber of  im ages  due  to   c onta in  t he  no isy   im ages   al so Ma j ori ty   of   t he  te ch niqu es  co nv e rt  the  web sit int D OM  tree  s th at   they   can  be  analy zed  to   id entify   no ise s   by  rem ov i ng  the  unre la te el em ents.   The   extra ct io ti m beco m e lo ng e s a al te rn at ive  have  be e cond ucted  t de crease  t he  e xe cution  ti m by  app ly in J S ON  in  WHD J.   A im pr oved   al gorithm   and   bette r   so luti on  in  dea li ng   with  the  ever   ex pa nd i ng  data  siz e,  wh ic w ou l furthe com plica te   the  pr oce ssin of  the   data,  s houl be   inv e nted A fter  the  e xtracti on  is  su cce ssf ul   the  i m ages  an relat ed  i nform at ion   will   be   save in  data base  a struc ture f or m at This  inf or m at ion   can  be   us e f or  f ur t her   act io s uc as  decisi on  m akin g.  The  one  releva nt  of   this  extra ct ion   process  i s   the  execu ti on   tim is   red uce   and   the  i m age’ file nam es  w il be  rein dex e d.   In   f uture  w ork,   w are  plan ning   to  exten this   researc w ork   in  fo c us in e xtracti on  from   m ulti  deep  we bs it es.   The   pe rfo rm a nce  of  im ages  extracti on  will   infl uen ce   the   tim fo e xec ut ion   process   a nd  the  i m pact  of   the  s tud f or   t he  na ti on   an c omm un it is  the  extracti on  of  se m i - structur e data  that  can  be   us ed   for  m anag in a nd an al yz in t he  c har act e risti cs of elem ents.        ACKN OWLE DGE MENTS     since rely   tha nk  al those   w ho  hel ped  m in  com pleti ng   this  ta sk   e sp ec ia ll Bi asi swa   U niv e rsiti   Ma la ysi a Teren gga nu ( B UM T).       REFERE NCE   [1]   S.  Z.   Z.  Abidin,  N.  M.  Idr is,  A.   H.  Hus ai n,   ā€œ Ext racti on  and  c la s sific a ti on  of  uns truc tur ed  da ta   in   W ebPage for   struct ure m ulti m edi databa se   via   XM L,ā€  Int ernati onal  Conf ere nce   on  Information  Retriev a &   Knowle dge   Manage ment  ( CAMP ) ,   2010,   pp.   44 - 49,   doi: 10. 1 109/INFRK M.2 010. 5466948.     [2]   D.  Cai ,   S.  Yu,  J.   W en,   W .   Ma,   ā€œ VIP S:  Vision - Based  Page  Seg m ent at ion  Algor it hm , ā€  Boo VIPS:  vi sion - base page  segment a tion alg ori thm Microsoft te chn ica rep or t,   MSR - TR - 2003 - 79,   200 3.     [3]   Z .   Ca i J.  L iu,   L.  Xu,  C.   Yin,   J.  W ang,   ā€œ Visio Rec ognition  B ase Method  for   W eb  Data   Ext r a ct ion , ā€  Compute Sci en ce 2017 .   [4]   Chia - Hui  Chan g,   Shih - Chie Kuo,  ā€œ Oler a:   sem isupervi sed  W eb - dat ex tracti on  with  visu al   support, ā€  I E EE   Inte lligen Syst e ms ,   vol. 19, no.  6,   pp .   56 - 64 ,   No v. - Dec .   2004 ,   do i:   10 . 1109/MIS. 2004. 71.     [5]   Chia - Hui  Chang ,   Shao - Chen  Lu i,   ā€œ IEPAD Info rm at ion  Ext ra c tion  B ase on  Pa tt ern   Discove r y , ā€  Book   IEPAD:   Information  e xt r act ion   based  on   patt ern  d iscov er y’ ACM,   pp.   681 - 688 ,   2001 .   [6]   M.  Cit ra,   A.  A.  Banu,   ā€œ Dee We Data   Ext r ac t i on  Based  on  UR and  Dom ai Cla ss ifi c at ion ,ā€  ISAA CA  Journal ,   vol.   4 ,   pp .   1 - 4 ,   2 015,     [7]   V.  Cresc en zi ,   G .   Mec ca,  P.  Meri al do,   ā€œ Roadrunn er:   Towa rds  Aut om at ic   Dat Extrac t ion  from   La r ge  W eb  Site s ,ā€  Book   Roadrunne r: Towar ds aut omatic   da ta   ex tra ct ion   from l arge   web  sit es,   pp .   10 9 - 118 ,   2001 .   [8]   N.  Deroui ch e,   B.   Cautis,  T .   Abdess al em,  ā€œ Autom at ic   Ex tr ac t ion  of  Struc ture W eb  Dat with  Dom ai n   Know le dge, ā€  I EE 28th  In t ernati onal  Con fe renc on  Data  Engi ne erin g ,   2012,   pp.   726 - 737,   doi :   10. 1109/ICDE. 2 012. 90.     [9]   Y.  Fang,   X .   Xie ,   X.  Zha ng ,   R.   Cheng,   Z,   Zha n g,   ā€œ STEM:  S uffix  Tr ee - Bas e Method  for   W eb  Data   R ec o rds   Ext ra ct ion , ā€   Kno wle dge   and  In fo rm ati on  Syste ms ,   vol .   55 ,   no .   2 ,   p p.   305 - 331 ,   201 8.     [10]   P.  Gulat i ,   M.  Y ada v,   ā€œ Novel  Approac for  Ext ra ct ing  P ert i nent   Ke y words   for  W eb  Im age   Annotat ion  usin g   Sem ant ic   Dist an ce   and Euc l idea Distance , ā€  So ftw are  Engi n ee rin g pp .   173 - 183 ,   2019.   [11]   D.  T.  Hai ,   ā€œ Novel  Int ege L ine ar   Program mi ng  Form ula ti on   for  Designing   Tra nspare n W DM   Optic al  Co re   Networks,ā€   Inte r nati onal  Conf ere nce   on  Ad vanc e Technol ogie s f or Comm unic ati ons A TC ,   2019,   pp.   273 - 277,   do i :   10. 1109/ATC. 20 19. 8924515.     [12]   J.  Ham m er,   G.  Molina ,   H .   Cho,   R.   Aranha ,   A.  C respo,   ā€œ A.:   ā€˜Ex tr ac t ing  Sem istru c ture Inform atio from   the   W eb,ā€  Standford  Infol a Publicati on   Se rve r,  1997 .   [13]   C.   N.  Hs u,   M.  T.   Dung,   ā€œGe ner ating  Finit e - Sta te   Tra nsduce rs  for  Sem i - Struct ure Data   Ext r ac t ion  from   The   W eb ,ā€  Information  Syst ems vol .   23 ,   no .   8,   pp.   521 - 538,   1998,   doi h tt ps:/ /doi . org /10. 1016 /S0306 - 4379(98)00027 - 1.   [14]   R. Jeffe rson,   A. C onnel l ,   and   O.   J eff erson,  ā€œ W eb  Data   Ext ra ction ā€,   Le ns.org ,   ā€œ W eb  Dat Ex tractionā€,   acce ss ed  2 April  2021.   [15]   P.  Jim ene z,   R .   Corchue lo ,   ā€œ On  Le arn ing  W eb  I nform at ion  Ext r ac t ion  Rule wit TANG O ,ā€  Information  Syste m s vol.   62 ,   pp .   74 - 1 03,   2016 ,   doi h t tps:/ /doi.org/ 10 . 1016/j . is . 2016. 0 5. 003.   Evaluation Warning : The document was created with Spire.PDF for Python.
                           IS S N :   2502 - 4752   Ind on esi a J  E le En &  Co m Sci,   Vo l.   23 , N o.   1 Ju ly   2021 5 1 9   -   52 8   528   [16]   N.  V.  Kam anwa r,   S.  G .   Kal e,  ā€œ W eb  dat a   ex tra c ti on  t ec hn ique s:  rev ie w, ā€  Worl Confe ren ce   on   Fut uristi Tr en ds   in  Re sear ch   and  Innov a ti on  for  So c ial   We lf are  ( Startup  Concl ave ) ,   2016 ,   pp.   1 - 5 ,   doi:   10. 1109/START UP . 2016. 7583910.     [17]   A.  H.  F.   L ae nde r,   B.   A.  R .   Ne to ,   A.   S.  Da   silva,   J.  S.  Teixe ir a,   ā€œ Brie Surve y   of  W eb  Dat Ex tra c ti on  T ools ,ā€  ACM  Sigmod  Record vol .   31 , no.   2,   pp.   84 - 93,   do i:   ht tps:/ /do i. org / 10. 1145/565117.565137.   [18]   B.   Li u ,   R.   Gros sm an,   Y.  Zha i,   ā€œ Mining  dat re cor ds  in  web  p age s,ā€   Proceedi ngs  of  the   nint h   ACM  SIGKD int ernati ona l co nfe renc on   Kno wle dge   discover and  da ta  min in g pp .   601 - 606 ,   2003.     [19]   L.   Li u ,   C.   Pu,  W .   Han,   ā€œ XW R AP an  XM L - ena ble wrapp er  c onstruct ion  s y s t em  for  W eb  informati on  source s,ā€   Proce ed ings  of  16th  Inte rnation al  Confe renc o Data  Engi nee r ing   (Cat .   No.00 CB37073),  2000,   pp.   611 - 621,   d oi:  10. 1109/ICDE. 2 000. 839475.     [20]   P.  Malhot r a,  S.   K.  Mal ik,   ā€œ W eb  Page   Segm ent at ion   Towa rd Inform at i on  Ext ra ct ion   for  W eb  Sem ant ic s, ā€   Inte rnational   Co nfe renc on   Inno vat i ve   Comput in and  Comm uni cat ions pp.   431 - 442 ,   2018 .   [21]   M.  Man,   I.   A.  A.  Sabri,   M.  M.   A.  Jali l ,   N.  Ali ,   S.  Muham ad,   ā€œ Inform at ion  Inte gra t ion  Archi t e ct ure   S y s te m   for  Empow eri ng  Rural   W om an  In  Seti W et l ands,   Te r engga nu,   Malay s ia ,ā€  Journal  of  Sustaina bil ity  Sc ie n ce   a nd   Manage ment vo l,   14 ,   no .   1 ,   pp .   7 7 - 86 ,   2019 .     [22]   A.  Pouram ini ,   S.   K.  Hass ani ,   Sh.   Nasiri,   ā€œ Dat E x tra c ti on  Us ing  Conte nt  B ase Handle s , ā€   Journ al  of  AI  and  Dat Mini ng ,   vol .   6 ,   n o.   2 ,   pp .   399 - 40 7,   2018 ,   doi 10 . 22044/JAD M.20 17. 990   [23]   I.   A.  A.   Sabri ,   M.  Man,   ā€œ Per form anc of  Co m par at ive  Stud y   for  Sem i - Structured  W eb  Dat Ext ra ct ion   Mode l , ā€   Inte rnational   J ournal  of  E lect rical   and   Computer  Engi n ee ri ng vol .   9 ,   no .   6,   pp .   5463 - 5 470,   2019,   doi :   10. 11591/ijece. v 9i6. pp5463 - 547 0.   [24]   I.   A.  A.  Sabri,   M.  Man,   ā€œ Im pr oving  Perform anc of  DO in   Sem i - Struct ure Dat Ext ra ct i on  Us ing  W EIDJ   Model, ā€  Indone s ian  Journal  of  El e c tric al  Engi n e ering  and  Comp ute Sci en ce vol .   9,   no.   3,   pp.   752 - 763,   2018,   doi:  10. 11591/ijeecs. v9. i3. pp752 - 763 .   [25]   I.   A.  A.  Sabri,   M.  Man,   ā€œ W EI DJ Deve lopment  Of  New   Alg orit hm   For  Se m i - Struct ure W eb   Data   Ext r ac t ion , ā€   TEL KOMNIKA   ( Tele communic a ti on  Computi ng  El e ct ronics  and  Control ),   vol.   1 9,   no.   1 ,   pp .   31 7 - 326,   2021,   doi :   10. 12928/TELK OM NIK A.v19i 1. 16205.   [26]   A.  K.  Tr ipa th y ,   N.  Jos hi,   S.  Tho m as,   S.  Shetty   a nd  N.  Thomas,  ā€œ VEDD -   visual   wrappe for   ex tra c ti on  of  d ata   using  DO tre e, ā€  Int ernati onal   Confe renc on  Comm unic ati on,   Information  &   Computing  Tech nology   ICCICT ,   2012,   pp .   1 - 6 ,   d oi:   10 . 1109/ICC ICT. 2012. 63981 14.     [27]   I.   A.  A.  Sabri,   M.  Man,   ā€œ Perform anc Anal y s i for  Mining  I m age of  Dee W eb, ā€  Inte rnat ional   Journal  of  Adv anc ed  Com pute Scienc e   and  Appl i cations  IJA CS 2 020,   vol.  11,   no.   10,   pp .   1 - 7,   2020,   doi:   10. 14569/IJACS A.2020. 0111001 .       BIOGR AP HI ES OF  A UTH ORS       Ily   Amal ina  Ah mad  Sab ri ,   re ce iv ed  her   Dipl om in  Inform ation  Technol og y   in  2006  from   PS MZA,  Te ren g ganu,   B ac he lor  of  Inform at ion  Te chno log y   (Software   Engi ne ering),  Master ' s   degr ee,  and  Ph . D.  in  Com pute Scie nc from   Univer siti   Malay s ia   T ere ngg anu  i 2009,   2014,   and  2019  r espe c ti vely .   She   is  a   Senior  L ec tur er  in  Facult y   of  O c ea Engi ne eri ng   Technol og y   and  Inform at ic s ,   Univer siti   Ma lay sia  Te r engga nu .   Her   rese arc in te rests  in cl ude  W eb  Mining,   Data   Ext r ac t ion,  Inform at ion  Ret rie v al ,   Arti ficia Inte lligen ce   an Dec ision  Support  S y stem.   Her  cur ren r ese arc proj ec ts  a re   "M - Fly Coun te Deve lopment  of  Auto - Counti ng  Mobile   Apps  for  La rg Popula ti ons  of  Hous efly   for   Pest  Contr ol  and  Moni tori n Acti vi tiesā€  wh ic is  fund ed   b y   PP RG  2021   sche m e,   Kaji a dan  Pem bang unan  Perisia untuk  Studio  Al - Quran,   UM which  is  funde b y   UM T,   iMAK ERS@U MT  whi ch  is  funde b y   MO STI,   ā€œ Deve lopment  and   Im ple m ent at ion   of  DIET CAR E:   An  In te ra cti ve  Onlin Nutr it ional  Da ta base   Mana gement   S y stem  to  support  Inte l li g ent   Cli ent   Moni toringā€  which  is  fu nded  b y   TAPE - RG  and  ā€œ An   int ellige n t Ti ss ue  Dispenser   S y st emā€  which   is f u nded  b y   PP RG .         Mustafa  Man   i an  A ss oci at Profess or  in  School  of  Inform at ic and  Applie Mathe m at i cs  and  al so  as  De put y   Dire ct or  at   Resea rch   Mana g ement  Innova ti o Cent re  (RMIC),  UM T.   He  start ed  h is  PhD   studie in  Jul y   2 009  and  fin ished   his  studie in  C om pute Scie n ce  from   UTM   in   2012.   He  has  rec ei ved  Com pute Scie n ce   Diploma,   Com p ute Scie n ce   De gre e,   Master   Degre from   UP M.  In  2012,   he  has  bee awa rde ā€œ MIec   MO S   Prestigi ous  Aw ard sā€  for  his  PhD   by   MIM OS   Berha d.   His  r ese arc is  foc used  on  the   d eve l opm ent   of  m ult ipl t y p es  of   dat a b ase int egr at ion  m odel   an al so  in  Augm ent ed  Rea l ity   (AR),  andr oid  base d,   and  I rel a te int o   acro ss   dom ai pla tfo rm .           Evaluation Warning : The document was created with Spire.PDF for Python.