T E L K O M N I K T elec o m m un ica t io n,  Co m pu t ing ,   E lect ro nics   a nd   Co ntr o l   Vo l.   19 ,   No .   1 Feb r u ar y   2 0 2 1 ,   p p .   317 ~ 32 6   I SS N:  1 6 9 3 - 6 9 3 0 ,   ac cr ed ited   First Gr ad b y   Kem en r is tek d i k ti,  Dec r ee   No : 2 1 /E/KPT /2 0 1 8   DOI : 1 0 . 1 2 9 2 8 /TE L KOM NI K A. v 1 9 i1 . 1 6 2 0 5     317       J o ur na l ho m ep a g e h ttp : //jo u r n a l.u a d . a c. id /in d ex . p h p /TELK OM N I K A   WEI DJ Dev elo p ment of  a new  alg o rithm f o r s emi - s truct u red  web data  e x t ra cti o n       I ly   Am a lin a   Ahm a d Sa bri M us t a f a   M a n   F a c u lt y   o Oc e a n   En g i n e e rin g   Tec h n o l o g y   a n d   I n fo rm a ti c s,  Un i v e r siti   M a lay sia   Tere n g g a n u ,   Tere n g g a n u ,   M a lay sia       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma r   2 9 ,   2 0 2 0   R ev is ed   Au g   9 ,   2 0 2 0   Acc ep ted   Au g   2 9 ,   2 0 2 0       In   t h e   e ra   o i n d u strial  d ig it a li z a ti o n ,   p e o p le   a re   in c re a sin g l y   in v e stin g   i n   so lu ti o n t h a a ll o th e ir  p ro c e ss   fo d a ta  c o ll e c ti o n ,   d a ta  a n a ly sis  a n d   p e rfo rm a n c e   imp ro v e m e n t.   In   t h is  p a p e r,   a d v a n c in g   we b   sc a le  k n o wle d g e   e x trac ti o n   a n d   a li g n m e n b y   in teg ra ti n g   fe so u rc e b y   e x p lo r in g   d iffere n t   m e th o d o a g g re g a ti o n   a n d   a tt e n ti o n   is  c o n si d e re d   i n   o rd e f o c u sin g   o n   ima g e   in fo rm a ti o n .   Th e   m a in   a i m   o d a ta  e x trac ti o n   wit h   re g a rd to   se m i - stru c tu re d   d a ta  is  to   re tri e v e   b e n e ficia in fo rm a ti o n   fro m   th e   we b .   Th e   d a ta   fro m   we b   a lso   k n o wn   a d e e p   we b   is  re tri e v a b le  b u t   it   re q u ir e re q u e st  th ro u g h   fo rm   s u b m issio n   b e c a u se   it   c a n n o b e   p e rf o rm e d   b y   a n y   se a rc h   e n g in e s.   A t h e   HTM L   d o c u m e n t sta rt  to   g ro larg e r,   it   h a b e e n   fo u n d   th a t   th e   p r o c e ss   o d a ta  e x trac ti o n   h a b e e n   p lag u e d   wi th   le n g t h y   p ro c e s sin g   ti m e .   In   th is  re se a rc h   wo rk ,   we   p ro p o se   a n   imp ro v e d   m o d e n a m e l y   wra p p e e x trac ti o n   o ima g e   u si n g   d o c u m e n o b jec m o d e (DO M )   a n d   J a v a S c rip o b jec n o tati o n   d a ta  (JSON)   ( WE IDJ )   in   re sp o n se   to   t h e   p r o m isin g   re su lt o f   m in in g   i n   a   h ig h e v o l u m e   o f   i m a g e   fro m   v a rio u ty p e   o f o rm a t T o   o b se rv e   t h e   e fficie n c y   o WE I DJ ,   we   c o m p a re   th e   p e rfo rm a n c e   o d a ta   e x trac ti o n   b y   d iffere n lev e o p a g e   e x trac ti o n   with   VIBS,   M D R,   DEP TA   a n d   VID E.   It  h a y ield e d   th e   b e st  re su lt in   P re c isio n   wit h   1 0 0 ,   R e c a ll   with   9 7 . 9 3 1 0 3   a n d   F - m e a su re   with   9 8 . 9 5 4 7 .   K ey w o r d s :   Do cu m en t o b ject  m o d el     J av aS cr ip t o b ject  n o tatio n   W eb   d ata  ex tr ac tio n   W r ap p er   ex tr ac tio n   o f   im a g e   T h is i a n   o p e n   a c c e ss   a rticle   u n d e th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   I ly   Am alin Ah m ad   Sab r i   Facu lty   o f   Oce an   E n g in ee r i n g   T ec h n o lo g y   an d   I n f o r m atics   Un iv er s iti Ma lay s ia  T er en g g a n u   Ku ala  Ner u s ,   T er en g g an u ,   Ma lay s ia   E m ail: ily lin a@ u m t.e d u . m y       1.   I NT RO D UCT I O N     T h n u m b er s   o f   d e v ices  an d   g ad g ets  co n n ec tio n   to   th I n ter n et  is   o n   th r is e.   T h is   in cr ea s in   in ter n et’ s   co n n ec tio n   m ak es  th web   as  th lar g est  s o u r ce   o f   in f o r m atio n   wo r ld wid e .   W ith   th lar g am o u n o f   d ata  r esid in g   in   th web ,   an d   co m p lem en ted   b y   a d v a n c ed   tech n o lo g ies  in   d ata b ase  p r o ce s s in g ,   it  is   th er ef o r s ea m less   ef f o r to   g ath er ,   co llect  an d   p r o ce s s   th d ata.   As  th co n s eq u en ce   o f   t h ex p o n en tial  d ata   g r o wth ,   it  is   m o s im p o r tan f o r   u s er s   to   ad o p ad v an ce d   d a ta  an aly tics   tech n o lo g ies  f o r   a n   ef f ici en s to r ag e ,   r etr iev al  an d   an aly s is   o f   th d ata.   T h m ai n   aim   is   to   u s ef u lly   u tili ze   th is   d ata,   to   lear n   ab o u p atter n s   an d   tr en d s   th at  ca n   b u s ed   t o   m a k p o s itiv im p ac t   o n   o u r   li f esty le.   Ho wev er ,   th e   d ata  its elf   d o esn p r o d u ce   th ese  o b jectiv es,  b u r ath er   it’ s   s o lu tio n s   th at  ar is f r o m   an aly zin g   it  an d   f in d in g   t h an s wer s   we  n ee d .   T h is   ac cu m u latio n   o f   d ata   in   ter m s   o f   v o lu m e,   tech n o lo g y   an d   te ch n iq u es  a r o f ten   b ein g   d is cu s s ed   in   r elatio n   t o   m in d ata  f r o m   wo r ld   wid e   web .   Fig u r e   1   s h o ws  th n u m b er   o f   s ch o lar ly   wo r k s   o v er   tim b y   th ei r   p u b licatio n   ty p s u c h   as  b o o k ,   d is s er tatio n ,   jo u r n al  ar ticle ,   r ep o r t,  co n f er e n ce   p r o ce e d i n g   an d   s o   f o r th   v ia  len s . o r g .   Fro m   th is   g r ap h ,   it c a n   b ea s ily   s ee n   th tr e n d   in   t h is   r esear ch   f ield .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  19 ,   No .   1 Feb r u ar y   2 0 2 1 :    3 1 7   -   32 6   318       Fig u r 1 .   Nu m b er   o f   s ch o l ar l y   wo r k s   f r o m   1 9 7 0   till   2 0 2 0       Min in g   d ata   u n c o v er   n ew  f ac ts   an d   r elatio n s h ip s   u s in g   u s ef u p atter n s   an d   tech n iq u es  i n   o r d er   t o   g iv s o lu tio n   f o r   h an d lin g   b ig   d ata   [ 1 ] .   Data   m in in g   tech n iq u es  ar im p lem en te d   to   f in d   u s ef u p atter n s   in   lar g d atab ase  s u c h   as  My SQ L   an d   O r ac le.   I is   th e   p r o ce s s   th at  tr ies  to   d is co v er   p atter n s   o r   tech n i q u es  th at   ca n   b ap p lied   in   lar g d ataset   [ 2 ] .   T h m ain   g o al  o f   d ata  m in in g   is   to   ex tr ac in f o r m atio n   f r o m   lar g e   d ataset.   E n o u g h   d ata  an d   s u p p o r ted   t o o ls   ar im p o r tan a n d   n ee d   t o   co m p lem e n ea ch   o th e r s   in   d ea lin g   with   lar g d ata  s et.   I m ay   b lev er ag in g   o n to   th im p lem en tatio n   o f   th b ig   d ata  th at  p r o v i d es  g r ea o p p o r tu n ities   f o r   v ar io u s   o f   f ield s   s u ch   as  e - c o m m er ce ,   i n d u s tr ial  c o n tr o ls   a n d   s m ar t m ed icals   [ 3 ] .   H o wev e r ,   th e   ch ar ac te r is tic s   o f   lar g v o lu m es,  lar g v ar ieties,  lar g v elo cities  an d   lar g v er ac ities   o f   in f o r m atio n   n ee d   to   b co n s id er ed   i n   o r d er   to   h an d le  th c h allen g i n g   f o r   d ata  m in in g   [ 4 ] .   Fin ally ,   th ex tr ac ted   i n f o r m atio n   will  b tr an s f o r m ed   in to   s tr u ctu r ed   way   f o r   f u r t h er   u s e.   W eb   m in in g   is   th a p p licatio n   o f   d ata  m in in g   tec h n iq u es  to   d is co v er   p o ten tial in f o r m atio n   a u to m ati ca lly   f r o m   t h web .   I n   r elatio n   to   Fig u r 2 ,   web   m in in g   is   d iv id ed   in to   th r e ca teg o r ies;   web   c o n ten m in in g ,   web   s tr u ctu r m in in g   an d   web   u s ag m in in g .   W eb   co n ten m in i n g   is   all  ab o u d is co v e r in g   u s ef u co n te n o n   th e   wo r ld   wid web   ( W W W )   b y   u s in g   d ata  in teg r atio n   an d   d ata  e x tr ac tio n .   W eb   s tr u ctu r m in i n g   p lace s   web s ites   an d   web   p ag es  th at  c o n tain   in   n etwo r k   o f   co n n ec ted   web s ites   b y   u s in g   h y p er lin k s .   h y p er lin k   is   an   elem en in   HT ML   d o cu m e n ts   th at  lin k s   an   o b ject  s u ch   as  te x t,  im ag e,   a n d   v id eo .   to   an o th er   HT ML   d o c u m en t   alt o g eth er .   I n   o th er   h a n d ,   web   u s ag e   m in in g   f o cu s es  o n   b r o wsi n g   b eh av i o r   eith e r   u s i n g   p atter n   tr ac k   o r   p er s o n alize   u s ag es tr ac k .   T h is   p ap er   f o cu s es o n   web   m u ltime d ia  m in in g   f o cu s es o n   im a g es.           Fig u r 2 .   W eb   m in i n g   ca teg o r ies   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         WEI DJ:   Dev elo p men t o f a   n e w   a lg o r ith fo r   s emi - s t r u ctu r ed   w eb   d a ta . . . ( I ly  A m a lin a   A h ma d   S a b r i )   319   Min in g   d ata  o r   ex tr ac tin g   d at f r o m   web   p ag es  is   m ajo r   f ea tu r f o r   h u m an   to   lead   an d   g et  h u g b en ef its .   W eb s ites   ar d esig n ed   f o r   v ar io u s   p eo p le  an d   th e y   ar k n o wn   as  s em i - s tr u ctu r ed   d ata.   T h s tr u ctu r o f   ea ch   web   p ag is   d if f er e n f o r   ea ch   p ag e .   T h u s ,   it  is   n o ea s y   to   ca p tu r all  th d ata  in   d if f er en t     s tr u ctu r e   [ 5 ]   a n d   m an y   s tu d ie s   d is cu s s   ab o u e x tr ac tin g   d at f r o m   web s ites   an d   v a r io u s   m eth o d s   h a v b ee n   d ev elo p e d .   T h lar g v o lu m o f   im ag es  an d   t h eir   in f o r m ati o n   r eq u ir es  n ew  s o lu tio n s   to   m an ag an d   an aly ze   th em .   W e   h av p r o p o s ed   wr a p p er   ex tr ac tio n   o f   im a g u s in g   d o cu m en o b ject  m o d el  ( D OM )   an d   J av aS cr ip o b ject  n o tatio n   d ata  ( J SON)   ( W E I DJ)   in   o r d er   to   a d d r ess   th is   co n ce r n .   T h m ai n   m o tiv ati o n   f o r   th is   r esear ch   is   im ag e’ s   ex tr ac tio n ,   m in in g   o f   im ag e’ s   d etails  an d   its   s to r ag in   s in g le   m u ltime d ia   d atab ase.   I n   id ea l   s ce n ar io ,   if   im ag e   n ee d   to   b s av ed ,   it  s h o u ld   b m a n u ally   ex tr ac ted .   E x t r ac tio n   an d   s av i n g   o f   r eq u ir ed   f iles   o r   im a g es  is   im p o r tan s in ce   th ese  d o cu m en ts   ca n   b e   b e n e f icial  f o r   f u r th er   p u r p o s e.   Ho wev er ,   p r o b lem s   in   lo ad in g   tim es  ex is wh en   th s ize  o f   th e   im ag es  to   b e   ex tr a cted   ar e   to o   b ig .   T h er e f o r e,   a n o th er   s o lu tio n   m u s t   b d ev elo p ed   to   a u to m atica ll y   ex tr ac th im a g es  to   r ed u ce   th co n s u m e d   tim e.   d at ex tr ac tio n   en g in s h o u ld   b b ab le  to   ex tr ac al th r eq u ir e d   f r o m   web   p ag e.   T h in itial  s tep   in   ex tr ac tin g   d ata  f r o m   s p ec if ic   web   p ag e   is   to   d e f in th u n if o r m   r eso u r ce   lo ca to r   ( UR L )   o f   th web   p a g e,   wh er t h d ata  is   lo ca ted .       2.   DATA  E XT RACT I O N   Data   ex tr ac tio n   is   wh er d ata  is   b ee n   an aly s ed   an d   cr awle d   th r o u g h   f r o m   d ata  s o u r ce s   s u ch   as  web   o r   d ata b ases .   I d ep e n d s   o n   s p ec if ic  p atter n s   o f   u s er   r e q u ir em en ts .   T h g o al  o f   d ata  ex tr ac tio n   is   to   r etr iev e   r elev an in f o r m atio n .   I o r g a n izes  d ata  in to   u s ab le  an d   v alu ab le  r eso u r ce   s o   th at  we  ca n   u s f o r   f u r th e r   pu r p o s es.  T h ex tr ac tio n   p r o c ess   m ay   in v o lv d if f er en t d ata   ty p es.  Prio r   to   ex tr ac tio n   p r o c ess es,  d ata  n ee d s   to   b well  o r g an ized .   I f   th d ata  is   in   s tr u ctu r ed   f o r m at,   it  will  b m o r ap p licab le.   T h er ar th r ee   ty p es  o f   d ata;  s tr u ctu r ed   d ata,   s em i - s tr u ctu r ed   d ata  an d   u n s tr u ctu r ed   d ata.   T h e r ar e   m an y   way s   t o   d ea with   all  t h ese  ty p es  o f   d ata.   T h is   r esear ch   f o cu s ed   o n   t h ex tr ac tio n   o f   s e m i - s tr u ctu r ed   d ata.   T h er a r th r ee   b asic  s tep s   in   d ata  ex tr ac tio n   p r o ce s s   as sh o wn   in   Fig u r 3 .   T h ad v an tag es  o f   d ata  e x tr ac t io n   f r o m   s em i - s tr u ctu r ed   d ata  is   th at  it  ca n   b a p p lied   i n   v a r i o u s   f ield s   s u ch   as  in   ed u ca tio n   [ 6 ] ,   ad v e r tis em en ts   [ 7 ] ,   h o u s in g   m an a g em en ts   [ 8 ] .   I n   f o r m er   wo r k s ,   th d is cu s s ed   d ata  ex tr ac tio n s   h av b ee n   m o d ell ed   u s in g   s in g le  m o d el  o r   co m b in atio n   o f   s ev er al  m o d e ls   f o r   an   o p tim u m   ass es s m en t   [ 9 ]   W h ile  web   h as  d ev elo p e d   in to   lar g s o u r ce   o f   in f o r m atio n ,   t h er ar d i f f er en d ata  ty p es  o f   in f o r m atio n   th at  will  b d is c u s s ed   in   n ex s ec tio n .   T h is   p ap er   aim s   to   ad v o ca te  th p o ten tial  o f   two - p h ase   q u er y   p ar ad i g m   f o r   web   m i n in g .   Ou r   e x ten s iv ex p e r im en ts   in d icate   b y   f o llo win g   c r iter ia:   -   Hav in g   an   e x p licit tar g et  f o r   t h ex tr ac tio n   p r o ce s s .   -   Usi n g   lar g s et  o f   in f o r m atio n   f r o m   s ev er al  web s ite  wh ich   also   h as d if f er en t stru ctu r e.   T h is   ap p r o ac h   t u r n s   o u t o   b e   h ig h ly   ef f ec tiv e   in   p r ac tice.   I n   o u r   v iew,   th ese  r esu lts   h in t   th at  f u lly   au t o m atic  s o lu tio n   f o r   q u er y in g   th e   s tr u ctu r ed   im a g es  an d   r elate d   in f o r m atio n ,   n o n - h id d en   im ag es  r ef er   to   Fig u r 4   in clu d in g   asp ec ts   o f   th s tr u ct u r f o r   ea ch   web   an d   t h r ed u n d an cy   o f   th e   im ag es Fig u r 5 .             Fig u r 3 .   Data   ex t r ac tio n   p r o c ess     Fig u r 4 .   I m ag es c an n o t b r etr iev ed   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  19 ,   No .   1 Feb r u ar y   2 0 2 1 :    3 1 7   -   32 6   320       Fig u r 5 .   R ed u n d an c y   o f   im ag es       3   WE B   DATA  E X T RAC T I O ( WDE )   T h im p o r tan c o f   web   d ata  ex tr ac tio n   ( W DE )   d ep en d s   o n   th f ac th at  lar g am o u n ts   o f   d ata  ar e   co n tin u o u s ly   b ee n   g en er ate d ,   s h ar ed   an d   u tili ze d   in   e v er y   s ec o n d .   W DE   tech n i q u es  ar im p lem en ted   to   r ed u ce   lab o r   in te n s iv task s   an d   p lay   im p o r tan r o les  in   r aisi n g   th ac cu r ac ies  in   d ata  ex tr ac tio n .   Ma n y   f ac to r s   s h o u ld   b c o n s id er ed   in   d esig n in g   W DE   in clu d in g   th tech n iq u es.  On o f   th c r itical  f ac to r s   is   th e   ab ilit y   o f   th d ev elo p ed   tech n iq u es in   p r o ce s s in g   lar g am o u n t o f   d ata  in   a   s h o r t tim e.   W eb   d ata  ex tr ac tio n   s y s tem   is   s o f twar ap p licatio n   th at  ca n   ex tr ac d ata  f r o m   web   s o u r ce s   [ 1 0 ] T h is   ap p licatio n   u s u ally   i n ter ac ts   with   web   s o u r ce   an d   ex tr ac t s   th s to r ed   d ata.   T h e   ex tr ac ted   co n ten ts   co n s is o f   elem en ts   in   th HT ML   web   p ag es  an d   ca n   b p o s t - p r o ce s s ed ,   co n v e r ted   to   th m o s ap p r o p r iate  s tr u ctu r ed   f o r m at  an d   s to r ed   f o r   f u r th e r   u s ag e.   T ab le  1   s h o ws  web   d ata  ex tr ac tio n   to o ls   th at  ar u s in g   d if f er en t te ch n iq u es.     T ab le  1 .   W eb   d ata  e x tr ac tio n   t o o ls   ( A u t h o r ,   y e a r )   To o l s   M o d e l   F a n g ,   X i e   [ 1 1 ]   S TEM   S u f f i x   Tr e e   B a se d   M e t h o d   P o u r a mi n i ,   K h a j e   H a ss a n i   [ 1 2 ]   H a n d l e - b a s e d   W r a p p e r   D O M   Tr e e   Ji n e z   a n d   C o r c h u e l o   [ 1 3 ]   TA N G O   DOM   C h i t r a   a n d   A y s h a   B a n u   [ 1 4 ]   D W D E   Ta g   b a se d   F e a t u r e   Tr i p a t h y ,   J o s h i   [ 1 5 ]   V ED D   D O M   Tr e e   B r e a d t h   F i r st   S e a r c h   ( B F S )   D e r o u i c h e ,   C a u t i s [1 6 ]   O b j e c t R u n n e r     Li u ,   P u   [ 1 7 ]   X W R A P   D O M   Tr e e   C h a n g   a n d   K u o   [ 1 8 ]   O LER A     Li u ,   G r o s sma n   [ 1 9 ]   M D R     C a i ,   Y u   [ 2 0 ]   V I P S   D O M   Tr e e   V i s u a l   C u e s   C r e sc e n z i ,   M e c c a   [ 2 1]   R o a d   R u n n e r   -     C h a n g   a n d   Lu i   [ 2 2 ]   I EPA D   P a t t e r n   D i sc o v e r y   H su   a n d   D u n g   [ 2 3 ]   S o f t M e a l y   -     H a mm e r ,   G a r c i a - M o l i n a   [ 2 4 ]   TSI M M I S   O b j e c t   E x c h a n g e   M o d e l   ( O E M )       4   RE S E ARCH   M E T H O D   Prio r   to   ex tr ac tio n   p r o ce s s es,  d ata  n ee d s   to   b well  o r g an ize d .   I f   th d ata  is   in   s tr u ctu r ed   f o r m at,   it  will  b m o r ap p licab le.   T h er ar th r ee   ty p es  o f   d ata;  s tr u c tu r ed   d ata,   s em i - s tr u ctu r ed   d a ta  an d   u n s tr u ctu r e d   d ata.   T h er a r m an y   way s   t o   d ea with   all  th ese  ty p es  o f   d ata.   T h is   r esear ch   f o cu s ed   o n   th e x tr ac tio n   o f   s em i - s tr u ctu r ed   d ata.   T h er a r th r ee   b asic  s tep s   in   d ata  e x tr ac tio n   p r o ce s s s elec tio n ,   tr an s f o r m atio n   an d   k n o wled g e   [ 2 5 ] .   W eb   wr ap p er   is   p r o ce d u r w h ich   is   im p lem en ted   b ased   o n   a n y   o f   th s p ec if ied   alg o r ith m s .   T h g o al  is   to   s ee k   an d   f in d   d ata  r eq u ir ed   b y   h u m an   u s er s   f r o m   th web   s o u r ce s ,   wh ich   in clu d es  u n s tr u ctu r ed   o r   s em i - s tr u ctu r ed   d ata.   T h ex tr ac ted   d ata  will  b tr an s f o r m ed   in to   s tr u ctu r e d   r ep r es en tatio n   f o r   f u r th er   u s ag e.   L ately ,   th e   p r o b lem s   o f   e x tr ac tin g   in f o r m atio n   f r o m   u n k n o w n   s ites ,   f o c u s in g   o n   u n s tr u ctu r e d   o r     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         WEI DJ:   Dev elo p men t o f a   n e w   a lg o r ith fo r   s emi - s t r u ctu r ed   w eb   d a ta . . . ( I ly  A m a lin a   A h ma d   S a b r i )   321   s em i - s tr u ctu r ed   d ata  a r g ettin g   m u ch   atten tio n   f r o m   th r es ea r ch er s .   T h e   wo r k s   o n   W DE   h as  lo ts   o f   r ev iews.   T h is   s ec tio n   d is cu s s es   ab o u t o u r   p r o p o s ed   m eth o d ,   W E I DJ.   W E I DJ  i s   d ev elo p ed   to   ass is t   u s er   in   ex tr ac tin g   s em i - s tr u ctu r ed   d ata  f r o m   web   p a g e.   web   p ag e   ca n   b r ep r esen te d   b y   tr ee   s tr u ctu r DOM .   I co n v er ts   an d   s to r g iv en   web   a d d r ess   o f   web   p ag f r o m   s ea r ch   en g in in t o   DOM   tr e e   [ 2 6 ] .   R ec en tly ,   th ex tr ac tio n   p r o ce s s   is   f o cu s ed   o n   im ag e   [ 2 7 ,   2 8 ] .   W h en   u s er   in p u th u n i f o r m   r eso u r ce   lo ca to r   ( UR L )   an d   th q u er y   is   s u b m itted   to   s ea r ch   en g in e ,   th s ea r ch   en g in e   will  d y n am ically   g e n er ated   r e s u lt  p ag co n tain in g   t h r esu lt   r ec o r d s .   T h r esu lts   co n s is t   lin k   p at h   f o r   ea ch   elem en o f   im ag e,   im a g e,   s iz e   o f   im a g an d   tim p r o ce s s in g   to   lo a d   ea ch   im ag e   [ 2 9 ] .   W E I DJ  u s ed   alp h a   jet   ex p er im en ( AJAX )   tech n o l o g y   to   ex tr ac d ata  f r o m   web   s o u r ce s .   AJAX,  i s   th ab b r ev iatio n   o f   Asy n ch r o n o u s   J av aScr ip t   an d   XM L ,   is   s et  o f   web   d e v elo p m en tech n i q u es  th at   allo ws  w eb   p ag e   to   u p d ate   p o r tio n s   o f   co n ten ts   with o u h av in g   to   r ef r esh   th p a g e.   AJAX  r ep r esen ts   a   s im il ar   co n ce p to   th   clien t - s er v er   d e v elo p m e n t.  Du r in g   clien t - s er v er   p h ase,   th e   a m o u n o f   d ata  tr a n s f er r ed   is   v er y   m in im al   o v e r   a   ter m in al  ap p licatio n   b y   tr an s f er r in g   o n ly   th n ec ess ar y   d ata   b ac k   an d   f o r th .   Similar ly ,   wi th   AJAX,  o n ly   th n ec ess ar y   d ata  is   tr an s f er r ed   b ac k   an d   f o r t h   b etwe en   th e   clien an d   th web   s er v er .   T h is   m in im izes  th e   n etwo r k   u tili za tio n   a n d   p r o ce s s in g   o n   th clien t.  T h tim f o r   ex tr ac tio n   p r o ce s s   h as  b ee n   r ed u ce d .   Fig u r s h o ws an   o v er v iew  o f   W E I DJ u s in g   AJAX a n d   J SON  d ata.           Fig u r 6.   Ov e r v iew  o f   W E I DJ m o d el       I ca n   b e   d if f i c u lt  to   p r o p e r l y   cr ea t ex tr ac t io n   r u l es  d es cr i b i n g   r e q u i r e d   d a ta .   I n   t h is   p ap er ,   we   p r o p o s W E I DJ  [ 3 0 ]   m o d el  t o   ex tr ac t   im a g es  f r o m   w e b   p a g e .   T h wo r k   d es cr ib ed   i n   th is   s ec ti o n   u s es  a   co m b i n ati o n   o f   b o t h   tech n iq u es ,   DOM   a n d   J SON   [ 3 1 ] .   I n   ad d it io n ,   w als o   d o   t h e   c h e c k i n g   o f   i m a g es  b y   b l o c k s   i n   t h e   H T M L   d o cu m e n ts .   I t   als o   f o cu s s es   o n   ar r a n g in g   t h e   ex tr ac t ed   d ata   in   a   ta b u la r   f o r m at .   L o ts   o f   ap p li ca ti o n s   f o c u s es   o n   e x t r ac t in g   i n f o r m ati o n   a n d   t h e n   h a v e   it a r r a n g e d   ac co r d in g ly   [ 3 2 ,   3 3 ] .   E v er y   we b   p a g e   h as   t h e ir   o w n   s tr u c tu r e   i n cl u d es   m ai n   t o p ic ,   r e lat ed   t o p i c s ,   ad d i ti o n al   i n f o r m ati o n ,   ad v er t is e m e n t ,   c o n tac in f o r m at io n ,   im ag es,   a u d i o   a n d   v i d eo   f il e.   T h e   p r o b l em   t h a we  wa n t   t o   s o l v e   is   w h a is   t h e   b est   te c h n iq u e   ca n   b ap p l ie d   i n   o r d er   to   e x t r ac i m a g es  au to m a tic all y   [ 3 4 ,   3 5 ] .   Min in g   i n f o r m a ti o n   r e c o r d s   i n   d a ta  r e g i o n s   p la y s   im p o r t an r o le  i n   d ef in in g   ta g s   o f   s e m i - s t r u c t u r e d   d at a.   I t   is   ea s y   t o   ex tr ac t   d at f r o m   d at r eg io n s   b ec a u s it   co n t ai n s   u s e f u d ata .   I t   is   r e c o g n iz ed   as   d at a r e a .   A   te ch n iq u e   is   r e q u is i te   i n   o r d er   t o   m i n d at ar ea .   I n   t h e   ea r lie r   s ta g e,   t h is   m o d el   p r o p o s ed   DO t r e as  b ase d   tec h n i q u e   t o   m i n e   d at a   r e g i o n s   in   w e b   p ag e.     4 . 1   WE I DJ   a lg o rit hm   T h in d u s tr ial  o f   b i g   d ata  c o m p letes  th in d e x   f u n ctio n   o f   b ig   v o lu m es  o f   d ata  es p ec ially   in   ex tr ac tin g   im ag e   as  th d ata  o f   p r e f er en ce .   T h er e   ar m a n y   o th er   r esear ch er s   wh o   wo r k   o n   d ata  ex tr ac tio n   f r o m   d if f er e n s ites   in   o r d er   t o   test   th p e r f o r m an ce s   o f   ex t r ac tio n .   I n   th is   r esear c h   wo r k ,   we  r etr iev e   im ag es   an d   th eir   in f o r m atio n   f r o m   web   s o u r ce s   to   b an al y s ed   f o r   f u r th er   u s ag e.   A   m ed iato r   to o ca ll  W E I DJ  ap p r o ac h   h as  b ee n   p r o p o s ed .   T h is   to o aim s   to   ex tr ac im ag es  ac co r d in g   to   u n if o r m   r es o u r ce   lo ca to r   UR L T h im ag e’ s   d etails  will  b m in ed   an d   p r esen ted   in   s tr u ctu r ed   f o r m at  b ef o r s to r in g   th e m   in to   m u ltime d ia   d atab ase.   I n   th is   r esear ch ,   we  p r o p o s m e d iato r   t o o ca ll  W E I DJ  ap p r o ac h .   T h is   to o ai m s   to   ex tr ac t   im ag es   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  19 ,   No .   1 Feb r u ar y   2 0 2 1 :    3 1 7   -   32 6   322   ac co r d in g   to   u n if o r m   r eso u r ce   lo ca to r   UR L   an d   m in im a g e   d etails  th en   p r esen im a g es  in   s tr u ctu r ed   f o r m at  b ef o r s to r i n g   th em   in to   m u ltime d ia  d atab ase.     I n   W DE ,   web - b ased   m et h o d   b ased   o n   DOM   is   ap p lie d .   DOM   p r o v id es  a   s tr u ctu r ed   way   to   d escr ib d o cu m e n ts .   T h e   HT ML   d o c u m en ts   will  b c o n v er ted   in to   DOM   tr ee   s tr u ctu r e.   E ac h   elem en t   in   th e   tr ee   s tr u ctu r is   k n o wn   as  n o d e.   T h m ain   task   o f   d ata  p r e - p r o ce s s in g   in   web   d ata  ex t r a ctio n   in clu d es  p r e - b u ilt  th DOM   tr ee   o f   th we b   p ag e.   T h is   wr ap p e r   will  an a ly s th s p ec if ic  tar g ets  in   th e   s o u r ce s   o f   I n t er n et   wo r ld ,   web s ites First,  it  o b tain s   th r elativ o f   UR L   f r o m   web s ite.   E ac h   UR L   m ay   co n tain s   f ew,   h u n d r ed s   o r   th o u s an d   im ag es.   I n f o r m atio n   will  b e   ex tr ac ted   f r o m   f r o m   d if f er e n lev els  o f   web   p ag es  s u c h   as   s in g le  web ,   d if f er en s o u r ce s   o f   web   p ag es  an d   d ee p   web .   T h ex tr ac tio n   o f   in f o r m atio n   n ee d   to   d ea with   p ag r ef in em e n t to   clea n   an d   e x tr ac t u s ef u l in f o r m atio n   s u ch   as im ag es,  p ath   o f   im ag es,  s iz o f   im ag es a n d   s o   f o r th   in   th e   r u le   of   ex tr ac tio n .   T h is   wr ap p er   is   p r o p o s ed   to   ex tr ac im a g es  f r o m   web .   I n   th is   way ,   th e   p r o ce s s in g   o f   im a g es  will  b co n v er te d   in to   f o r m   o f   co m p u ter   p r o ce s s in g wh ich   is   r ep r esen ted   b y   th e   ex tr ac tio n   o f   d ata  in   tab u lar   f o r m at.   T h is   r ep r esen tatio n   is   im p o r tan in   o r d e r   f o r   p r o v id in g   r esear ch   an aly s is   o f   d ata  ex t r ac tio n .   Fi g u r 7   d e s cr ib es th wh o le  p r o ce s s   o f   th r ea lizatio n   o f   W DE .           F i g u r e   7 .   T h e   p r o c e s s   o f   t h e   i m a g e s   e x t r a ct i o n       5.   RE SU L T A ND  AN AL Y SI S   I n   th is   r esear ch   wo r k ,   web   d at ex tr ac tio n   ex p e r im en ts   h ad   b ee n   s et  u p   to   co m p ar th p e r f o r m a n ce   o f   W E I DJ  with   ex is tin g   m eth o d .   T h s o f twar c o n f ig u r atio n   th at  h as  b ee n   u s ed   in   th is   e x p er im en tatio n   ca n   b r ef er r ed   in   t h p r e v io u s   wo r k   [ 3 5 ] .   T h f in d in g s   o f   ex p e r i m en ts   tab u lated   in   Fig u r 8   s h o ws  th at  wh en   th e   am o u n o f   ex tr ac ted   im a g es  in cr ea s e,   th tim o f   th two   r etr iev al  m eth o d s DOM   an d   W HDJ  ar in cr ea s ed   b u th tim o f   W E I DJ  o n   im ag es  ex tr ac tio n   is   s ig n if ican tly   lo wer   th an   o th e r   ap p r o a ch es.   Fiv e   d if f er en t   web s ites   f r o m   b io d iv er s ity   f ie ld   h as  b ee n   s elec ted   t o   test   th p er f o r m an ce   o f   web   d ata  e x tr ac tio n   as  s h o wn   in   T ab le  2 .   E ac h   web s ite  h as  d if f er en t   d ata   v o lu m a n d   d if f er en d ata  s ize.   Fo r   a   we b   d ata   ex tr ac tio n   ex p er im en t,  d if f er e n t d ata  v o l u m an d   d ata  s ize  ar b ee n   test ed   b y   f o u r   d if f er e n t e x tr ac tio n   m eth o d s.   T h is   p ap er   also   s elec t s   th w eb s ite  o f   Fan g J ia  wh ich   i s   h tt p ://s h . Fan g J ia. co m   as  s h o i n   Fig u r 9 T h r ea s o n   wh y   th is   web s ite  is   s elec ted   a s   g u id elin b ec au s th er is   d is cu s s io n   o f   f in d in g s   f o r   im ag e   ex tr ac tio n   th at   h as  b ee n   co n s tr u cted   [ 2 7 ] .   Fo u r   ty p ical  d ata  ex tr ac tio n   alg o r ith m   VI B S,  MD R ,   DE PTA  an d   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         WEI DJ:   Dev elo p men t o f a   n e w   a lg o r ith fo r   s emi - s t r u ctu r ed   w eb   d a ta . . . ( I ly  A m a lin a   A h ma d   S a b r i )   323   VI DE   wer s elec ted   as  co m p ar in g   tar g et.   T h ex p er im en ts   wer co n d u cted   o n   th p r o to ty p s y s tem   o f   th e   ab o v alg o r ith m .   T h er ar t wo   ty p es  o f   p er f o r m a n ce   m e asu r em en th at  h av b ee n   co n d u cted   d u r in g   th is   ex p er im en t.  T h f ir s t m ea s u r e m en t is ex ec u tio n   tim a n aly s is   an d   s ec o n d   is   p r ec is io n ,   r ec a ll a n d   F - m ea s u r e.           Fig u r 8.   Per f o r m an c o f   im a g ex tr ac tio n   f o r   d ee p   web       T ab le  2 .   C h ar ac ter is tics   o f   in s tan t d ataset   U R L   U n i f o r m   R e so u r c e   L o c a t o r   ( U R L)   D o ma i n     G e n e r a l   B i o d i v e r s i t y   a n d   E n d a n g e r e d   S p e c i e s   I n f o r mat i o n   1   h t t p : / / w w w . a m n h . o r g /   A meric a n   M u se u o f   N a t u r a l   H i s t o r y   ( A M N H )   H a l l   o f   B i o d i v e r si t y   2   h t t p : / / o c e a n . si . e d u /   O c e a n   P o r t a l :   S mi t h s o n i a n   I n st i t u t i o n   3   h t t p : / / w w w . i u c n . o r g /   I n t e r n a t i o n a l   U n i o n   f o r   C o n ser v a t i o n   o f   N a t u r e   4   h t t p : / / w w w . e n d a n g e r e d s p e c i e si n t e r n a t i o n a l . o r g   En d a n g e r e d   S p e c i e s   I n t e r n a t i o n a l   5   h t t p : / / w w w . w w f . my   W o r l d   W i d e   F u n d   f o r   N a t u r e           Fig u r 9.   Stru ctu r ed   p ag es f r o m   Fan g J ia. co m       5 . 1 .     T im e x t ra c t io n a na ly s is   I n   th is   ex p er im en tal  wo r k ,   4 0   p ag es  f r o m   th s am web s ite  Fan g J ia  ( h ttp s ://fa n g jia. f an g . co m / b j/)  ha ve   b ee n   s elec ted   r an d o m ly .   T h en ,   t h ex t r ac tio n   tim e   will b ca lcu lated   f r o m   th e   b e g in n i n g   o f   th e   ex tr ac te d   p ag e   to   th e   n e x p a g e.   Fig u r e   1 s h o w s   th s am p le   o u tp u t f o r   e x tr ac tin g   4 0   p ag es  b y   co r r e s p o n d in g   p a g e.   T h d u r atio n   o f   th ex tr ac tio n   p r o ce s s   is   s h o wn   in   d etails  in   T ab le  3 .   Fro m   th p er f o r m a n ce   an aly s is ,   in   th e   p r elim in ar y   f o r   5   an d   1 0   p ag es  VI B it  is   ex ce l len in   ex t r ac tin g   im ag es  b u wh en   th HT ML   d o cu m en ts   b ec o m lar g e r ,   we  f o u n d   th at  W E I DJ cle ar ly   o u tp er f o r m s   e x is tin g   to o ls .     5 . 2 .     P re cisi o n,  re ca ll  a nd   F - m ea s ure   Acc o r d in g   to   [ 27 ] ,   th in ter f er en ce   o f   web   p ag e   n o is to   d ata  ex tr ac tio n   is   im p o r t an to   b co n s id er ed   b esid es  ef f icien cy   an d   ac cu r ac y   o f   d if f er en d ee p   web   p ag h eter o g en eity .   T h is   is s u e   m o tiv ates  u s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  19 ,   No .   1 Feb r u ar y   2 0 2 1 :    3 1 7   -   32 6   324   to   im p r o v is ex is tin g   alg o r ith m   o n   n o is y   in f o r m atio n .   S o ,   b esid es  f o cu s in g   o n   th p er f o r m a n ce   o f   tim e   ex tr ac tio n   f o r   ex tr ac tin g   in f o r m atio n ,   we  also   wan to   e x tr ac th s ig n if ican in f o r m at io n   o f   im a g an d   r em o v th e   n o is y   in f o r m atio n .   T ab le  4   s h o ws  th r esu lt  o f   th ex p er im en tal  e v alu atio n   f o r   W E I DJ  u s in g   Fan g J ia  web p ag as  test ed   UR L .   Fig u r 1 1   s h o ws  th co m p ar is o n   o f   t h f iv alg o r ith m   o f   th ex p er im en ts .   Ou r   m o d el,   W E I DJ  h as  p r o v e n   th at  its   ab ilit y   to   ex tr ac d ata   as  ac cu r ate  as  VI B S.  T h is   ac c u r ac y   in   e x tr ac tio n   is   ac h iev ed   b ec a u s o f   two   f a cto r s   th at  we  in clu d in   th is   r e s ea r ch ,   wh ich   a r n o is es  f ilter atio n   an d   th u s o f   J SON  wh ich   h elp s   to   tr an s f o r m   th d ata  f aster .       = +   ( 1 )       =    ( 2 )      = 2        +    ( 3 )           Fig u r 1 0.   E x tr ac tin g   4 0   p ag e s       T ab le  3 .   T h p er f o r m a n ce   o f   d ata  e x tr ac tio n   M e t h o d   Ti me   E x t r a c t i o n   5   p a g e s   1 0   p a g e s   1 5   p a g e s   2 0   p a g e s   2 5   p a g e s   3 0   p a g e s   3 5   p a g e s   4 0   p a g e s   W EI D J   1 2 . 6 9 7 2   1 8 . 6 3 9   2 2 . 1 8   2 9 . 1 4 6 8   2 9 . 5 0 7 9   3 5 . 2 6 5 1   3 7 . 9 7 7   4 8 . 8 4 9 8   V I B S   7 . 2 5   1 2 . 7   2 3 . 7 4   30   3 5 . 0 1   4 4 . 3 7   4 9 . 7 6   6 2 . 6 9   M D R   1 9 . 2 9   4 0 . 1 1   6 1 . 1 8   8 3 . 7 8   1 0 1 . 0 7   1 2 2 . 6 3   1 4 8 . 3 3   1 6 4 . 1 6   D EPTA   2 0 . 9 8   4 3 . 7 9   6 6 . 6 6   9 0 . 6 3   1 1 4 . 0 4   1 3 5 . 7 2   1 5 3 . 5 5   1 8 0 . 7 1   V I D E   5 3 . 1 3   9 4 . 3 7   1 4 4 . 3 3   1 9 5 . 2 3   2 4 6 . 2 9   2 9 1 . 0 8   3 4 1 . 1 8   3 8 9 . 5 2           Fig u r 1 1 .   C o m p ar is o n   p er f o r m an ce   ex is tin g   m eth o d     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         WEI DJ:   Dev elo p men t o f a   n e w   a lg o r ith fo r   s emi - s t r u ctu r ed   w eb   d a ta . . . ( I ly  A m a lin a   A h ma d   S a b r i )   325   T ab le  4.   R esu lt o f   th e x p er im en tal  ev alu atio n   f o r   W E I DJ   To t a l   i m g   D a t a   r e t r i e v e d   D a t a   ( F a l s e )   U n k n o w n   D a t a   P r e c i s i o n   R e c a l l   F1   1 4 5   1 4 2   0   3   1 0 0   9 7 . 9 3 1 0 3   9 8 . 9 5 4 7       6.   CO NCLU SI O N   All  th W o r ld   W id W eb   h as  b ec o m a   v ast  in f o r m atio n   s to r th at  is   g r o win g   at  r ap i d   r ate,   eith er   in   n u m b er   o f   s ites   o r   in   v o lu m o f   u s ef u in f o r m atio n .   W DE   is   t im co n s u m in g   wh en   th h tm d o cu m en ts   b ec o m es  lar g er .   Sin g le  DOM   d id   n o p er f o r m   v e r y   well  in   ex tr ac tin g   m u ltime d ia  d ata  s u ch   as  im ag if   th v o lu m o f   d ata  b ec o m i n cr ea s ed .   Ho wev er ,   wh en   a n o th er   tech n iq u J av a S cr ip o b ject  n o tatio n   is   im p lem en ted   in   e n h an ce d   m o d el  n am ely   as  wr ap p er   h y b r id   DOM   an d   J SON  ( W HD J ) ,   th tim ex ec u tio n   in   ex tr ac tin g   im ag a n d   its   in f o r m atio n   h as  b ee n   r e d u ce d   t o   5 0 g r ea ter   th an   DOM   tech n i q u e.   E v e n   th tim e   ex ec u tio n   h as  im p r o v ed   b u t   t h lim itatio n   o f   th is   m o d el  i s   th r ed u n d an c y   o f   s im ilar   f ilen am in   im a g es  ex tr ac tio n .   C o m p lem en tar y   to   th is ,   we  in ten d   to   co m b in e   b o th   ap p r o ac h es  an d   ap p ly   v is u al  s eg m en tatio n   to   g et  th b est  p er f o r m an ce   an d   ex tr ac th co n s tr u ctiv im ag es.  T h is   wr ap p er   h as  b ee n   d ev elo p e d   b ased   o n   p r o p o s ed   m o d el,   W E I DJ.  T h f in d in g s   r esu lt  o f   tim e x e cu ti o n   o f   W E I DJ  is   g r ea ter   ( 9 0 %)   th an   ex is tin g   to o ls   s h o u ld   b in ter p r eted   b ec a u s o f   th p ag lev el  o f   ex tr ac ti o n s   wh ich   is   d ee p   web ,   u s ed   in   th an aly s is   o f   ex p er im en tatio n   f o r   th ex ec u tio n   tim e.   I n   th is   s tu d y ,   t h b en ch m ar k   o f   d ataset  ( Fan g J i a)   an d   b io d iv e r s ity   web s ites   wer h eter o g en eo u s   with   r esp ec to   im ag e,   p ath   o f   im ag es,  s ize  o f   im ag es  a n d   ex ec u tio n   tim e.   B esid th ex ec u tio n   tim is   f o cu s ed   as  m ain   g u id elin e,   th ex p er im en tatio n   o f   im ag es  ex t r ac tio n   wo u ld   h a v e   im p r o v e d   th v alid it y   o f   s ig n if ican t   in f o r m atio n   b y   r em o v in g   n o is y   in f o r m atio n   o f   im ag es.   I n   f u tu r s tu d ies ,   it  is   r ec o m m en d ed   th at  th s e lectio n   o f   d ataset  in v o lv es  v a r iety   o f   f ield s   wh ic h   in clu d es   s o cial  n etwo r k s   o r   o th er   p latf o r m .   T h is   is   b ec au s th s tr u ctu r o f   web s ite  h av e   b ee n   d e v elo p e d   in   d if f er en t te ch n o lo g ies.       ACK NO WL E DG E M E NT S     I   s in ce r ely   th an k   all  th o s w h o   h elp e d   m in   co m p letin g   th is   task   esp ec ially   B ia s is wa  Un iv er s iti   Ma lay s ia  T er en g g an u   ( B UM T ) .       RE F E R E NC E S     [ 1 ]     R.   S u re sh ,   e a l . ,   Da ta  m in in g   a n d   tex t   m in i n g   -   S u r v e y , ”  2 0 1 7   In ter n a ti o n a Co n fer e n c e   o n   Co mp u ta ti o n   o f   Po we r,  En e rg y   I n f o rm a ti o n   a n d   Co mm u n ica ti o n .   2 0 1 7 ,   p p .   4 1 2 - 4 1 9 ,   M a rc h   2 0 1 7 .   [ 2 ]     A.  Ap a o laz a ,   M .   Vig o ,   As siste d   P a tt e rn   M i n in g   fo Disc o v e rin g   I n tera c ti v e   Be h a v io u rs o n   Th e   We b ,”   In ter n a ti o n a l   J o u rn a o Hu ma n - Co m p u ter   S tu d ies v o l.   1 3 0 ,   p p . 1 9 6 - 2 0 8 ,   Oc to b e 2 0 1 9 .   [ 3 ]     Q.  Zh a n g ,   e a l . ,   su rv e y   o n   d e e p   lea rn in g   fo r   b i g   d a ta ,   In f o rm a ti o n   Fu si o n v o l.   4 2 ,   p p .   1 4 6 - 1 5 7 ,   Ju ly   2 0 1 8 .   [ 4 ]     C.   S .   S a ra v a n a   Ku m a a n d   R.   S a n th o s h ,   Eff e c ti v e   in f o rm a ti o n   re tri e v a a n d   fe a tu re   m in imiz a ti o n   tec h n i q u e   fo r   se m a n ti c   we b   d a ta ,”   Co mp u ter s &   El e c trica En g in e e rin g v o l . 8 1 ,   Ja n u a ry   2 0 2 0 .   [ 5 ]     V.  Ka y se a n d   E.   S h a la,  S c e n a ri o   d e v e l o p m e n u sin g   we b   m i n in g   fo o u tl i n i n g   tec h n o l o g y   f u tu re s ,”   T e c h n o l o g ic a l   Fo re c a stin g   a n d   S o c ia C h a n g e v o l.   1 5 6 ,   Ju l y   2 0 2 0 .   [ 6 ]     K.  Wi ll iam s,  e a l . ,   S c h o larly   b i g   d a ta  i n fo rm a ti o n   e x trac ti o n   a n d   in teg ra ti o n   in   t h e   c it e se e χ   d ig i t a li b ra r y ,   D a ta   En g i n e e rin g   W o rk sh o p s (ICDEW ),   M a rc h   2 0 1 4 .   [ 7 ]     M .   S .   P e ra ,   e a l . Web - b a se d   c l o se d - d o m a in   d a ta  e x trac ti o n   o n   o n li n e   a d v e rti se m e n ts ,”   In fo rm a ti o n   S y ste ms v o l.   3 8 ,   n o .   2 ,   p p .   1 8 3 - 1 9 7 ,   Ap ri 2 0 1 3 .   [ 8 ]     De wa e lh e y n s,  V.,   I.   Lo ris,   a n d   T.   S tee n b e r g h e n ,   Web   d a ta  e x t ra c ti o n   sy ste m v e rsu re se a rc h   c o ll a b o ra ti o n   in   su sta in a b le p lan n i n g   fo r   h o u sin g sm a rt  g o v e rn a n c e   tak e s it   a ll ,”   R E AL   CORP  2 0 1 6   Pro c e e d in g 2 0 1 6 .   [ 9 ]     N.  V.  Ka m a n wa r,   S .   Ka ,   We b   d a ta  e x trac ti o n   tec h n i q u e s Re v iew ,   Fu tu ristic  T re n d s   in   Res e a rc h   a n d   In n o v a ti o n   f o r S o c ia W e lf a re   (S t a rtu p   Co n c la v e ),   M a rc h   2 0 1 6 .   [ 1 0 ]     Lae n d e r,   A.   H . ,   e a l .,  b rief  su rv e y   o we b   d a ta  e x trac ti o n   to o ls .   ACM  si g m o d   re c o rd , ”  DBL P ,   v o l. 3 1 ,   n o .   2 ,   p p . 8 4 - 9 3 ,   Ju n e   2 0 0 2 .   [ 1 1 ]     F a n g ,   Y.   X.,   e a l .,  S TE M su ffix   tree - b a se d   m e th o d   f o r   we b   d a ta  re c o rd e x trac ti o n ,”   Kn o wled g e   a n d   In fo rm a t io n   S y ste ms v o l.   5 5 ,   n o .   1 0 ,   p p . 1 - 2 7 ,   M a y   2 0 1 7 .   [ 1 2 ]     A.  P o u ra m in i e a l. ,   Da ta  e x trac ti o n   u si n g   c o n ten t - b a se d   h a n d les ,”   J o u rn a o AI  a n d   Da t a   M in in g Ja n u a ry   2 0 1 8 .   [ 1 3 ]     P.  Jim é n e z   a n d   R .   C o rc h u e lo ,   On   lea rn i n g   we b   in f o rm a ti o n   e x t ra c ti o n   r u les   wit h   TANG O ,”   In fo rm a ti o n   S y ste ms v o l.   6 2 ,   p p .   7 4 - 1 0 3 ,   De c e m b e 2 0 1 6 .   [ 1 4 ]     M.  Ch it ra ,   B.   Ay s h a   Ba n u ,   De e p   we b   d a ta  e x trac ti o n   b a se d   o n   u r a n d   d o m a in   c las sifica ti o n ,”   IS A ACA   J OU RNA L p p .   1 - 4 ,   Ju l y   2 0 1 5 .   [ 1 5 ]     A.  K.  Tri p a th y e a l . , “ Ve d d - v i su a wra p p e fo e x trac ti o n   o d a t a   u sin g   DO M   tree ,”   Co mm u n ica t i o n ,   I n fo rm a ti o n   &   Co mp u t in g   T e c h n o l o g y   (ICCIC T ),   Oc to b e 2 0 1 2 .   [ 1 6 ]     N.  De ro u ich e ,   e t   a l . ,   Au t o m a ti c   e x trac ti o n   o f   stru c t u re d   we b   d a ta  wit h   d o m a in   k n o wle d g e ,”   IEE E   2 8 th   In ter n a t io n a C o n fer e n c e   o n   D a ta   En g in e e rin g ,   Ap ri 2 0 1 2 .   [ 1 7 ]     L.  Li u ,   e a l . ,   XWRAP:   A n   XML - e n a b led   wra p p e c o n str u c t io n   s y ste m   fo we b   i n fo rm a ti o n   so u rc e s ,”   Da ta   En g i n e e rin g ,   2 0 0 0 .   Pr o c e e d in g s .   1 6 t h   In ter n a ti o n a C o n fer e n c e   o n .   2 0 0 0 ,   F e b r u a ry   2 0 0 0 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  19 ,   No .   1 Feb r u ar y   2 0 2 1 :    3 1 7   -   32 6   326   [ 1 8 ]     C.   H.  Ch a n g   a n d   S .   C.   K u o ,   OLERA:  se m isu p e rv ise d   we b - d a ta  e x trac ti o n   wit h   v isu a su p p o rt ,”   IEE In tell ig e n t   S y ste ms v o l. 1 9 ,   n o . 6 ,   p p .   5 6 - 6 4 ,   De c e m b e 2 0 0 4 .   [ 1 9 ]     B.   Li u ,   e a l . ,   M i n in g   d a ta  r e c o rd in   we b   p a g e s ,”   Pro c e e d in g o th e   n i n t h   ACM   S IGKD In ter n a ti o n a l   Co n fer e n c e   o n   Kn o wled g e   Disc o v e ry   a n d   D a ta   M i n in g ,   2 0 0 3 .   [ 2 0 ]     D.  Ca i,   e a l .,  VIPS :   A Visio n - B a se d   P a g e   S e g m e n tatio n   Al g o ri th m ,”   M icr o so ft   tec h n ica re p o rt 2 0 0 3 .   [ 2 1 ]     V.  Cre sc e n z i,   e a l .,   Ro a d r u n n e r:  to wa rd s a u t o m a ti c   d a ta ex trac ti o n   fro m   lar g e   we b sites ,”   VL DB ,   S e p tem b e 2 0 0 1 .   [ 2 2 ]     Ch a n g ,   C . - H.  a n d   S . - C.   Lu i ,   IE P AD in fo rm a ti o n   e x trac ti o n   b a s e d   o n   p a t tern   d isc o v e ry ,”   Pro c e e d in g o t h e   1 0 t h   In ter n a t io n a C o n fer e n c e   o n   W o rl d   W id e   W e b ,   Ja n u a ry   2 0 0 1 .   [ 2 3 ]     C.   N.  Hs u ,   M .   T.   Du n g ,   G e n e ra ti n g   f in it e - sta te   tran s d u c e rs  fo r   se m i - stru c tu re d   d a ta  e x trac ti o n   fro m   th e   we b ,   In fo rm a t io n   S y ste ms v o l.   8 ,   n o .   8 ,   p p .   5 2 1 - 5 3 8 ,   De c e m b e 1 9 9 8 .   [ 2 4 ]     J.  Ha m m e r,   e a l .,  Ex trac ti n g   se m istru c tu re d   i n fo rm a ti o n   fr o m   th e   we b ,”   S e p tem b e 2 0 0 2 .   [ 2 5 ]     A.  G u p ta An a n d   S h a n k a r   S. ,   a n d   C .   M a n ju n a th ,   c o m p a ra ti v e   stu d y   o n   d a ta  e x trac ti o n   a n d   it p r o c e ss e s ,”   In ter n a t io n a J o u rn a o A p p li e d   En g i n e e rin g   Res e a rc h v o l.   1 2 ,   n o .   1 8 ,   p p .   7 1 9 4 - 7 2 0 1 ,   2 0 1 7 .   [ 2 6 ]     Ily   Am a li n a   A.  S . ,   a n d   M .   M a n ,   M u lt ip le  ty p e o se m i - stru c tu re d   d a ta  e x trac ti o n   u si n g   wra p p e f o e x trac ti o n   o f   i m a g e   u s i n g   D O M   ( W E I D ) ,   R e g i o n a l   C o n f e r e n c e   o n   S c i e n c e ,   T e c h n o l o g y   a n d   S o c i a l   S c i e n c e s   ( R C S T S S   2 0 1 6 ) ,   2018.   [ 2 7 ]     J.  Li u ,   e a l . ,   De e p   we b   d a ta  e x trac ti o n   b a se d   o n   v isu a i n fo rm a t io n   p r o c e ss in g ,”   J o u rn a o Amb i e n In telli g e n c e   a n d   Hu ma n ize d   C o mp u ti n g Oc t o b e 2 0 1 7 .   [ 2 8 ]     A.  Bh a rd wa j   a n d   V.   M a n g a t,   An   imp ro v ise d   a l g o rit h m   fo r   re lev a n c o n te n e x trac ti o n   fro m   we b   p a g e s ,”   J o u rn a o f   Eme rg in g   T e c h n o lo g ies   in   W e b   I n telli g e n c e v o l.   6 ,   n o . 2 ,   M a y   2 0 1 4 .   [ 2 9 ]     I l y   A m a l i n a   A .   S . ,   a n d   M .   M a n T h e   p r o p o s e d   a l g o r i t h m   f o r   s e m i - s t r u c t u r e d   d a t a   i n t e g r a t i o n :   c a s e   s t u d y   o f   s e t i u   w e t l a n d   d a t a   s e t ,   J o u r n a l   o f   T e l e c o m m u n i c a t i o n   E l e c t r o n i c   a n d   C o m p u t e r   E n g i n e e r i n g v o l .   9 ,   n o .   3 - 3 ,   p p .   7 9 - 8 4 ,   2 0 1 7 .     [ 3 0 ]     Ily   Am a li n a   A.  S . ,   a n d   M .   M a n ,   WE IDJ :   An   imp ro v ise d   a lg o r it h m   fo ima g e   e x trac ti o n   fro m   we b   p a g e s ,”   T h e   8 t h   In ter n a t io n a C o n fer e n c e   o n   I n fo r ma ti o n   T e c h n o l o g y ,   M a y   2 0 1 7 .   [ 3 1 ]     Ily   Am a li n a   A.  S . ,   a n d   M .   M a n Im p ro v i n g   p e rfo rm a n c e   o DO M   in   se m i - stru c tu re d   d a ta  e x trac t io n   u sin g   WE IDJ   m o d e l ,”   In d o n e sia n   J o u r n a l   o El e c trica En g in e e rin g   a n d   C o mp u t e r S c ien c e v o l .   9 ,   n o .   3 ,   p p .   7 5 2 - 7 6 3 ,   2 0 1 8 .   [ 3 2 ]     J.  Wan g   a n d   F .   H.   L o c h o v sk y ,   Da ta  e x trac ti o n   a n d   lab e l   a ss ig n m e n fo r   we b   d a tab a se s ,”   Pro c e e d in g o t h e   1 2 t h   In ter n a t io n a C o n fer e n c e   o n   W o rl d   W id e   W e b ,   Ja n u a ry   2 0 0 3 .   [ 3 3 ]     Y.  Zh a i   a n d   B .   L iu ,   Web   d a ta   e x trac ti o n   b a se d   o n   p a rti a l   tree   a li g n m e n t ,”   Pro c e e d i n g s   o f   t h e   1 4 th   In ter n a ti o n a Co n fer e n c e   o n   W o rld   W i d e   W e b ,   Ja n u a ry   2 0 0 5 .   [ 3 4 ]     I l y   A m a l i n a   A .   S . ,   a n d   M .   M a n T h e   p r o p o s e d   a l g o r i t h m   f o r   s e m i - s t r u c t u r e d   d a t a   i n t e g r a t i o n :   c a s e   s t u d y   o f   s e t i u   w e t l a n d   d a t a   s e t ,”   J o u r n a l   o f   T e l e c o m m u n i c a t i o n   E l e c t r o n i c   a n d   C o m p u t e r   E n g i n e e r i n g v o l .   9 ,   n o . 3 - 3 ,   p p .   7 9 - 8 4 ,   2 0 1 7 .     [ 3 5 ]     Ily   Am a li n a   A.  S . ,   M .   M a n ,   e t   a l .,   Web   d a ta  e x trac ti o n   a p p ro a c h   fo d e e p   we b   u si n g   WE IDJ ,”   Pro c e d ia   C o mp u ter   S c ien c e v o l.   1 6 3 ,   p p .   4 1 7 - 4 2 6 ,   2 0 1 9 .       B I O G RAP H I E S   O F   AUTH O RS        Ily   Am a l in a   Ah m a d   S a b r i   wa b o r n   o n   2 0 t h   M a rc h   1 9 8 5   i n   Ku a l a   Tere n g g a n u ,   Tere n g g a n u .   He p rima ry   e d u c a ti o n   sta rte d   a S e k o lah   Ke b a n g sa a n   Ru s il a   (1 9 9 2 - 1 9 9 7 a n d   sh e   a c c o m p li sh e d   h e h i g h   sc h o o l   a Ko lej  S a in P e n d i d ik a n   Isla m   Ne g e ri  Tere n g g a n u   (KO S P INT)  in   2 0 0 3 .   S h e   re c e iv e d   h e Dip lo m a   In f o rm a ti o n   Tec h n o l o g y   fro m   P o l y tec h n ic  o S u lt a n   M iza n   Zain a l   Ab i d in   ( P S M ZA).   Afte t h a t,   s h e   e n ro l led   t o   Un iv e rsiti   M a lay sia   Tere n g g a n u   t o   fu r th e h e d e g re e   stu d ies   in   S o f twa re   En g i n e e ri n g ,   w h ich   wa o b tain e d   i n   2 0 0 9 .   S h e   c o n ti n u e d   h e r   m a ste d e g re e   in   M a ste o f   S c ien c e   (C o m p u ter  S c ie n c e in   t h e   sa m e   u n i v e rsity   a n d   g ra d u a ted   i n   2 0 1 4 .   Du r in g   m a ste rs’s   d e g re e ,   h e r   re se a rc h   wa in   De c isio n   S u p p o rt   S y ste m ,   fo c u si n g   o n   F u z z y   AH P   in   d e c isio n   m a k i n g   fo r   to u rism   d e sti n a ti o n .   N o w,   sh e   h a c o m p lete d   h e Do c to o P h il o so p h y   (C o m p u ter  S c ien c e ),   a lso   in   Un i v e rsiti   M a lay sia   Tere n g g a n u .   He c u rre n a re a   o i n tere st i s Da ta M in i n g   fo c u si n g   o n   Web   Da ta E x trac ti o n .           Mu sta fa   Ma n   is  a n   As so c iate   P ro fe ss o in   S c h o o o I n fo rm a ti c a n d   Ap p l ied   M a th e m a ti c a n d   a l so   a a   De p u ty   Dire c to a Re se a rc h   M a n a g e m e n In n o v a ti o n   Ce n tre  (RM IC),   UMT .   He   sta rted   h is   P h D   stu d ies   i n   J u ly   2 0 0 9   a n d   fi n ish e d   h is   stu d ies   i n   C o m p u ter  S c ien c e   fr o m   UT M   in   2 0 1 2 .   He   h a re c e iv e d   Co m p u ter   S c ien c e   Dip lo m a ,   C o m p u t e S c ien c e   De g re e ,   M a ste D e g re e   fro m   UPM .   In   2 0 1 2 ,   h e   h a b e e n   a wa rd e d   a   M Ie c   M OS  P re stig io u Aw a rd s”   fo h is   P h b y   M IM OS   Be rh a d .   His   re se a rc h   is  fo c u se d   o n   th e   d e v e lo p m e n o m u l ti p le   ty p e o f   d a tab a se in teg ra ti o n   m o d e a n d   a lso   in   Au g m e n ted   Re a li t y   (A R),   a n d ro i d   b a se d ,   a n d   IT   re late d   in t o   a c ro ss   d o m a in   p latfo r m .     Evaluation Warning : The document was created with Spire.PDF for Python.