I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m p u t er   Science   Vo l.   10 ,   No .   3 J u n e   201 8 ,   p p .   1266 ~ 1 2 7 7   I SS N:  2502 - 4752 DOI : 1 0 . 1 1 5 9 1 / i j ee cs . v 1 0 .i 3 . p p 1 2 6 6 - 1 2 7 7           1266       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / ijeec s   An E m pirica Co m pa ra tive  Study  o Ins tance - ba sed Sche m a   M a tching        M o g a hed Alz eber 1 Ali A .   Alw a n 2 Azlin N o rdin 3 Abeda l la Z a i d Abua l kis hi k 4   1, 2, 3 De p a rt m e n o f   Co m p u ter S c ien c e ,   Ku ll iy y a h   o f   In f o r m a ti o n   a n d   Co m m u n ica ti o n   T e c h n o lg o y ,   In tern a ti o n a l   Isla m i Un iv e rsit y   M a la y sia ,   M a la y sia   4 Co ll e g e   o f   Co m p u ter In f o rm a ti o n   T e c h n o lo g y ,   Am e rica n   Un iv e rs it y   in   th e   Em irate s,  Du b a i,   Un it e d   A ra b   E m irate s       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Dec   14 ,   2 0 1 7   R ev i s ed   Feb   25 ,   2 0 1 8   A cc ep ted   Mar   1 1 ,   2 0 1 8       T h e   m a in   issu e   c o n c e rn   o f   sc h e m a   m a tch in g   is  h o w   to   su p p o rt  t h e   m e r g in g   d e c isio n   b y   p ro v id in g   m a tch in g   b e tw e e n   a tt rib u tes   o f   d iff e re n sc h e m a s .   T h e re   h a v e   b e e n   m a n y   w o rk in   th e   li tera tu re   t o w a rd   u ti li z i n g   d a tab a se   in sta n c e to   d e tec th e   c o rre sp o n d e n c e   b e tw e e n   a tt rib u tes .   M o s o f   th e se   p re v io u w o rk a i m   a i m p ro v in g   th e   m a tch   a c c u ra c y .   We  o b se rv e d   th a n o   tec h n iq u e   m a n a g e d   to   p r o v id e   a n   a c c u ra te  m a tch in g   f o d iff e re n ty p e o d a ta.  In   o t h e w o rd s,  so m e   o f   th e   tec h n i q u e trea n u m e ric  v a lu e a strin g s.  S im il a rl y ,   o th e tec h n i q u e p r o c e ss   tex tu a in sta n c e ,   a n u m e ric ,   a n d   th is   n e g a ti v e l y   in f lu e n c e th e   p r o c e ss   o f   d isc o v e rin g   th e   m a tch   a n d   c o m p ro m isin g   th e   m a tch in g   re su lt .   T h u s,  a   p ra c ti c a c o m p a ra t iv e   stu d y   b e tw e e n   s y n tac ti c   a n d   se m a n ti c   tec h n iq u e is  n e e d e d .   T h e   stu d y   e m p h a siz e s   o n   a n a ly z in g   th e se   tec h n iq u e t o   d e term in e   th e   stre n g th a n d   w e a k n e ss e o e a c h   tec h n iq u e .   T h is  p a p e a i m s   a c o m p a rin g   t w o   d iffere n in sta n c e - b a se d   m a tch in g   tec h n iq u e s,  n a m e l y :   (i)  re g u lar  e x p re ss io n   a n d   ( ii G o o g le  sim il a rit y   to   id e n ti fy   th e   m a tch   b e tw e e n   a tt rib u tes .   S e v e ra a n a ly se h a v e   b e e n   c o n d u c ted   o n   re a a n d   sy n th e ti c   d a ta  se ts  to   e v a lu a te  th e   p e rf o rm a n c e   o th e se   tec h n iq u e s w it h   re sp e c to   P re c isio n   ( P ),   Re c a ll   (R)  a n d   F - M e a su re .   K ey w o r d s :   Data b ase   in s tan ce s   D ata  in te g r atio n   Go o g le  s i m ilar it y   R eg u lar   E x p r es s io n   Sch e m m a tch i n g   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e .     Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   A li  A .   Al w an ,     Dep ar t m en t o f   C o m p u ter   Scie n ce ,     Ku lli y y ah   o f   I n f o r m atio n   a n d   C o m m u n ica tio n   T ec h n o lo g y ,     I n ter n atio n al  I s la m ic  U n iv er s it y   Ma la y s ia,   I I UM ,   P .   O.   B o x   1 0 ,   5 0 7 2 8   Ku ala  L u m p u r ,   Ma la y s ia.   E m ail: a lia m er @ ii u m . ed u . m y       1.   I NT RO D UCT I O N     Sev er al  att em p ts   h av b ee n   co n d u cte d   to   c o m b in d ata   f r o m   d if f e r en h e te r o g en e o u s   s o u r c es  t o   f o r m   u n if ied   g l o b al  v iew .   T h is   p r o ce s s   ca lle d   d at in teg r at io n ,   w h ich   aim s   to   r e p r esen d at in   o n s in g le  v iew   an d   f ac ili tat es  th p r o ce s s   o f   in te r ac tin g   w ith   th d at t o   b a p p e ar in g   as  o n s in g le  in f o r m atio n   s y s tem   [ 1 ]   [ 2 ] .   Ho w ev er ,   i is   v e r y   ch allen g in g   to   in t eg r a te  an d   m an ag d a t w h ich   co m es  f r o m   s ev er a d if f er en s o u r ce s   th a t   ar b ein g   in d e p en d en tly   d ev e lo p e d .   T h is   is   d u e   t o   th f a ct   th at   th e r e   a r d if f e r en t   r e p r e s en tati o n s   o f   th ese   s o u r ce s ,   an d   d ata  s o u r ce s   m ig h n o b d esig n e d   in   w a y   t o   a d o p th s am a b s t r a cti o n   p r in ci p l es  o r   h av e   s im ilar   s em an tic   c o n c ep ts   t o   b f u lly   u s ed   [ 3 ] .     T h er a r m an y   r ea s o n s   f o r   in teg r atin g   in d e p en d en h ete r o g en e o u s   in f o r m ati o n   s y s te m s   in to   o n e   g lo b al  in f o r m ati o n   s y s te m .   Fo r   ex am p le ,   m an y   f ir m s   m ig h attem p t o   in teg r ate   s o m o f   th d ev e lo p e d   h ete r o g en eo u s   d a ta  s o u r ce s   w h er th ese  b u s in ess es  h av v a r io u s   d at ab ases ,   an d   e ac h   d a ta b ase  m ig h co n s is t o f   v ast  n u m b er   o f   t ab les  th at  e n co m p ass   d if f er en a tt r i b u tes .   T h p r o c ess   o f   d at in t eg r a ti o n   ca n   b p e r f o r m ed   eith e r   m an u ally   o r   s em i - au to m atica lly .   I n   b o th   a p p r o a ch es,   th er a r s o m is s u es  th a th e   m ac h in m ig h f ac e   d u r in g   th in t eg r a ti o n   p r o ce s s ,   in clu d in g   d e tec tin g   th c o r r esp o n d en c b etw ee n   d ata b a s s ch em as  at  th s ch em lev el ,   in s tan ce   lev el ,   o r   b o th   [ 2 ] ,   [ 4 ]   an d   [ 8 ] .   B esi d es ,   i d en t if y in g   th co n f licts   o f   s y n tax   an d   s em an tic   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E mp ir ica C o mp a r a tive  S t u d o f I n s ta n ce - b a s ed   S ch ema   Ma tch in g     ( A li A .   A lw a n )   1267   h ete r o g en eity   b etw ee n   s ch em as  is   als o   s ig n if ican is s u d u r in g   d at in teg r ati o n .   Fo r   t h is   r ea s o n ,   s ch em m atch in g   h as  b ee n   p r o p o s e d   t o   h an d l th p r o ce s s   o f   d is c o v er in g   th co r r es p o n d en ce   b et w ee n   s ch em as   an d   r es o lv e   c o n f lic ts   w h en   o c cu r r e d .   Ho w ev er ,   s ch em m atch in g   a p p r o a ch   c an   o n ly   b e   u til ize d   w ith   s tan d ar d i ze d   d ata b as en v ir o n m en ts   w h er s ch em at tr ib u t es  n am es  a r e   u n am b ig u o u s .   T h er ef o r e,   u s in g   s ch em m atch in g   is   in ap p r o p r ia te  w h en   d at a b ases   a r d ev e lo p e d   s e p ar ately   an d   w ith o u u n if ied   s tan d a r d s   [ 9 ] .   Fu r th e r m o r e ,   it  is   i m p r ac ti ca t o   em p lo y   th s ch em d esig n   in f o r m atio n   s ch em attr i b u t es”  to   d et er m in th c o r r es p o n d en ce s   at tr ib u tes  w h en   d if f er en t   ab b r ev ia ti o n s   o f   at tr i b u t n am es  co lu m n s   n am es”  is   u s ed   t o   r e p r esen t   th e   s am r ea l   w o r l d   en titi es  o r   o b je cts  [3 ]   [ 9 ] .   T h e r a r m an y   r ea l   lif a p p lic ati o n s   w h er s ch e m in f o r m atio n   is   u n av aila b l o r   av a ila b l b u t   w o r th less   to   b u s e d ,   ex am p le s   in clu d in g   h o m elan d   s e cu r i ty ,   cr im in v esti g ati o n ,   c o u n te r t er r o r is m   [ 3 ,   8 ,   1 0 ] .   T h u s ,   in   th ese  ca s es ,   u tili zin g   th in s tan ce s   is   th b es av ai lab le  al te r n ativ to   a ch iev th s ch em m atch in g   b etw ee n   d at ab ases   g iv es  p r ec is ch ar ac t e r iz ati o n   o f   th r ea c o n ten ts   o f   s ch em attr ib u tes  [ 1 1 ] .   I n s tan c e - b as ed   s ch em m atch in g   atte m p ts   to   ex tr a ct  th s em an tic  r ela ti o n s h ip   b etw ee n   tar g et e d   att r i b u tes  v ia  th ei r   v alu es “ in s tan c e” .   T w o   d if f e r en cl ass es  f o r   m atch in g   h av b ee n   p r o p o s ed ,   n a m ely s y n tactic  an d   s em an tic .   T h e   s y n tacti em p h asizes  o n   th h ete r o g en eity   in   th s tr u ctu r e   o f   th tab l ( att r i b u tes )   t o   d ete r m in th m atch .   W h ile  th s em an tic  class   f o cu s es  o n   th h ete r o g en ei ty   in   th e   m ea n in g   o f   th in s tan ce s .   Ma n y   tech n iq u es  h av e   b e en   p r o p o s e d   th at  r ely   o n   s y n tacti c,   in c lu d in g   N - g r am ,   an d   r eg u la r   ex p r ess i o n .   W h ile   th m o s ef f ec tiv e   tech n i q u es  th a r ely   o n   s em an tic  in clu d in g ,   L a ten S em an tic  an aly s is   ( L SA ) ,   W o r d Ne t/ T h e s au r u s ,   an d   G o o g l e   s im ilar ity .   B y   ex am in in g   th p r ev i o u s   w o r k s ,   w n o tice d   th at  m o s o f   t ec h n i q u es  c o u l d   n o ac h iev ed   p r e cise   m atch in g   f o r   d if f e r en d a ta  ty p es .   I n   o th e r   w o r d s ,   s o m o f   th tech n i q u es  t r e at  n u m er ic  v a lu es  as  s t r in g s .   T h is   n eg ativ ely   in f lu en ce s   o n   d is co v er in g   th m atch   an d   d e te r i o r ates  th q u a lity   o f   m atch   r esu l ts .   Sim ilar ly ,   o th e r   tech n i q u es  tr ea t   t ex tu al   in s tan c e,   as   n u m er ic,   an d   als o   im p a ct  th q u ali ty   o f   th e   m atch   r esu lts .   I n   th is   p ap e r ,   w ex am in t w o   s t r at eg ies   u tili zin g   G o o g le  Sim ilar ity   an d   R eg u la r   ex p r ess i o n   tech n i q u es  t o   id en tif y   th s e m an tic  m atch   b e tw ee n   d ata b as att r i b u tes  u s in g   th av ail a b le  i n s tan ce s .   T h s tu d y   s h o u ld   ca r r y   o u ex t en s iv e x p e r im en ts   th at  h el p   r ese ar c h er s   in   th is   a r ea   o f   r es ea r ch   to   u n d er s tan d   th e   ca p a b il iti es  an d   th e   lim itati o n s   o f   ea ch   t ec h n i q u e .   T h r est   o f   th e   p ap e r   is   o r g an i ze d   as   f o ll o w s .   T h e   p r ev io u s   r elat e d   w o r k s   a r e   r ev iew ed   an d   r e p o r te d   i n   s ec ti o n   2 .   T h d e tai d esc r i p t io n   o f   th p r o p o s e d   a p p r o ac h   f o r   in s t an ce - b as ed   s ch em m atch in g   h as  b ee n   ex p l ain e d   in   s ec ti o n   3 .   T h f o llo w in g   s ec ti o n   4   r e p o r ts   th e   r esu lts   o f   th e   ex p e r im en t.  T h ex p e r im en r esu lts   h av b e en   r e p o r t e d   in   s e cti o n   5 .   T h co n clu s i o n   is   p r esen te d   in   s ec ti o n   6 .       2.   RE L AT E WO RK   I n s ta n ce - b ased   s c h e m a   m atch in g   h as  b ee n   i n v e s ti g ated   b y   n u m er o u s   s t u d ies  t h at   co n c en tr ate  o n   en h a n ci n g   th ac c u r ac y   o f   t h s c h e m m atc h i n g   r esu l [ 3 ,   6 - 7 ,   1 2 - 18 ] .   Dif f er e n ap p r o ac h es  h a v b ee n   p r o p o s ed ,   ad o p ted   v ar io u s   s t r ateg ies   f o r   p r e cise  d eter m i n atio n   o f   co r r esp o n d en ce   b et w ee n   at tr ib u tes   o f   s ch e m as.  Mo s o f   t h p r ev i o u s   w o r k s   r elate d   to   s ch e m m atc h in g   u tili ze d   d i f f er e n t   s i m ilar it y   m etr ic s   tech n iq u es  f o r   d etec tin g   th m atch es i f   t h e y   e x is t.    Do an ,   A . ,   et  al.   i n   [ 1 5 ]   p r o p o s ed   m ac h in e   lear n i n g   b ased   s y s te m   ca lled ,   L ea r n i n g   So u r ce   Descr ip tio n s   ( L SD)   t h at  lo ca t es  attr ib u te s   m a tch i n g   i n   s e m i - au to m atic  m a n n er .   L S n e ed s   to   ex ec u te  s o m e   ex a m p le s   o f   s e m a n tic  m ap p i n g s   f r o m   th e   u s er   b ef o r r u n n in g   o n   t h r ea l   d atab ase  to   tr ain   ea c h   m ac h in e   l ea r n in g   tech n iq u e.   T h u s er   n ee d s   to   p r o v id th s e m a n tic  m ap p in g   f o r   p r ed eter m in ed   s et  o f   d ata  r eso u r ce s   to   b u s ed   to g eth er   w it h   th m ap p in g   to   tr ain   s et  o f   lear n er s .   Ho w ev er ,   L SD  ac h iev ed   li m ited   ac cu r ac y   d u to   th m i s m atch   o f   s o m tag s ,   a n d   also   s o m ta g s   n ee d   d if f er e n t y p e s   o f   lear n i n g   b ec au s th e y   ar e   a m b ig u o u s .   T h w o r k   i n   [ 1 6 ]   h ig h li g h ted   th i s s u o f   s ch e m m atc h i n g   f o r   r elatio n al  d atab ase.   m ac h in e   lear n in g   s tr ate g y   b ased   ap p r o ac h   n a m ed   A u to p lex   is   p r o p o s ed   to   id en tify   t h m atc h   b et w ee n   s c h e m a   attr ib u tes  ex p lo iti n g   d ata  in s ta n ce s .   A u to p lex   b en ef its   f r o m   t h av ailab le  ch ar ac ter i s tics   o f   d atab ase  in s ta n ce s   to   d eter m in e   th e   co r r esp o n d en ce   b et w ee n   s o u r ce   s c h e m a n d   g lo b al  s ch e m a.   Ho wev er ,   lear n er s   n ee d   r etr ain in g   w h en   Au to p lex   ap p l ied   to   a   n e w   d o m ai n .   A   C o n ten t - B ased   Sc h e m Ma t ch in g   A l g o r ith m   ( C B SM A )   ad o p n eu r al  n et w o r k   s tr ate g y   is   p r o p o s ed   in   [ 1 9 ] .   C B SMA   r elies  o n   th f u l d is co v er y   o f   d ata  co n t en to   id en ti f y   th m atc h   b y   an al y z in g   t h d ata  p atter n ,   w h ich   is   co n d u cted   b y   tr ain in g   a   s et  o f   n e u r al  n et w o r k s .   Mo r eo v er ,   t h w o r k   in tr o d u ce d   i n   [ 2 0 ]   s u g g e s ted   a n   i n s tan ce - b ased   s c h e m a   m atch in g   ap p r o ac h   b ased   o n   in f o r m at io n   t h eo r etic  d is cr ep an c y   to   id en ti f y   th e   co r r esp o n d en ce s   b et w ee n   s c h e m a s .   Ho w e v er ,   t h w o r k   co m p r i s es a   tec h n iq u th at  f i n d s   s e m an tic   s i m ilar it y   i n s ta n ce s   b et w ee n   co m p ar ed   attr ib u tes   in   d if f er en tab le s .   T h tec h n iq u b e g in s   w it h   e x tr ac tin g   in s ta n ce s   f r o m   ea c h   attr ib u te  w h ic h   is   g o i n g   to   b co m p ar ed .   T h en ,   f i n d s   s et  o f   ch ar ac t er is tics   f r o m   th e s e   in s ta n ce s   u til izin g   N - g r a m   a n d   f i n all y ,   co m p ar e s   th c h a r ac ter is tics   f o r   ea ch   attr ib u te.   Ho w ev er ,   N - g r a m   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 10 ,   No .   3 J u n e   2 0 1 8   :   1 2 6 6     1 2 7 7   1268   s tr ateg y   h a s   w ea k n es s es,  b ec au s t h u s o f   N - g r a m   to   f i n d   s i m ilar it y   b et w ee n   d ata  s o u r ce s   s o m eti m e s   g i v e s   w r o n g   r es u lt s   o r   e v en   n o t h i n g ,   esp ec iall y   i n   ca s es   w h er e   t h i n s ta n ce s   d o   n o h a v a n y   o v er lap   o f   N - g r a m   w it h   ea c h   o th er   [ 3 ] .   J i,  F.,   et   al. ,   [ 2 1 ]   p r o p o s ed   n e w   in s ta n ce - b ased   s c h e m m atc h in g   ap p r o ac h   b ased   o n   m ac h i n e   lear n in g   s tr ate g y .   An   o p ti m al  o b j ec tiv f u n ctio n   is   co n s tr u ct ed   as  r esu lt  o f   th m atc h i n g   w h ich   d eter m i n es   all  eq u i v ale n attr ib u tes.  E x p e r i m en tal  r esu lts   o f   t h i s   ap p r o ac h   elab o r ated   th at  ac cu r ac y   r eg ar d in g   p r ec is io n   ( P )   is   8 5 %.  Ho w ev er ,   th ap p r o ac h   is   s u itab le  o n l y   f o r   n u m er ic  i n s ta n ce s ,   as  t h r esu lt  o f   p r ec is io n   ( P )   d r o p p ed   to   6 6 w h e n   s tr i n g   in s ta n ce s   ar co n s id er ed   [ 3 ] .   Z ais s ,   K.   S.  [ 2 2 ]   in tr o d u ce d   t w o   in s ta n ce - b ased   m atc h in g   m et h o d s   u tili z in g   n eu r al  n et w o r k   s tr ateg y .   T h f ir s m et h o d   r elies  o n   th s y n tactic  f ac t s   o f   th e   d atab ase  s ch e m to   g e n er ate  r eg u lar   ex p r es s io n s   o r   s am p le  v alu e s   th at  r es u lt  i n to   ch ar ac ter izi n g   t h co n ce p ts   o f   o n to lo g y   b y   th eir   i n s ta n ce   s ets.  T h s ec o n d   m eth o d   u s es  t h in s ta n ce   s ets  to   d escr ib th co n ten t s   o f   ev er y   in s ta n ce   u s i n g   s et  o f   r eg u lar   ex p r ess io n s .     T h w o r k   co n tr ib u ted   b y   [ 2 3 ]   h as  also   h i g h l ig h ted   t h i s s u o f   s y n tactic   an d   s e m a n t ic  s ch e m a   m atc h in g   i n   th d atab ase.   T h e y   h a v in tr o d u ce d   an   in f o r m atio n   t h eo r etic  d is cr ep an c y   b ased   ap p r o ac h   th at   ai m s   at  id en ti f y i n g   t h s e m a n tic  a s   w ell   as  s y n tactic   co r r esp o n d en ce s   attr ib u te  v ia  t h eir   in s tan ce s   s et s .   Ho w e v er ,   th e   ex p er i m en r es u lt  d ep ic ts   th a t h al g o r ith m   u s e s   N - g r a m s ,   is   u n ab le  to   i d en tify   th m atc h e s   b et w ee n   attr ib u tes   w it h   s tr in g   t y p es   co r r ec tl y   co m p ar ed   to   th s ec o n d   al g o r ith m   u ti lizes   Go o g le  s i m ilar it y   d is tan ce   w h ich   ac h iev ed   b etter   r esu lt  f o r   th s a m t y p o f   d ata.   B esid es,  th e   w o r k   p r esen ted   b y   [ 1 4 ]   ad d r ess ed   th is s u o f   in s ta n ce   b ased   s ch e m m a tch i n g   i n   th d atab ase.   T h e y   h a v p r o p o s ed   r u le - b ased   s ch e m m atc h i n g   ap p r o ac h   wh ich   u tili ze s   p r ed ef i n ed   r eg u lar   ex p r ess io n   to   id en t if y   t h m atc h in g   p atter n s   o f   in s ta n ce s .   L ast l y ,   t h w o r k   co n tr ib u ted   b y   [ 8 ]   tack led   th i s s u o f   s c h e m m atc h i n g   b ased   o n   d ata  in s tan ce s   in   th r elatio n al  d atab ase.   He  p r o p o s ed   s ch e m m atc h i n g   a p p r o ac h   to   id en tify   t h co r r esp o n d en ce s   b et w ee n   attr ib u tes  b y   f u l l y   e x p lo itin g   th in s tan ce s   f o r   n u m er ic,   alp h ab etic  an d   m i x   d ata  t y p es.  T h p r o p o s ed   ap p r o ac h   em p lo y s   th co n ce p t   o f   p atter n   r ec o g n it io n   to   cr ea te  r eg u lar   ex p r es s io n   b ased   o n   in s ta n ce s   i n   o r d er   to   id en tify   attr ib u te s   m atc h e s   f o r   n u m er ic  an d   m ix   d ata  t y p e s .   B esid es,  f o r   th alp h ab etic  d ata  ty p e,   t h ap p r o ac h   in v o lv e s   Go o g le  s i m ilar it y   to   co m p u te  t h s e m an tic  s i m ilar i t y   s co r to   ca p tu r th s e m a n tic   r elatio n s h ip s   b et w ee n   i n s tan ce s .       3.   T H E   D E VE L O P E F R AM E WO RK   O F   I NS T ANC E - B ASE S CH E M M AT CH I NG .     T h is   s ec tio n   d is c u s s es  t h d et ails   co m p o n en t s   o f   i n s ta n ce - ba s ed   s ch e m a   m a tch i n g   f r a m e w o r k   w h ic h   h as  b ee n   ad o p ted   f r o m   [ 8 ] .   T h f r a m e w o r k   ai m s   to   d etec th m atch e s   b et w ee n   t w o   s c h e m attr ib u te s   v ia  th eir   in s ta n ce   s ets   w h ic h   co n s i s ts   o f   f i v m ain   p h ases   a s   d e m o n s tr ated   in   Fi g u r 1 .   T h ese  p h ases   ar I d en tify i n g   A ttri b u te s ,   C las s if y in g   Attr ib u te s ,   Ge n er atin g   t h Op ti m al  Sa m p le   Size ,   I d en tify   I n s ta n ce   Si m i lar it y   a n d   Ma tch i n g   A ttri b u tes,  w h ich   ar f u r t h er   ex p lai n ed   in   t h f o llo w i n g   s u b s ec tio n s .           Fig u r 1 .   T h p h ases   o f   th i n s tan ce - b ased   s c h e m m atc h i n g   f r a m e w o r k     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E mp ir ica C o mp a r a tive  S t u d o f I n s ta n ce - b a s ed   S ch ema   Ma tch in g     ( A li A .   A lw a n )   1269   3 . 1 .   Id ent if y ing   At t ribute s   T h is   p h ase  in te n d s   to   id en ti f y   th d ata  t y p o f   ea ch   attr ib u te   of   th s o u r ce   a n d   th tar g et  s c h e m a s   b y   an al y z in g   th c h ar ac ter s   o f   s o m r a n d o m l y   s elec ted   in s ta n ce s   f r o m   ea c h   attr ib u te.   T h r ee   d ata  ty p es  o f   an   attr ib u te  h av e   b ee n   d ef i n ed ,   n a m el y alp h ab etic,   n u m er ic,   a n d   m ix ed   ( s tr in g d i g it s   a n d   s p ec ial   ch ar ac ter s ) .   T h in p u co n s i s ts   o f   s et  o f   r an d o m l y   g e n er ated   s et  o f   in s ta n ce s   f r o m   b o th   s o u r ce   a n d   tar g et  s c h e m a s ,   w h ile   th o u tp u is   th e   id en ti f ied   d at t y p o f   ea c h   attr ib u te.   T h p r o ce s s   s tar t s   b y   r an d o m l y   s ele ctin g   a n d   s ca n n in g   s o m i n s tan ce s   o f   a n   attr ib u t co u n tin g   th e   n u m b er   o f   c h ar ac ter s   f o r   ea c h   d ata  t y p e.   T h en ,   co m p ar t h n u m b er   o f   ch ar ac ter s   o f   t h d ata  t y p w it h   t h n u m b er   o f   c h ar ac ter s   o f   t h s ca n n ed   i n s ta n ce s .   I f   t h n u m b er   o f   ch ar ac ter s   o f   t h d ata  t y p eq u iv a len t   to   th e   le n g t h   o f   th i n s tan ce   ( ex cl u d in g   w h i te - s p ac es ) ,   a n d   all   ch ar ac ter s   ar alp h ab etic.   T h en ,   w id en t if y   t h d ata  t y p o f   th i n s ta n ce   as a lp h ab etic.   Si m ilar l y ,   if   th len g t h   o f   th e   ch ar ac ter s   o f   t h d ata   t y p eq u al s   to   t h n u m b er   o f   ch ar ac ter s   o f   t h s ca n n ed   in s tan ce   a n d   t h ch ar ac ter s   ar n u m er ic,   th e n ,   id en ti f y   t h d ata  t y p as  n u m er ic.   Oth er w is e,   t h d ata  t y p e   o f   th e   in s ta n ce s   i s   id en ti f ied   as  m i x .   Fi n all y ,   th p r o ce s s   en d s   b y   co u n ti n g   t h n u m b er   o f   alp h ab etic ,   n u m er ic  an d   m ix   in s ta n ce s   a n d   ac co r d in g l y   as s i g n s   an   attr ib u te  to   p ar ticu lar   d ata  ty p e.     3 . 2 .   Cla s s if y ing   At t ribute s   T h m ain   p u r p o s o f   th is   p h a s is   to   r ed u ce   t h n u m b er   o f   p o s s ib le  co m p ar is o n s   n ee d ed   d u r in g   t h m atc h in g   p r o ce s s .   T h is   p h a s e   r ec eiv e d   th n u m b er   o f   d ata   t y p es  id en ti f ied   f r o m   th p r ev io u s   p h ase  a s   an   in p u t   to   cla s s i f y   t h e m   i n to   d i f f er en t   clas s es   b ased   o n   th e   s a m d er iv ed   d ata  t y p e.   T h m a x i m u m   n u m b er   o f   class es   t h at  m i g h b i n tr o d u ce d   in   th i s   p h ase  d ep en d s   m a in l y   o n   t h n u m b er   o f   d ata   t y p es  p r o d u ce d   f r o m   id en ti f y i n g   attr ib u te s   p h a s e.   E ac h   clas s   w ill  h o ld   s e v er al  attr ib u tes  h av in g   t h s a m d ata  t y p o r   d o m ai n .   T h is   p r o ce s s   h elp s   to   eli m i n ate  t h ir r elev an co m p ar i s o n s   b etw ee n   s c h e m attr ib u te s ,   w h er attr ib u tes  i n   ea c h   class   w il o n l y   b co m p ar ed   to   ea ch   o th er .   T h is   s tep   en s u r es  th at  t h attr ib u tes  w i th   t h e   s a m d ata  t y p ar e   co m b i n ed   to g et h er   in   t h s a m e   class .     3 . 3 .   G ener a t ing   t he  O pti m a l Sa m p le  Size   T h is   p h ase  ai m s   at  e x tr ac ti n g   th o p ti m al  r an d o m   s a m p le  s ize  o f   i n s ta n ce s   o f   ea c h   attr ib u te   o f   th e   id en ti f ied   class es.  T h is   h elp s   in   r ed u cin g   th p r o ce s s i n g   ti m o f   th m atch in g   p r o ce s s   b y   r el y i n g   o n   s m all   p o r tio n   o f   th in s ta n ce s   i n   t h d atab ase  tab le  to   b u s e d   in   o r d er   to   d eter m i n t h e   s i m i lar it y   b et w ee n   attr ib u tes.  I is   o b v io u s   t h at  u tili zi n g   s a m p le  o f   i n s ta n c es  in s tead   o f   in v o l v in g   t h e n tire   in s ta n ce s   w il s ig n i f ica n tl y   i m p r o v th p er f o r m a n ce   o f   th m atch in g   ap p r o ac h ,   an d   av o id   u n n ec es s ar y   ac ce s s   to   lar g p o r tio n   o f   th i n s ta n ce s .   I n   t h is   w o r k ,   w s et  u p   th o p ti m a s a m p le  s ize  to   b u p   to   5 0 o f   th ac t u al  tab le  s ize  to   m ai n tai n   g o o d   lev el  o f   ac cu r ac y   [ 2 4 ] .     3 . 4 .   I ns t a nce  Si m ila rit y   I dentif ic a t io n P ha s e   T h is   p h ase   f o cu s e s   o n   co m p ar in g   attr ib u tes   o f   d if f er en t   s c h e m as   b elo n g s   to   t h s a m e   clas s   to   ch ec k   if   t h e y   ar r ep r esen ti n g   t h s a m e n tit y   o r   n o t.  T w o   d i f f er e n i n s ta n ce   s i m ilar it y   id en tific atio n   m eth o d s   h a v e   b ee n   d ev elo p ed   u n d er   t h is   p h ase,   n a m el y ( 1 )   R eg u lar   e x p r ess io n   f o r   s y n tactic  s i m ilar it y ,   an d   ( 2 )   Go o g le  f o r   s e m a n tic  s i m ilar it y .     B o th   m e th o d s   atte m p to   id en tify   t h c o r r esp o n d en ce s   b et w ee n   attr i b u tes  i n   ea ch   clas s .   T h is   p h ase  co n s id er s   th m o s t   s ig n if ican p h a s in   t h in s tan ce - b ased   s ch e m m a tch i n g   p r o ce s s   w h ic h   tr ies  to   ex tr ac s i m ilar it ies  a m o n g   in s t an ce s   t h r o u g h   p air w i s co m p a r is o n s   b et w ee n   in s ta n ce   s et s   i n   o r d er   to   m ea s u r t h m atc h   b et w ee n   t h eir   attr i b u tes.  E ac h   in s ta n ce   is   co m p ar ed   h ea d - to - h ea d   ( o n e - on - o n e)   w it h   ea ch   o f   th e   o th er   in s ta n ce s .   I n   th i s   p h ase,   w h a v i m p le m en ted   t w o   d if f er en m e th o d s   id en ti f y   t h s i m ilar itie s   b et w ee n   in s ta n ce s   s et s .   T h f ir s m et h o d   r eg u lar   e x p r ess io n   r el ies   o n   th s y n tactic  s i m ilar itie s   b et w ee n   i n s ta n ce s ,   w h ile  t h s ec o n d   m et h o d   Go o g le  s i m ilar it y   e m p lo y s   t h s e m an tic  s i m ilar it ies  to   id en ti f y   th co r r esp o n d en ce s   b et w ee n   attr ib u te s .   T h ese  m et h o d s   ar f u r t h er   ex p lai n ed   in   t h f o llo w i n g   s u b s ec tio n s .     3 . 4 . 1   Reg ula E x pre s s io n ( Reg e x e s )   R eg u lar   ex p r ess io n   m et h o d   h elp s   in   id en t if y i n g   th s y n tactic  s i m ilar it y   b et w ee n   t wo   s ets  o f   in s ta n ce s   f r o m   t w o   d i f f er en s ch e m a s   u s i n g   t h r eg u lar   e x p r ess io n   o f   th i n s tan ce s .   A   r eg u lar   ex p r ess io n   is   a   s tr in g   co n tai n in g   co m b i n ati o n   o f   n o r m al  c h ar ac ter s   a n d   s p ec ial  c h ar ac ter s   s u c h   a s   ( * ,   +,   %).     O n o f   it s   b en ef it s   is   an   i n ex p e n s i v p r o ce s s   as  it  d o es  n o n ee d   tr ain in g   o r   lear n in g   p r o ce s s es.  Fu r t h er m o r e,   it  is   q u ic k   an d   co n cise   in   ca p tu r i n g   v al u ab le  u s er   k n o w led g e   ab o u th d o m ai n   [ 3 ,   7   -   8 ] .   Us in g   r eg u lar   e x p r ess io n   s u g g e s ts   t h at  t h s et  o f   i n s ta n ce s   s h o u ld   b r ep r esen ted   as  o n s in g le  p atter n   i n   o r d er   to   p r o v id an   ac cu r ate  m atc h in g   r es u lt  b et w ee n   in s ta n ce s .   R eg E x   is   d esi g n ed   to   f i n d   p ar ticu lar   r eg u lar   ex p r ess i o n   th at  d escr ib es  a   s et  o f   d ata  v alu e s   ( in s ta n ce s ) .   T h u s ,   it  ca n   b p o s s ib le  to   c r ea te  r eg u lar   ex p r ess io n   t h at  f its   t h m aj o r it y   o f   th in s ta n ce s   s et  s y n tactica ll y   ( f o r m a ts )   in   o r d er   to   id en tif y   t h s i m ilar i t y   b et w ee n   d if f e r en in s tan ce s   s ets .   T h p r o ce s s   o f   g en er ati n g   r eg u lar   e x p r ess io n   is   p er f o r m ed   in   t w o   w a y s   r eg ar d in g   t h d ata  t y p es  o f   t h e   attr ib u tes.  Fo r   n u m er ic  attr ib u tes,  th p r o ce s s   o f   g en er ati n g   attr ib u tes  R eg E x   is   s ep ar atel y   p er f o r m ed   d u to   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 10 ,   No .   3 J u n e   2 0 1 8   :   1 2 6 6     1 2 7 7   1270   th i n v o lv e m e n o f   ce r tain   m a th e m atica ca lcu lat io n ,   w h il e,   alp h ab etica a n d   m i x ed   attr ib u tes  s h ar t h s a m e   p r o ce s s .     A.   G ener a t ing   Reg E x   f o Nu m e ric  Da t a   T y pe  At t ribute s   I n s ta n ce s   b elo n g   to   n u m er ic   attr ib u te  co n s is t s   o f   d i g its   ch ar ac ter s   o n l y   i n   t h r an g e   o f   0   -   9 .   B asicall y ,   r eg e x es  m et h o d   n e ed s   to   id en tify   th e   m i n i m u m   an d   m a x i m u m   v alu e s   o f   t h attr ib u tes  to   g e n er ate   th r eg u lar   e x p r ess io n   f o r   n u m er ic   attr ib u te.   T h m i n i m u m   a n d   m a x i m u m   v a lu e s   ar a s s i g n ed   to   t h i n it ial   v alu e s   o f   t h attr ib u tes.  I n   ad d itio n ,   th e   u p p er   is   also   n ee d ed   w h ic h   is   g r ea ter   t h a n   t h v a lu o f   m in   an d   le s s   th an   t h v al u o f   m ax .     T h r ee   v ar iab les   n ee d   to   b e   id en ti f ied ,   n a m el y :   m i n ,   m ax ,   a n d   u p p er .   T h u p p er   is   d er iv ed   if   o n o f   t h f o llo w i n g   co n d itio n s   h o ld s :   i.     I f   th le n g th   o f   th m in   is   les s   th a n   th le n g t h   o f   t h ma x ,   th en   t h u p p er   is   th ma x   v alu b ased   o n   th e   min   len g t h   a n d   n o g r ea ter   th a n   t h v al u o f   ma x .   Fo r   e x a m p le,   s u p p o s t h m in   v al u e   is   6 5 4 .   T h er ef o r e,   its   len g t h   is   t h r ee ,   th p o s s ib le   ma x   v alu o f   t h len g t h   o f   t h min i   v alu i s   9 9 9 .   T h er ef o r e,   9 9 9   is   s aid   to   b th u p p er   ma x i m u m   o f   t h min i   v alu le n g t h .   T h en   w e   ch ec k   a g ai n   if   t h u p p er   is   g r ea ter   th an   t h ma x   v alu e.   T h er ef o r e,   th f ir s t   d ig it  o f   th u p p er  is   r ep lace d   b y   t h f ir s d ig i o f   th m in   v a lu ( i.e . 6 9 9 ) .   I f   t h is   n e w   u p p er   is   s t ill  g r ea te r   th a n   t h ma x   v al u e,   t h e   s ec o n d   d ig i t o f   u p p er   r ep lace s   t h s ec o n d   d ig i t o f   th min   v al u ( i.e . 6 5 9 ) .   T h is   iter atio n   w il s u b s eq u en tl y   p er f o r m   u n til  it  m ee ts   t h ab o v co n d itio n   o f   u p p er .   Ho w e v er ,   in   t h ca s w h er u p p er   iter atio n   r esu lt s   t o   b eq u al  to   th min   v alu e,   th er ef o r t h ma x   v alu i s   d en o ted   as th u p p er .   ii.     W h en   t h d ig its   le n g th   o f   min   is   eq u al  to   t h d ig its   le n g th   o f   ma an d   min   h as a least o n e   ze r o   d ig its   o n   th r ig h t,  t h u p p er   is   d er iv ed   u s i n g   th f o r m u la  g iv e n   b elo w .         Up p er   = ( ma -   ( min   MO s u mz   *   1 0 )       B.   G ener a t ing   Reg E x   f o Alph a bet ic  a nd   M ix   Da t a   T y pe  At t ribute s     T h is   s ec tio n   ex p lai n s   t h d e tail  s tep s   o f   g e n er atin g   th r eg u lar   e x p r ess io n   f o r   attr ib u tes   w it h   alp h ab etic  a n d   m ix   d ata  u s i n g   r eg u lar   e x p r ess io n   tec h n iq u e.   T h id ea   o f   g e n er ati n g   r e g u lar   e x p r ess io n   f o r   alp h ab etic  an d   m ix   d ata  t y p e s   r elies  o n   d i v id in g   a n   i n s tan c in to   a   s et   o f   s u b - to k en s .   T h i s   co n ce p h as   b ee n   ap p lied   in   r eg u lar   ex p r ess io n   ap p r o ac h   to   co n s tr u cti n g   r eg u lar   ex p r es s io n   f o r   attr ib u tes  w ith   m i x   an d   alp h ab etic  d ata  t y p e s .   T h d er iv ed   s u b - to k e n s   co n tai n   s et  o f   ch ar ac ter s   o f   p ar ticu lar   d ata  t y p t h at   w ill   b e   p r o ce s s ed   s ep ar atel y   to   g e n er ate  th r e g u lar   e x p r ess io n s   o f   th i n s tan ce .   E v en tu al l y ,   t h co n s tr u cted   r e g u lar   ex p r ess io n s   o f   t h s u b - to k en s   ar co m b i n ed   to g eth er   to   f o r m   th r eg u lar   ex p r ess io n   o f   t h i n s ta n ce .       W h er s u mz   r e f er s   to   t h n u m b er   o f   ze r o s   i n   t h min i .   I f   th v al u r etu r n s   f r o m   th ab o v eq u atio n   less   th a n   ma x   an d   g r ea ter   th an   min ,   th en   ass i g n ed   th v alu t o   u p p er .   Oth er w i s e,   ap p ly   t h e   s tep s   in   co n d itio n   ( i)   [ 3 ] .   T o   g en er ate  a   r eg u lar   e x p r ess io n   f o r   n u m er ic  d ata  t y p attr ib u te,   a n   i n ter v al  n ee d s   to   b d er iv ed   b ased   o n   min   len g t h   a n d   its   v al u e,   a n d   th v al u o f   u p p er .   T h p r o ce s s   o f   d er iv in g   i n ter v al   an d   cr ea tin g   r eg u lar   ex p r ess io n   f o r   th at  p ar ticu lar   i n ter v al  co n tin u es   u n til  u p p er   ma x .   L astl y ,   t h cr ea ted   r eg u lar   ex p r ess io n s   o f   th ese  d er iv ed   i n ter v a ls   ar m e r g ed   to g eth er   i n   o n s in g le  r e g u lar   e x p r ess io n   u s in g   |   o p er ato r   to   in d icate   th e   r eg u lar   ex p r es s io n   o f   th attr ib u te  [ 3 ] .     3 . 4 . 2   G o o g le  Si m ila rit y   Dis t a nce    Go o g le  s i m ilar it y   tech n iq u e x p lo its   t h lar g es d atab ase  wh ich   is   W o r ld   W id W eb   as  s o u r ce   o f   s ea r ch   an d   e m p lo y s   Go o g le  as  s ea r ch   e n g i n f o r   th i s   d atab ase.   T h b elo w   eq u a tio n   d escr ib es  h o w   th e   Go o g le  s i m i lar it y   tec h n iq u u s es  Go o g le  p ag es  co u n to   id en ti f y   t h s i m ilar it y   o f   w o r d s   an d   p h r ases   f r o m   W o r ld   W id W e b   [ 3 ,   2 5 ] :              (       )            *         (   )           (   ) +                 (       )                     *         (   )               (   ) +             ( 1 )     W h er e:    f ( x ) : r ef er s   to   th n u m b er   o f   G o o g le  h its   f o r   th s ea r c h   ter m   x .   f ( y ) : r ef er s   to   th n u m b er   o f   G o o g le  h its   f o r   th s ea r c h   ter m   y .   f ( x ,   y ) : r ep r ese n ts   t h n u m b er   o f   Go o g le  h it s   f o r   b o th   ter m s   x   an d   y   to g eth er .   M:  in d icate s   t h n u m b er   o f   w e b   p ag es in d ex ed   b y   Go o g le.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E mp ir ica C o mp a r a tive  S t u d o f I n s ta n ce - b a s ed   S ch ema   Ma tch in g     ( A li A .   A lw a n )   1271     I is   v er y   o b v io u s   th a th W o r ld   W id W eb   is   th lar g est  av ailab le  d atab ase  in   th w o r l d   w h er eb y   m illi o n s   o f   i n d ep en d en u s er s   en ter in g   t h v ar io u s   t y p e s   o f   i n f o r m ati o n .   T h id ea   o f   u s i n g   Go o g le  s i m ilar it y   d is tan ce   tec h n iq u i n v o lv e s   t h is   d atab ase  to   h elp   i n   p r o d u cin g   a u to m atic  s e m a n tic s   o f   u s e f u l   q u alit y   o f   r elatio n s h ip s   b et w ee n   tar g ete d   s u b j ec ts   [ 3 ,   8 ,   2 5 ] .   I n   co n tr ast  to   o th er   s e m an t ic  m et h o d s   s u ch   a s   L aten t   s e m a n ti a n al y s is   ( L S A ) ,   W o r ld Net  an d   th esau r u s   t h at  u s e s   clo s ed   co llectio n   o f   th li m ited   s ize  o f   d o cu m en ts .   Go o g le   s i m ilar it y   tech n iq u w o r k s   as  f o llo w s T o   id en tify   t h s e m a n tic  r elatio n s h ip   b et w ee n   t w o   d if f er e n ter m s ,   f o r   ex a m p le   ( d o cto r   an d   p r o f ess o r )   r ep r esen ti n g   t w o   d if f er en i n s ta n ce s   f o r   d if f er en t   attr ib u tes.  W f ir s s tar s ea r ch in g   i n   Go o g le  w eb   p ag es   f o r   ea ch   ter m   s ep ar atel y   to   f in d   th e   n u m b er   o f   o cc u r r en ce s   o f   t h e s ter m s   in   Go o g le  w eb   p ag e s .     T h en ,   w e   co n tin u t h s ea r c h   f o r   th o s p ag es  co n tai n   b o th   ter m s   d o cto r ”  an d   p r o f e s s o r ”  to g eth er   to   r etr iev t h to t al  n u m b er   o f   p a g es  w h er th ese  t w o   ar f o u n d .   E v en t u all y ,   w e   w ill   h a v t h n u m b er   o f   h i ts   f o r   b o th   f o u n d ed   ter m s ,   a n d   th e   n u m b er   o f   h it s   f o r   ea ch   ter m   f o u n d   s ep ar atel y .   Fu r t h er m o r e ,   w al s o   in v o lv th c u r r en t o tal  n u m b er   o f   p ag e s   i n d ex ed   b y   Go o g le  en g i n e   in   W W W   d atab ase  w h ich   is   3 0 0 0 , 0 0 0 , 0 0 0   a p p r o x i m atel y .   T h en   s u b s tit u te  t h o b tain ed   v a l u es  i n   t h eq u atio n   ( 1 )   to   p r o d u ce   th s i m ilar it y   d eg r ee   GSD  b et w ee n   t h t w o   te r m s   d o cto r ”  an d   p r o f ess o r ”.   W h en   th v alu o f   GSD  is   clo s to   ze r o ,   in d icate s   th at  n o   s e m a n tic  r elatio n s h ip   b et w ee n   t h t w o   ter m s   is   d ete cted .   Oth er w is e,   if   th s co r v al u is   c lo s to   1 ,   t h en   it  is   a s s u m ed   t h at  t h e   t w o   ter m s   ar s e m a n ticall y   r elate d ,   an d   t h t w o   v a lu e s   r ep r esen t a   p r o p er ty   o f   th s a m en t it y   [ 2 6 ] .     A.   F ind   Si m i la rit y   Sco re   f o At t ribute s   Go o g le  s i m i lar it y   i s   th s ec o n d   ap p r o ac h   th at  h as  b ee n   co n s id er ed   in   th i s   th e s is   to   d eter m in t h co r r esp o n d en ce   b et w ee n   attr i b u tes.  I is   u s ed   to   id en tify   t h m atc h   b et w ee n   alp h ab e tic,   n u m er ic,   a n d   m i x ed   d ata  t y p attr ib u te s .   T h id ea   o f   Go o g le  s i m ilar it y   ap p r o ac h   is   r el y in g   o n   co m p u t in g   t h s e m an tic  s i m i lar it y   s co r b et w ee n   i n s ta n ce s   to   d is co v er   t h s e m a n tic  r elatio n s h ip   b et w ee n   attr ib u tes  o f   th s o u r ce   an d   tar g et   s ch e m as.  I is   i n   co n tr as to   r eg u lar   e x p r ess io n   ap p r o ac h   th a u tili ze s   th s ch e m i n f o r m at io n   w ith o u ta k in g   in to   ac co u n th i m p licit  s e m a n tic  r elatio n s h ip   b et w ee n   attr i b u tes.     3 . 5 .   At t ribute   M a t ching   P ha s e   A ttrib u te  m atc h i n g   is   t h last   s tag in   th e   p r o ce s s   o f   in s ta n c e - b ased   s c h e m m atc h in g .   I n   t h is   p h ase,   w a tte m p t   to   id en tify   th e   co r r ec m atc h   b et w ee n   t h attr i b u tes  t h at   s h ar ed   s a m d ata  t y p e   an d   e v e n tu a ll y   m ap p in g   th e m .   T h p r o ce s s   is   ca r r ied   o u af ter   p er f o r m i n g   t h tas k   o f   s y n tactic  an d   s e m a n tic  m atch in g   in   t h e   p r ev io u s   p h a s e.   I n   th i s   p h a s e,   d ec is io n   n ee d s   to   b m ad w h et h er   t w o   d if f er e n attr ib u tes  ar co n s id er ed   s i m ilar   o r   n o t.  D u to   co n s i d er in g   t w o   d i f f er en tec h n iq u es  w h ic h   ar r e g u lar   e x p r ess io n   a n d   Go o g le  s i m ilar it y   to   id en ti f y   th m at ch   b et w ee n   attr ib u te s co n s eq u en t l y ,   i n   th i s   p h ase,   t w o   m a tch i n g   m ec h a n i s m s   h av e   b ee n   i m p le m e n ted   to   h a n d le  t h m ap p in g   tas k ,   n a m el y r e g u lar   e x p r ess io n - b ased   at tr ib u te  m atch in g   a n d   Go o g le  s i m ilar it y   b a s ed   attr ib u te  m a tch i n g .       4.   E XP E R I M E NT   R E SU L T   T o   f air ly   e v alu a te  t h i n s tan ce - b ased   s c h e m m atc h i n g   te ch n iq u es   co n s id er ed   in   th i s   p ap er ,   t w o   d if f er e n t y p es  o f   t h d ata  s et s   h a v b ee n   u s ed   i n   t h e x p er i m e n s tu d y ,   n a m el y s y n t h eti an d   r ea d ata  s e ts .   Fo r   s y n t h etic  d ata  s et,   a n   o n l in d ata  g e n er ato r   n a m ed   B E T A   h a s   b ee n   u s ed .   I n   t h i s   t y p o f   d ata  s et,   th e   attr ib u tes   ar g e n er ated   b y   s e ttin g   o u t h eir   ap p r o p r iate  n a m es,   d ata  t y p e s ,   d ata  r a n g e s   ( if   n ee d ed ) ,   an d   t h e   s ize  o f   th e   d ata.   W h a v d e v elo p ed   u n iv er s it y   d atab ase   th at  co n s i s ts   o f   a   s et  o f   attr i b u tes  w i th   d if f er en t   t y p es o f   d ata  a n d   v ar y i n g   r an g o f   v al u es.  T h m ai n   r ea s o n   b eh in d   s elec ti n g   t h is   t y p o f   d at s et  i s   to   o b tai n   a   d ee p   in s ig h a n d   b etter   u n d er s tan d in g   o f   t h ef f ec o f   d ata  ch ar ac ter is tic s   o n   t h e   b eh av io r   an d   t h p er f o r m a n ce   o f   th d e v elo p ed   u n d er   co m p ar is o n .   Fu r t h er m o r e,   t w o   r ea d ata  s e ts   ( R e s tau r an a n d   C e n s u s )   h av e   b ee n   u s ed   in   th e   ex p er i m en ts   to   ex a m i n f air l y   t h a p p r o ac h es  co n s id er ed   in   th is   t h esi s .   T h ese  r ea d ata   s ets  h av b ee n   u s ed   in   m o s p r ev io u s   w o r k s   r elate d   to   th ar ea   o f   s c h e m m atc h in g   i n   d atab ase,   an d   p ar ticu lar l y   f o r   in s ta n ce - b ased   s ch e m m atc h i n g   [ 8 -   9 ,   1 4 ,   2 7 -   2 8 ] .   B o th   R esta u r an a n d   ce n s u s   d ata  s et s   ar e   av ailab le  o n li n e.   I n   th e x p er i m e n t w o   s u b - tab les  h a v b ee n   d er iv ed   f r o m   t h o r ig in al  tab le s   o f   t h d ata   s ets.  T h ese   t w o   s u b - tab les  r ep r esen t h s o u r ce   s ch e m a n d   tar g et  s c h e m i n   t h ex p er i m en ts .   T h s et  o f   attr ib u te s   b elo n g s   to   t h s o u r ce   an d   tar g et  s c h e m h as  b ee n   g e n er ate d   r an d o m l y   an d   t h n u m b er   o f   attr ib u te s   in   ea c h   s u b - tab le  is   eq u i v ale n to   t h n u m b er   o f   attr ib u te s   o f   t h o r ig i n al  tab le.   Fo r   ea ch   s u b - tab l e,   s et  o f   r an d o m   d if f er e n i n s tan ce s   i s   i n s er ted   r ef er r in g   to   th e   o r ig i n al  tab l o f   t h d ata   s et   [ 8 ,   2 9 ] .   T w o   an al y s e s   t h at  h a v e   b ee n   co n d u cted ,   th f ir s a n al y s i s   e m p h asize s   o n   id en ti f y i n g   th o p ti m al  s a m p le  s ize  o f   i n s ta n ce s   to   ac h iev e   ac ce p tab le  ac cu r ac y   r es u lt s   f o r   t h m atc h in g   p r o ce s s .   T h s ec o n d   a n al y s is   i n ten d s   to   co m p ar t h e   p er f o r m a n ce   o f   b o th   tec h n iq u es  in   ter m s   o f   p r ec is io n   ( P )   an d   r ec all  ( R )   an d   F - m ea s u r ( F ).   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 10 ,   No .   3 J u n e   2 0 1 8   :   1 2 6 6     1 2 7 7   1272   4 . 1   E x peri m e nt  1   T h is   an al y s i s   h i g h l ig h ts   th e   e x p er i m e n o f   s elec t in g   t h o p ti m al  s a m p le  s ize  o f   t u p les  t o   b u s ed   d u r in g   s ch e m m a tch i n g   p r o ce s s .   T h p r o ce s s   o f   s a m p le   s ize  s elec tio n   is   p er f o r m ed   b y   g en era tin g   th e   o p tima s a mp le  s iz e   p h ase  o f   in s tan ce - b ased   s c h e m m atc h in g .   I n   t h is   a n al y s i s ,   w att e m p to   s t u d y   th e   i m p ac o f   t h s a m p le   s ize   o f   t h t u p les   o n   t h q u alit y   o f   t h e   m atc h i n g   r es u lt  in   ter m s   o f   p r ec is io n   ( P ) ,   r ec all  ( R ) ,   an d   F - m ea s u r ( F )   f o r   b o th   s tr ateg ie s .   T h s a m p le  s ize   is   a m o n g   t h i m p o r ta n p ar a m eter s   th at   i n f l u e n ce   th q u alit y   an d   t h p er f o r m an ce   o f   th m atc h i n g   p r o ce s s   [ 3 ,   8 ,   2 4 ] .   T h er ef o r e,   d is co v er in g   t h b est  s a m p le   s ize  o f   in s ta n ce s   is   ex tr e m el y   n ee d ed   in   o r d er   to   m ea s u r th ac cu r ac y   o f   th co n s id er ed   tech n iq u es W s tar f r o m   1 0 %,  a n d   t h s a m p le   s iz g r ad u all y   in cr ea s ed   b y   1 0 %   in   th e   s u b s eq u e n e x p er i m en t s   u p   to   5 0 o f   th e   ac tu al  tab le   s ize.   T h is   i n cr e m en h elp s   to   d i s co v er   w h et h er   th ap p r o ac h es  t h at   h a v b ee n   co n s id er ed   r eq u ir e   lar g n u m b er   o f   i n s tan ce s   i n   o r d er   to   ac h iev an   ac c u r ate  m atc h   b et w ee n   s c h e m a s .   Fro m   t h is   an al y s is ,   it  h a s   b ee n   ex p lo r ed   t h at  i n cr ea s i n g   th e   s a m p le  s ize  lead s   to   a   b etter   r esu lt  o f   P r ec is io n   ( P ) ,   R ec all  ( R ) ,   a n d   F - m ea s u r ( F )   f o r   b o th   ap p r o ac h es.  T ab le  1   d em o n s tr ate s   th e   s a m p le  s ize  co n s id er ed   in   ea ch   ex p er i m en t.  A l th ese  e x p er i m e n t s   u s ed   th s a m d ata   s et  a n d   en d ed   u p   w h e n   s a m p le  s ize   r ea ch ed   5 0 %.  E ac h   ex p er i m en h a s   b ee n   ex ec u ted   f i v ti m es  m ea s u r in g   t h P R ,   an d   F   an d   av er ag ed   th ese  r es u lt s .       T ab le  1 .   Sam p le  s ize  f o r   ea ch   ex p er i m e n t   Ex p e r i me n t   S i z e   o f   S a mp l e s   Ex p e r i me n t   1 - 1   1 0 %   Ex p e r i me n t   1 - 2   2 0 %   Ex p e r i me n t   1 - 3   3 0 %   E x p e r i me n t   1 - 4   4 0 %   Ex p e r i me n t   1 - 5   5 0 %       4 . 1 . 1   Resul t   o f   E x peri m ent   1   T h is   s u b - s ec tio n   p r esen ts   th d etail  r esu lts   o f   An al y s is   1 .   I n   th is   an al y s is ,   v ar io u s   ex p er i m en ts   h a v b ee n   co n d u cted   o n   t w o   r ea l - wo r ld   d ata   s ets  ( i)   R esta u r an t   d ata   s et  a n d   ( ii)  C en s u s   d ata   s e t,  an d   o n e   s y n th et ic   d ata   s et  ( i)   Un iv er s it y   d ata   s et  to   id en tify   t h o p ti m al  s a m p le  s ize  f o r   th b est  m atc h i n g   r es u lt.     4 . 1 . 1 . 1   Resul t   o f   E x peri m ent   1   Rela t ed  t o   Rest a ura nt  Da t a   s et   I n   th is   a n al y s is ,   r ea w o r ld   d ata   s et  r elate d   to   R estau r an d o m a i n   is   u s ed   to   d eter m i n th o p ti m al   s a m p le  s ize  to   b u s ed   in   b o t h   ap p r o ac h es  ( R eg u lar   ex p r es s io n   an d   Go o g le  s i m ilar it y ) .   R esta u r an d ata   s et   co n s is ts   o f   a   lis t   o f   r esta u r an t s   in   t w o   p o p u lar   w eb s i tes,  n a m el y Z a g at  a n d   Feo d o r .   T h d ata   s et   co m p r is es   o f   f i v attr ib u te s   co n tai n   i n s ta n ce s   r ep r esen ti n g   t w o   d i f f er en d ata  t y p e s   a lp h a b etic   an d   s p ec ia ch a r a cters   ( mixe d ) .   Selecti n g   th o p ti m al   s a m p le  s ize  h a s   s ig n i f ica n t   i m p ac o n   r ed u c in g   t h n u m b er   o f   co m p ar is o n s   b et w ee n   i n s ta n ce s ,   w h ic h   f u r t h er   r ed u ce   th e   p r o ce s s in g   ti m o f   th m atc h i n g   p r o ce s s .   Fi g u r e   2 ( a)   an d   2 ( b )   d em o n s tr ate   th e   r es u lts   o f   P r e cisi o n   ( P ) ,   R ec all  ( R )   a n d   F - m ea s u r ( F )   f o r   t h e x p er i m e n ts   o f   a n al y s i s   1   f o r   b o th   m e th o d s   R e g u lar   ex p r ess io n   an d   Go o g le  s i m ilar it y   r es p ec tiv el y .   I is   v er y   clea r   th a th ac cu r ac y   o f   t h m atc h in g   r e s u l u s i n g   r eg u lar   ex p r ess io n   s tr ate g y   i n cr ea s es  w h e n   t h s a m p le  s ize  i n cr ea s e   as  s h o w n   i n   Fi g u r e   2 .   No tice  th at  w h e n   th s a m p l s ize  is   5 0 th p er ce n tag es  ar 6 0 an d   8 1 f o r   p r ec is io n   ( P )   an d   r ec all  ( R r esp ec tiv el y .   Ho w e v er ,   in   Fi g u r 2 ( b )   f o r   Go o g le  s i m ilar it y   tech n iq u e,   th p er ce n ta g es  o f   p r ec is io n   ( P )   an d   r ec all  ( R )   h as in cr ea s ed   u p   to   8 2 % a n d   7 7 % r esp ec tiv el y .       0% 20% 40% 60% 80% 100% 10% 20% 30% 40% 50% P e r c e n t a g e   o f   A c c u r a c y S iz e   o f   S a m p le P r e c i s i o n   ( P ) R e c a l l   ( R ) 0% 20% 40% 60% 80% 100% 10% 20% 30% 40% 50% P e r c e n t a g e   o f   A c c u r a c y S iz e   o f   S a m p le P r e c i s i o n ( P ) R e c a l l   ( R )   ( a)   R eg u lar   E x p r ess io n       ( b )   Go o g le  Si m ilar it y     F ig u r   2 .   R esu lts   o f   P r ec is io n   ( P ) ,   R ec all  ( R )   an d   F - m ea s u r ( F )     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E mp ir ica C o mp a r a tive  S t u d o f I n s ta n ce - b a s ed   S ch ema   Ma tch in g     ( A li A .   A lw a n )   1273   4 . 1 . 1 . 2   Resul t   o f   E x peri m ent   1   Rela t ed  t o   Censu s   Da t a   s et   T h C en s u s   r ea d ata   s et  co n t ain s   w ei g h ted   ce n s u s   d ata  ex t r ac ted   b y   B ar r y   B ec k er   i n   1 9 9 4   f r o m   th e   C en s u s   d atab ase,   to   d eter m i n t h o p ti m al   s a m p le  s ize   th at  w o u ld   r es u lt  i n   r ed u ci n g   th e   n u m b er   o f   co m p ar is o n s   b et w ee n   i n s tan ce s   to   id en ti f y   t h i n s ta n ce   s i m i lar it y ,   w h ic h   f u r t h er   r ed u ce s   t h p r o ce s s i n g   ti m e   o f   th m atch in g   p r o ce s s .   T h in s ta n ce   s et s   o f   t h is   d ata   s et  i n v o l v th t h r ee   d ata  t y p es,  wh ich   ar n u m er ic,   alp h ab etic  an d   s p ec ial  c h ar ac t er .   Fig u r 3 ( a)   an d   3 ( b )   d e m o n s tr ate   th e   r es u lts   o f   p r ec is io n   ( P ) ,   r ec all  ( R )   an d   F - m ea s u r ( F )   f o r   th is   a n al y s i s   o n   C en s u s   d ata   s et  u s i n g   R e g u lar   e x p r ess io n   an d   Go o g le  s i m ilar it y   r esp ec tiv el y .   I ca n   b n o tice d   th at  f o r   r eg u lar   ex p r ess io n   tech n iq u e ,   u t ilizi n g   t h lar g s ize  o f   in s ta n ce s   s a m p le  ca n   co n s id er ab l y   i m p r o v th ac cu r ac y   o f   t h m atc h in g   r es u lt s .   Si m ilar l y ,   th ac c u r ac y   o f   th e   m atc h in g   r es u lt s   i n v o lv i n g   Go o g le  s i m ilar it y   h as   b ee n   i m p r o v ed   w h e n   t h s a m p le  s ize  i n cr ea s ed   as  s h o w n   in   Fig u r 3 ( b ) .   I n   Fig u r 3 ( a) ,   th p er ce n ta g o f   th r ec all   ( R s lig h tl y   i n cr ea s ed   to   5 5 %,  n ev er th ele s s   r e g u lar   ex p r ess io n   s u b s tan tiall y   i m p r o v ed   th p er ce n ta g o f   t h p r ec is io n   ( P )   an d   F - m ea s u r ( F )   s i m u lta n eo u s l y   f r o m   3 9 a n d   2 5 to   8 0 an d   5 5 r esp ec tiv el y   w h e n   t h s a m p le  s ize  h a s   i n cr ea s ed .   L a s tl y ,   i n   Fig u r 3 ( b ) th p er ce n tag e s   o f   th p r ec is i o n   ( P )   an d   R ec all  ( R )   ar s li g h t l y   i m p r o v ed   w h en   t h s a m p le  s ize  in cr ea s ed .   Me an w h ile,   t h b est  r es u lt  ac h iev ed   b y   Go o g le  Si m ilar it y   w a s   ap p r o x i m atel y   8 0 f o r   F - m ea s u r w it h   o n l y   5 0 s ize  o f   in s ta n ce   s a m p le.   T h is   in d icate s   t h at  Go o g le  Si m ilar it y   tec h n iq u h a s   t h ca p ab ilit y   to   d is co v er   th m a tch i n g   b et w ee n   attr ib u t es p r ec is el y   w it h o u t p a y i n g   m u ch   co n s id er atio n   to   n u m b er   o f   in s tan ce s .       0% 20% 40% 60% 80% 100% 10% 20% 30% 40% 50% P e r c e n t a g e   o f   A c c u r a c y S iz e   o f   S a m p le P r e c is io n   ( P ) R e c a ll   ( R ) F - M e a s u r e   ( F )     0% 20% 40% 60% 80% 100% 10% 20% 30% 40% 50% P e r c e n t a g e   o f   A c c u r a c y S iz e   o f   S a m p le P r e c is io n   ( P ) R e c a ll   ( R ) F - M e a s u r e   ( F )   (a Re g u lar E x p re ss io n         (b G o o g le S im il a rit y     Fig u r 3 .   P er ce n tag o f   P R ,   an d   F   f o r   C en s u s   d ata  s et       4 . 1 . 1 . 3   Resul t   o f   E x peri m ent   1   Rela t ed  t o   Sy nthet ic  Da t a   s et   I n   t h is   s ec tio n ,   w h ig h li g h t h a n al y s is   r es u lts   o n   t h s y n t h etic  d ata   s et  t h at  h as   b ee n   g e n er ated   to   ev alu a te  t h p er f o r m an ce   o f   t h i n s ta n ce - b ased   s c h e m m at ch in g   p r o ce s s .   Fi g u r 4 ( a)   p r esen t s   t h r es u lt s   f o r   s y n t h etic  d ata   s et  u s in g   r e g u la r   ex p r ess io n   tec h n iq u b y   v ar y in g   th e   s a m p le  s ize  o f   i n s ta n ce s   i n   t h r a n g e   o f   10% - 5 0 %.  I is   clea r   th at   in   al ca s es  th p er ce n tag e s   o f   p r ec is io n   ( P ) ,   r ec all  ( R )   an d   F - m e asu r ( F )   i n cr ea s es   w h e n   th s a m p le  s ize  i n cr ea s e s .   Hen ce ,   it  ca n   b co n cl u d ed   th at  t h b est  o p ti m a s a m p le  s ize  th at  ac h ie v ed   m o s ac c u r ate  r es u lt  i n   ter m s   o f   p r ec is io n   i s   5 0 o f   t h ac t u al  tab le  s ize  r ep r esen ti n g   th e   n u m b er   o f   t u p le s   th at  w ill b i n v o l v ed   in   t h p r o ce s s   o f   in s ta n ce - b a s ed   s ch e m m atch in g .     Fig u r 4 ( b )   d ep icts   o f   th i s   a n al y s i s .   T h b est   r esu lt  ac h ie v ed   f o r   p r ec is io n   u s in g   Go o g le   s i m ilar it y   w a s   5 8 %.  L a s tl y ,   f r o m   t h o b tain ed   r esu l ts   o f   b o th   f i g u r e s ,   w n o ticed   t h at  Go o g le  s i m ilar it y   o u tp er f o r m s   r eg u lar   e x p r ess io n   i n   ter m s   o f   p r ec is io n   ( P ) .   T h is   is   b ec a u s Go o g le  s i m ilar it y   r elies  o n   t h s e m a n tic  asp ec t   o n   d ata  in s tan ce s   w h en   id e n t if y in g   t h co r r esp o n d en ce   b e t w ee n   attr ib u tes.  I n   co n tr ast,  r eg u lar   e x p r ess io n   ac h iev ed   h ig h er   p er ce n ta g f o r   r ec all  ( R )   co m p ar ed   w it h   Go o g le  s i m ilar it y .   T h is   is   b ec au s r eg u lar   ex p r ess io n   id en ti f ies  t h m atc h in g   b et w ee n   i n s ta n ce s   b ased   o n   th s y n tactic  s i m ilar it y   b et w ee n   in s tan ce s   an d   th er is   lar g n u m b er   o f   attr i b u tes  w it h   n u m er ic  an d   m ix   d ata  t y p es i n   th i s   d ata   s et.     4 . 2   E x peri m e nt  2   An al y s i s   2   co n ce n tr ate s   o n   e x a m i n in g   an d   co m p ar i n g   t h p er f o r m an ce   o f   b o th   m atc h i n g   tech n iq u es   th at  co n s id er ed   in   th i s   r esear ch   w o r k .   T h p a r am eter   s et tin g   o f   th is   an al y s is   in   ter m s   o f   s a m p le  s ize  h as  b ee n   s et  to   5 0 o f   th ac tu al  tab le  w h ich   h as  b ee n   id en tifie d   as  th o p ti m al  s a m p le  s ize.   T h r esu lts   r ep o r ted   in   th is   s ec tio n   co m p r i s es  o f   t h t h r ee   d if f er en d ata   s e ts   in v o lv ed   in   t h i s   s t u d y ,   n a m el y R es t au r an t,  a n d   C en s u s ,   an d   s y n t h etic  d ata   s et s .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 10 ,   No .   3 J u n e   2 0 1 8   :   1 2 6 6     1 2 7 7   1274     (a Re g u lar E x p re ss io n                                 ( b G o o g le S im il a rit y     Fig u r 4 .   P er ce n tag o f   P R ,   an d   F   f o r   s y n t h etic  d ata  s et       4 . 2 . 1   Resul t   o f   E x peri m ent   2   Fig u r 5 ( a)   an d   5 ( b )   p r esen th p er ce n ta g o f   th ac c u r ac y   r es u lt  o f   i n s ta n ce - b as ed   s ch e m m atc h in g   o n   R esta u r an t,   C e n s u s ,   an d   s y n t h etic  d ata   s et s   u s i n g   R e g u lar   e x p r ess io n   an d   Go o g le  s i m ilar it y   r esp ec tiv el y .   Fi g u r 5 ( a)   d escr ib es  th ac c u r ac y   r esu l o f   t h in s tan ce - b ased   s c h e m m atc h in g   p r o ce s s   u s i n g   R eg u lar   e x p r ess io n   s tr ate g y .   Fro m   t h f ig u r e,   w n o ticed   th at  R eg u lar   e x p r ess io n   tec h n iq u ac h ie v ed   t h h ig h e s ac cu r ac y   o n   C en s u s   d ata   s et  w i th   u p   to   8 0 in   ter m s   o f   p r ec is io n   ( P ) .   T h is   is   d u to   th c h ar ac ter is ti c   o f   C e n s u s   d ata   s et  w h ic h   co m p r is es o f   f o u r   attr ib u tes  w it h   t h n u m er ic  d ata   t y p e   an d   s ev e n   attr ib u tes   w it h   t h e   alp h ab etic  d ata  t y p e.   Als o ,   it  ca n   b co n cl u d ed   th at   t h h ig h est  ac c u r ac y   i n   ter m s   o f   r ec a ll  ( R )   u s i n g   R eg u lar   ex p r ess io n   h as  b ee n   ac h ie v ed   o n   R esta u r an d ata   s e t.  T h is   is   b ec au s R esta u r an d ata   s et  co n s is ts   o f   t h r ee   attr ib u tes  w it h   th alp h ab etic   d ata  ty p an d   t w o   attr ib u te s   w it h   m i x   d ata  t y p e.   L ast l y ,   r eg u lar   ex p r es s io n   ac h iev ed   b etter   r es u lt   o n   t h e   s y n t h etic   d ata   s et   co m p ar ed   w i t h   r esta u r an d ata   s et.   Ho w ev er ,   th e   p er ce n ta g e   o f   r ec all  ( R )   o n   R estau r a n d ata   s et  is   s lig h tl y   b etter   co m p a r ed   w it h   t h p er ce n tag o f   th r ec all  ( R )   o n   th e   s y n t h etic  d ata   s et.     Fig u r 5 ( b )   d e m o n s tr ates   th e   r esu l ts   o f   R es tau r a n t,  C en s u s   a n d   s y n th et ic  d ata   s ets   u s i n g   Go o g l e   s i m ilar it y .   Fro m   t h r es u lt s ,   it   is   o b v io u s   t h at  Go o g le  s i m ila r it y   ac h ie v ed   t h h i g h e s ac c u r ac y   r es u lt  in   ter m s   o f   p r ec is io n   ( P )   o n   R estau r an t   d ata   s et.   W h ile  th b est  ac cu r ac y   r esu lt s   ac h ie v ed   in   ter m s   o f   r ec all  ( R )   an d   F - m ea s u r ar o n   C en s u s   d ata   s et  w it h   9 3 an d   8 0 r esp ec t iv el y .   B esid es,  Go o g le  s i m ila r it y   h as  ac h iev ed   a   s lig h tl y   b etter   r esu lt  in   ter m s   o f   p r ec is io n   ( P )   an d   F - m ea s u r o n   s y n t h etic  d ata   s et  co m p ar ed   w it h   r esta u r an t   d ata   s et.   Nev er th ele s s ,   t h p er ce n tag o f   r ec all  ( R )   is   h i g h er   o n   r estau r a n t d ata   s et.                  (a Re g u lar E x p re ss io n         (b G o o g le S im il a rit y     Fig u r 5 .   Ma tch in g   R es u lts   u s in g   R e g u lar   E x p r ess io n       5.   DIS CU SI O N   Fro m   th r esu lts   t h at  h a v b ee n   r ep o r ted   th r o u g h o u t h is   p ap er ,   w ca n   co n clu d th a th b o th   m atc h in g   m et h o d s   ac h ie v ed   g o o d   r esu lts .   B esid es,  b o th   m et h o d s   also   in tr o d u ce d   an   ac ce p tab le  r an g o f   ti m e   to   d is co v er   th m atc h i n g   b etw ee n   attr ib u te s   in   d i f f er en s c h e m a s .   A d d itio n all y ,   it  ca n   al s o   b o b s er v ed   th at   Go o g le  s i m i lar it y   is   m o r ap p r o p r iate  to   h an d le  s i m ilar it y   b et w ee n   in s ta n ce s   co n tai n   a l p h a b etic   d ata  t y p co m p ar ed   to   R eg u lar   e x p r es s io n .   Ho w e v er ,   R e g u lar   e x p r ess io n   m et h o d   is   m o r s u it ab le  f o r   h a n d li n g   s i m ilar it y   b et w ee n   in s tan ce s   co n tain s   n u meric   an d   mix   d ata  t y p es.   W ca n   also   n o tice  th at   th s a m p le  s ize  o f   0% 2 0 % 4 0 % 6 0 % 8 0 % 1 0 0 % 1 0 % 2 0 % 3 0 % 4 0 % 5 0 % Pe r c e n t a g e   o f   A c c u r a c y   S i z e   o f   S a m p l e   P r e c i si o n   ( P ) R e c a l l   ( R ) F - M e a su r e   ( F ) 0% 2 0 % 4 0 % 6 0 % 8 0 % 1 0 0 % 1 0 % 2 0 % 3 0 % 4 0 % 5 0 % Pe r c e n t a g e   o f   A c c u r a c y   S i z e   o f   S a m p l e   P r e c i si o n   ( P ) R e c a l l   ( R ) F - M e a su r e   ( F ) 0% 2 0 % 4 0 % 6 0 % 8 0 % 1 0 0 % R estau r an t C en s u s Sy n th etic Pe r c e n t a g e   o f   A c c u r a c y   D a t a sets   P r e c i si o n   ( P ) R e c a l l   ( R ) F - M e a su r e   ( F ) 0% 2 0 % 4 0 % 6 0 % 8 0 % 1 0 0 % R estau r an t C en s u s Sy n th etic Pe r c e n t a g e   o f   A c c u r a c y   D a t a sets   P r e c i si o n   ( P ) R e c a l l   ( R ) F - M e a su r e   ( F ) Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E mp ir ica C o mp a r a tive  S t u d o f I n s ta n ce - b a s ed   S ch ema   Ma tch in g     ( A li A .   A lw a n )   1275   th d ata  in s tan ce s   h a s   also   in f lu en ce d   o n   t h q u ali t y   o f   t h m atc h in g   r es u lt s   in   w h ic h   th e   p er ce n tag o f   t h e   ac cu r ac y   i n cr ea s e s   s ig n i f ica n tl y   w h e n   t h s a m p le  s ize  i n cr ea s es.  T h is   ca n   b s ee n   c lear l y   f o r   r eg u lar   ex p r ess io n   m et h o d   w h er th s a m p le  s i ze   o f   in s ta n ce s   ca n   s ig n if ican t l y   i m p ac o n   t h ac cu r ac y   r esu lts .   T h is   m a y   r eq u ir a   co n s id er ab le  am o u n o f   i n s tan ce s   to   a v o id   m is s   r ep r ese n tatio n   o f   th e   attr ib u te’ s   p atter n   d u r i n g   th p r o ce s s   o f   co n s tr u ct in g   t h r eg u lar   ex p r es s io n .   Si m il ar l y ,   f o r   Go o g le  s i m ilar it y ,   t h a m o u n o f   d ata  in s ta n ce s   h as  a   g r ea t   i n f lu e n c o n   t h p r o ce s s i n g   t i m e   an d   th q u alit y   o f   t h m atc h .   A l th o u g h   t h m atc h i n g   ca n   b p er f o r m ed   w h en   f e w   i n s ta n ce s   ca n   b f o u n d   in   th d atab ase  attr ib u tes  b y   ca lc u la tin g   t h av er a g o f   s i m ilar it y   s c o r es.  Ne v er th ele s s ,   lar g er   n u m b er   o f   in s tan c es  ca n   e ith er   p o s iti v el y   o r   n e g ati v el y   i m p ac t s   o n   th av er a g s co r es  w h ic h   s u b s eq u en tl y   in s p ir ed   th m atch i n g   q u alit y .   W h ile,   f o r   ti m o p ti m izatio n ,   Go o g le   s i m ilar it y   i s   ac tu all y   p r o p o r ti o n al  to   th s a m p le  s ize   o f   t u p les.  W h en   lar g a m o u n o f   in s ta n ce s   u s ed ,   th e   p r o ce s s in g   ti m w o u ld   b lo n g er   an d   v ice  v er s a.   T h is   i s   d u e   to   th f ac t t h at  Go o g le  s i m ilar it y   r elie s   m a in l y   o n   th i n ter n et,   a n d   in v o lv Go o g le  s ea r ch   en g i n to   ac co m p lis h   th m a tch i n g   p r o ce s s .   Hen ce ,   in ter n e t sp ee d   ca n   d ir ec tl y   af f ec th p r o ce s s i n g   ti m e.   F u r th er m o r e,   it  ca n   also   b o b s er v ed   th at  Go o g le  s i m ilar it y   d ep en d s   o n   th n u m b er   o f   h it s   o f   s p ec i f ic  ter m .   Fo r   ex a m p le,   if   t h ter m   is   u n clea r ,   t h en   t h is   w o u ld   r esu lt  i n   lo w   n u m b er   o f   h i ts   co m p a r ed   to   th n u m b er   o f   p ag es   in d e x ed   b y   Go o g le.   T h er ef o r e,   t h is   l ea d s   to   r ed u ce   t h e   s i m ilar it y   s co r w h ic h   f u r th er   d ec lin es   t h m a tch i n g   ac cu r ac y .       6 .   ACK NO WL E D G E M E NT S     I n   th i s   p ap er   w h a v co n d u cted   an   e m p ir ical  co m p ar ati v s tu d y   b et w ee n   t w o   d if f er en in s ta n ce - b ased   s ch e m m atch i n g   tech n iq u es,  n a m el y Go o g le  s i m ila r it y   an d   r eg u lar   ex p r es s io n .   T h s tu d y   s o u g h to   co m p ar th t w o   tech n iq u e s   w it h   s e v er al  s y n t h etic  an d   r ea d ata   s ets.  I ca n   co n clu d th at  r eg u lar   ex p r ess io n   tech n iq u i s   n o s u itab le  to   b u s ed   to   h an d le  in s tan ce s   o f   attr ib u tes  w it h   s tr i n g   d ata  t y p es.  Ho w e v er ,   th e   ap p r o ac h   is   v er y   e f f ec ti v an d   o u tp er f o r m s   Go o g le  s i m i lar it y   f o r   attr ib u tes  w i th   m i x   a n d   n u m er ic  d ata  t y p e s   in s ta n ce s .   Si m ilar l y ,   Go o g le   s i m ilar it y   s ee m s   to   b ap p r o p r iate  f o r   attr ib u t es  w it h   al p h ab etic  d ata  t y p ex tr ac ti n g   t h s e m a n tic  r elatio n s h ip   b et w ee n   t h in s ta n ce   s e ts .   Nev er t h eles s ,   it  is   i n ap p r o p r iate  to   b u tili ze d   f o r   s c h e m attr ib u tes   co n tai n   m i x   a n d   n u m er ic  d ata.   W e   als o   co n clu d th at   r eg u lar   e x p r ess io n   r elies   m ain l y   o n   s a m p le  s ize  o f   i n s ta n ce s   to   ac h ie v h ig h   ac c u r ac y .   T h e   ac cu r ac y   o f   t h m atc h i n g   r es u lt  i n cr ea s ed   w h e n   th s a m p le  s ize  i s   lar g e.       RE F E R E NC E S     [1 ]   L e n z e rin i,   M . ,   Da ta  in teg ra ti o n :   A   th e o re ti c a p e rsp e c ti v e In P ro c e e d in g s   o th e   2 1 st   ACM   S IG M OD - S IGACT - S IGART   S y mp o si u m o n   Pri n c ip le s o Da t a b a se   S y ste ms .   2     6 -   Ju n e -   2 0 0 2 ,   M a d iso n ,   W isc o n si n ,   US A ,   2 3 3 - 2 4 6 .   [2 ]   Do ,   H. ,   S c h e m a   M a tch in g   a n d   M a p p i n g - b a se d   Da ta In teg ra ti o n A rc h it e c tu re ,   A p p ro a c h e s,  a n d   Ev a lu a ti o n V DM   V e rlag   S a a rb c k e n ,   G e r m a n y ,   2 0 0 7 .   [3 ]   Os a m a ,   A .   M e h d i . ,   A   N e w   a p p ro a c h   f o In sta n c e   b a se d - sc h e m a   m a t c h in g .   Un p u b li sh e d   M a ste Diss e rtatio n .   Un iv e rsit i   P u tra M a lay sia ,   Ku a la L u m p u r,   M a lay sia ,   2 0 1 4 .       [4 ]   Be rn ste in ,   P .   A . ,   M a d h a v a n ,   J.,   Ra h m ,   E.   G e n e ric  sc h e m a   m a t c h in g ,   ten   y e a rs  late r .   In Pro c e e d in g o t h e   3 7 th   In ter n a t io n a Co n fer e n c e   o n   Ver y   L a rg e   Da ta   Ba se s ,   A u g u st  2 9 th   -   S e p tem b e 3 rd   2 0 1 1 ,   S e a tt le,  W a s h in g to n ,   USA ,   695 - 7 0 1 .   [5 ]   T ian ,   A . ,   Ke jri w a l,   M . ,   M iran k e r,   D. P . ,   S c h e m a   m a tch in g   o v e re latio n s,  a tt r ib u tes ,   a n d   d a t a   v a lu e s In :   Pro c e e d in g o th e   2 6 th   I n ter n a ti o n a Co n fer e n c e   o n   S c ien ti fi c   a n d   S ta ti st ica Da ta b a se   M a n a g e me n t .   3 0   -   Ju n e     Ju ly     2 0 1 4 ,   A a lb o rg ,   De n m a rk .   [6 ]   G o z u d e li ,   Y.,   Ka ra c a n ,   H.,   Yi ld iz ,   O.,   Ba k e r,   M . ,   M in n e t,   A . ,   Ka len d e r,   M . ,   A k c a y o l,   M . ,   A   Ne w   m e th o d   b a se d   o n   tree   si m p li f ica ti o n   a n d   sc h e m a   m a tch in g   f o a u to m a ti c   we b   re su lt   e x trac ti o n   a n d   m a tch in g In Pro c e e d in g o th e   In ter n a t io n a M u lt i   Co n fer e n c e   o En g i n e e rs   a n d   Co mp u ter   S c ien ti sts .   1 8 -   20  - M a rc h     2 0 1 5 ,   Ho n g   Ko n g ,   Ch in a ,   1 - 5.   [7 ]   Ja in ,   S . ,   T a n w a n i,   S . ,   S c h e m a   m a tch in g   tec h n iq u e   f o a   h e tero g e n e o u w e b   d a tab a se .   In Pro c e e d in g s   o th e   4 th   In ter n a t io n a Co n fer e n c e   o n   t h e   Relia b i li ty,  In f o c o T e c h n o l o g ies   a n d   O p ti miza ti o n   ( ICRIT O)  ( T re n d a n d   F u tu re   Dire c ti o n s) .   2     4 -   S e p tem b e r -   2 0 1 5 ,   N o id a ,   In d ia,  1 - 6.   [8 ]   Os a m a ,   A .   M . ,   Ha m id a h I .,  Li ll y   S .   A . ,   A n   A p p ro a c h   f o In sta n c e   Ba se d   S c h e m a   M a tch in g   w it h   G o o g le   S im il a rit y   a n d   Re g u lar E x p re ss io n T h e   I n t.   Ara b   J .   o In fo .   T e c h . ,   2 0 1 7 .   No .   5 .     [9 ]   M u n ir ,   S . ,   Kh a n ,   F . ,   Riaz ,   M . A .   A n   in sta n c e - b a se d   sc h e m a   m a tch in g   b e tw e e n   o p a q u e   d a tab a se   sc h e m a s I n:   Pro c e e d in g o t h e   4 th   I n ter n a t io n a C o n fer e n c e   o n   En g i n e e rin g   T e c h n o l o g y   a n d   T e c h n o p re n e u sh ip   ( ICE2 T ) .   2 7 -   29 -   A u g u st -   2 0 1 4 ,   K u a la L u m p u r,   M a lay sia ,   1 7 7 - 1 8 2 .   [1 0 ]   De   Ca rv a lh o ,   M . G . ,   L a e n d e r,   A . H.,   G o n ç A lv e s,  M . A . ,   Da   S il v a ,   A . S . ,   A n   e v o lu ti o n a ry   a p p ro a c h   t o   c o m p lex   sc h e m a   m a tch in g J .   o In f o .   S y s 2 0 1 3 ,   3 8 (3 ) ,   3 0 2 - 3 1 6 .   [1 1 ]   Os a m a   A .   M e h d i,   Ha m id a h ,   I. ,   L i ll y   S . A . ,   In sta n c e   b a s e d   m a tch in g   u sin g   re g u lar  e x p re ss io n .   Pro c e d ia   Co m.  S c i . ,   2 0 1 2 ,   1 0 ,   6 8 8 - 6 9 5 .   [1 2 ]   Zh a o ,   H.,   Ra m ,   S . ,   Co m b in in g   s c h e m a   a n d   in sta n c e   in f o r m a ti o n   fo in teg ra ti n g   h e tero g e n e o u d a ta   so u rc e s .   J .   o Da ta   &   Kn o w.   En g . 2 0 0 7 ,   6 1 ( 2 ),   2 8 1 - 3 0 3 .   Evaluation Warning : The document was created with Spire.PDF for Python.