TELKOM NIKA , Vol.12, No .4, Dece mbe r  2014, pp. 10 17~102 2   ISSN: 1693-6 930,  accredited  A  by DIKTI, De cree No: 58/DIK T I/Kep/2013   DOI :  10.12928/TELKOMNIKA.v12i4.434    1017      Re cei v ed Au gust 24, 20 14 ; Revi sed  No vem ber 1, 20 14; Accepted  No vem ber 1 7 ,  2014   An Improved Entity Similarity Measur e ment Method      Gang lv * 1, 2 , Chen Zhen g 2 , Sheng-bing Chen 3   1  Ke y  of Intelli g ent Comp utin g and Si gn al Pro c essin g , Minist r y  of Educ atio n ,  Anhui Un ivers i t y ,   Hefei An hui  23 003 9, Chi n a   2  Ke y  La borat o r y  of Net w ork  a nd Intell ig ent Information Proc essin g , Hefei U n iversit y ,   Hefei An hui  23 060 1, Chi n a   *Corres p o ndi n g  author, e-ma i l : lvgan g@hfu u . edu.cn 1 , chen gzhe ng@ ah u.e du.cn 2 , chens b @ hfuu.e du.cn 3       A b st r a ct   To facilitate t he i n tegr ation   of lear ni ng  resourc e s c a tegor i z e d  un der d i fferent  ontol og y   repres entati o n s , the tec hni q ues  of  o n tol o gy  ma ppi ng  c an  be  ap pl ied .  T houg man y  al gorith m s   and   system s have  been proposed for ontolog y mapping, they  do not hav e an  aut om atic weighting strategy on  class features  to automat e the ontol ogy  ma pp ing pr oc ess. A nov el  meth od of co mp utin g the fe ature   w e ights is pro pose d . By feature se ma ntic  ana lysis, the d i fferent entiti e s  simi larity ca lc ulati on  mo del  an d   w e ight calc ul ati on  mo del w e r e  defin ed. T he r e sults sh ow  that it makes the   ontol ogy ma pp i ng  pr ocess mo re  auto m atic w h il e retain ing s a ti sfying accur a c y . Improve o n tolo gy mapp in g effectiveness.     Ke y w ords : se ma ntics of features, ontol ogy  ma pp ing, featu r e w e ight       1. Introduc tion  Being on e of the best in st rume nt of kn owle dge p r e s entation an the ba sis of  semantic  w e b  tec h n o l og ie s ,  on to lo gy is  ma in ly de sc r i be d   w i th RD F  (R es our c e De sc r i p t io n  Fr a m ew ork )   and O W L ( On tology Web  L angu age ) rel eased by W3 C be side s CY CL, DO GMA,  F-Logi c a nd  the   like  develop e d  an d u s e d  b y  other  organ ization s Currently, domain  ontolo g y ha s bee n a pplied  in   many field s   su ch  as a r tificial i n telligen ce,  so ftwa r e  engin eeri ng, libra ry  scie nce  an d sema n t ic  web[1],[2]. The res o urc e s repres ented by different  ontologies  in different fields   would  be   integrate d  a n d  cla s sified vi a ontolo g y m appin g . As  th e key fa ctor o f  ontology ma pping, the  ent ity  simila rity me asu r em ent can be  gen erally divided  i n to thre e m e thod s with  different b a ses,   namely, term inology,  stru cture  a nd  se mantics. Be si des, th e p r o c ess of  mappi ng  can  al so  be   c l as s i fied into three types namely, man ual, s e mi-aut omatic  and automatic  [3],[4].  Influenced by fac t ors  such as   c l ass i fic a tion  sc heme, repres entation language, and  backg rou nd  kno w le dge, t he o n tology i n  a  same fie l d may  app e a quite  different. Th erefo r e,   whe n  stu d yin g  the i s sue of  ontology m a pping, b e si de s the  re sea r ches  on th e cl ass mat c hin g  of  different entities, the features  (i.e. relations )  between them al so matters . Generally, the s y s t em  of ontology m apping possesses two st rat egies, nam el y, single strategy and  multi - strategy [5],[6].  Whe n  multi - strategy is ad opted, differe nt sim ila rity  measurement s shall be combine d   into   a   singl e o ne  properly.  Du rin g  the  process, most  wei ght  dist ribution  o f  re sou r ces is mad e  b a sed  on   the experi e n c e s  or  expe riments of th e expert s  no wad a ys, whil e this meth o d  rem a in s time- con s umi ng a nd un stable  whe n  used in  Web resource s re presente d  by different ontologi es[7], [8].    Ontology m a pping i s   ki nd of p r o c e s s in  wh i c h  the e n tity of the source  o n tology  (incl udin g  cla ss a nd features)  woul d be mappe d and  rep r e s ente d  by a target ontology, and the   simila rity me asu r em ent al so in clu d e s  o t her relat ed e n tities  o w ing to  ce rtain rel a tional  featu r es  besi d e s  the entity itself. A  con c e p t of “universa lity” among cl asse s in ont ology rep r e s entatio is  prop osed in t h is the s i s : if a feature p o ssesse s  a  hi gh  universality, the pa rtition d egre e  of a  cla s woul d be com e  low a nd th e simila rity would thu s   re main indi stin guishable, n a m ely, the larger a  feature’ s univ e rsality becomes, the sm aller t he  wei ght will get. And the following  comes  the  detailed expl anation s .         2. Semantics  Featur es   Since the ont ology po ssesse s many fea t ure ty pes  su ch a s  tags, a nnotation s , attributes,   relation s (p arent cla ss an d sub c la ss)  and exampl e s , the distinctive feature among entitie s is  calle d “uni qu ene ss” [9],[10]. As a hypothesi s , if t he  ontology of a feature is un ique, mean while  Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 4, Dece mb er 201 4: 101 7 – 1022   1018 there i s  a cl a ss  with same  feature s  in a nother   ontolo g y, then we consi der th e a bove ontolo g i e equal  to e a ch  othe r. Just  a s   we  ca easily di sting u ish  hum an  bein g wh en th ey we re  put i n to  a  grou of ani mal by  notici ng the  featu r e of  “t hou ght ”, si nce they  are the  o n ly spe c ie s who   possess the  ability of thinking. On  the  contrary, since they maintai n   the same features, it is hard  to distingui sh  them whe n  in  a cro w d.     This th esi s  d e fines   2 1 , c c Com f  as two differe nt se mantic fo rm whi c h rep r e s ent two   feature - ba se d ontologi es with di ffere nt feature types in relate d sema ntics similaritie s .  For  instan ce, rel a ted se manti cs fo r the string ty pe “t ag” a nd “an notation” mi g h t be a set of  synonym s , while the relati onal se manti cs of a re late d feature mig h t be a set of classes  whi c c o nnec t via certain  relations . If value(c ,f) is  defin ed to  expre s s Feat ure f’ s value  of Cla ss  c, a nd  sem ( f,c) t o  e x press  Featu r e f’s semanti c  a s so ciat ed  value of  Cla s c, the fo rm ula for the va lue   of Feature f, ontology c 1  a nd c 2  and  2 1 , c c Com f  ca n be define d  as follo ws:        2 1 2 1 2 1 , , , , , c f sem c f sem c f sem c f sem c c Com f                                                              (1 )     Among whi c h   sem ( f,c 1 ) an d sem(f,c 2 ) a r re spe c tively the syn onyms of val ue(c 1 ,f) and  value(c 2 ,f). Bes i des ,  the s i milarities   bet wee n  bin d ing  pro perty f, c 1  and  c ca n al so  be d e fined  a s   follows     otherwise f c value f c value if c c Com f 0 , , 1 , 2 1 2 1                                                 (2 )     More over, a s  for the value  of relational  featur e s  such  as “p are n t cl ass”, “sub cla s s” an d   “exampl e ”, it can be  con s ide r ed a s  a  colle ction  of  ontologie s   whi c h ori g ina t e from a ce rtain  feature. And the relatio nal feature s  of c 1  and  c 2  could t hus b e  define d  as the follo ws:        f c value f c value f c value f c value c c com f , , , , , 2 1 2 1 2 1                                              (3)     The valu e of  co nceptual f eature   2 1 , c c Com f  dra w n from  the a bove  calculat ion  can   be used to ca lculate the va lue of weig ht of a feat ure. If we define O  as the ontol o g y, C for a se of entities  whi c belo n g s  to  O, F  for a  group  of feat u r es of C,  which  in clud e “tag s”, “an notatio ns”,   “pa r ent cl ass”, “bind s ”, “re l ations ”, “exa mples” an d the like, the  2 1 , c c Com f  definition of  feature is a s  f o llows:     2 , ) , ( n c c com CM C c c j i f f j i                                                                    (4)     Among  which  n rep r e s ent s the amou nt of cla s ses in  C; and  c i , c a r e the  cla s se s of C,  the weig ht of Feature f coul d thus be d e fined a s  the follows:    f f CM W 1                                                                                        (5 )       3. Similarit y   Measur e men t   If the weight of the entity  feature s  re pre s ent e d  by the two ontologi es is worke d  out, the   simila rity me asu r em ent of  different  cla s ses  ca be  cal c ulate d  b y  integratin g  variou s feat ure  weig ht, for the simila rity measure m ent  of clas s an d feature inte r influen ce s ea ch othe r du ri ng  the pro c e ss[1 1 ],[12]. Since a class is d e scrib ed by  a set of feature s , the sim ilarity of feature s   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  1693-6 930       An Im proved  Entity Sim ilarity  Mea s urem ent Method (Gang Iv)  1019 sho u ld  be t a ke n into  a c cou n t when   doing  si mil a rity measure m ent. When  ma ke  ontol ogy  mappin g , iterative algorith m  would b e  a dopted in thi s  thesis.     Definition s: o r iginal  ontol o g y 1 1 1 , F C O , target  on tology 2 2 2 , F C O , c 1  an c 2   f o r cla ss  colle ct ion,  F 1  and F 2  for feature  colle ction.  1 i e  and  2 j e  for entities ,  and the c l as ses  and  feature s  also  belong s to their ontol ogie s  O 1  and O 2 . In order to benefit the expressio n  of the  aforem ention ed al gorith m , relate d va ria b les are d e fin ed a s  foll ows:  2 1 , j i k e e Sim  for the entity,   and the si mi larity weight  for  1 j e  and  2 i e  would be  worked o u t after applying th e iterative  algorith m  for k times a nd it would al so b e  rep r e s ente d  by  2 1 , j i k e e ISim      2 , , , 1 2 2 1 2 1 i j k j i k j i k e e Sim e e Sim e e ISim                                                (6 )     The entity  1 i e  whi c h d e scri bed by a  se t of feature  colle ction  ca n be d e fined  as  1 1 2 1 1 1 , , ) ( i l i i i e f e f e f e F , among wh ich 1 F f t , l t , 1 . Another entity which  descri bed  by  a se of  feat ure   colle ction can   also b e   defin ed   as  2 2 2 2 1 2 , , ) ( j m j j j e g e g e g e F , among which 2 F g t . , 1 m t  After ap plying the  iterative alg o rithm  2 1 2 1 , max , m i k m j i k e e ISim e e ISim for  k time s, an  adju s ted  result   2 1 j i k e e A  can b e  wo rked out via cal c ulatio n. In order to calcula t e 2 1 1 , j i k e e Sim , we define s     m k k k g A g A g A VF , ), ( , 2 1  to adjus 2 j e F  to 1 i e F . And related   Formul a 7  is  as  follows       1 1 1 2 1 1 2 1 1 , , , , , i i e F f f e F VF f k j i k k k f j i k w f A e value f e value SIM f A f Sim w e e Sim     Among which  the attribute value of SIM k  is based on i t s type:  (1)  If X and Y are not in the sa me type, then SIM k (X,Y)=0   (2)  If X and Y are in the sa m e  type su ch  as “ch a ra cte r  type” or “nu m eri c  type” a nd X=Y, the  SIM k (X,Y)=1, otherwise:        Y f sem X f sem Y f sem X f sem Y X SIM k , , , , ,     (3)  If X and  Y  are both entity sets, then:       Y X e e Sim Y X SIM X e k Y e k , max , max , 1 2 2 1     As is sho w n  in Fig u re  1  the ontol og y re p r esentat ion of  synon yms, the formula of   simila rity mea s ureme n t of  “Book”, an  ent ity in t he  so urce  ontolo g y a nd the  on e i n   target  ontolo g y   is  as  follows   Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 4, Dece mb er 201 4: 101 7 – 1022   1020      class er k k k k erclass r k W r A Book value r Book value SIM r A r Sim W Book Book Sim _ sup 1 02 01 1 sup 02 01 1 , , , ,   class sub label class er W W W OnSubClass Similarity OnLabel Similarity ss OnSuperCla Similarity _ _ sup   Among which  Similarity On Supercla ss,  Simila rity On Label an d Similarity On Subcl a ss  are   the co rre s po ndin g  sim ilarity  of  feat ure s  (Sim k and th e fe ature  weight  (W) for featu r es,  sup e r-cl ass a nd su b-cla ss  by runni n g  the simila rity measure m ent.                 Figure 1. The  Ontology Re pre s entatio n                    Figure 2. Com pari s on o n  Experi m ental                                  of a Sample       Resul t s   Duri ng  the  proce s s of  ro un d-robin,  if  ne are s t a d ju stment fun c tion   A k+1  and the  simila rity  function Sim k+ 1   are in  the  same  value  with A k  an Sim k , then e nd the  circul ation an d iteration.   The adju s tme n t algorithm i s  as follo ws:  PROCEDURE:  Ontolog y  Map p in g   INPUT :  Ontology  O 1 ,O OUT P U T : Alignnme n t A    BEGIN         W 1 = C omputeW eig h t(O 1       W 2 = C omputeW eig h t(O       A 0 = C omputeInitia l Ali gnme n t(O 1 , O 2 Sim 0 = C ompute I nitialS i mil a rit y  (O 1 , O 2 ,A 0 k = 1    WHIL E k -1     F O R e i  in O 1          F O R e j  in O 2           PU T ( Sim k , ComputerS i milarit y (e i  , e j  , A k-1 ))          END_FOR      END_FOR        A k =  GetAlignment(Sim k )        IF Sim k Si m k-1  AND A k A k-1  TH E N             k  = -1            ELSE                  k =  k +1                  END_IF           END_WHI L E            OU T P U T ( A )   0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 pre cision   rate recall   rate F measure Lily MapPSO TaxoMap AFW Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  1693-6 930       An Im proved  Entity Sim ilarity  Mea s urem ent Method (Gang Iv)  1021    END_BEGIN   END_PROC E DURE     As i s   sho w n  i n  the  above   algorith m , if t he  re spe c tive entity num be r for O n tology  O 1  a nd  O 2  is n and m ,  the time complexity of th e very algorit hm woul d be  O (n ×m).       4. Experimental resul t and An aly s e s   The test data of thi s  thesis is OAEI  2009 Corpus (http://oaei.o ntologymatching.org/ ),  and th e eval uation of th perfo rman ce   stand ard  re m a in to b e  p r e c isi on  rate, recall  rate  an d F- measure [13]. The re spe c ti ve definitions  of  the calcula t ion formula a r e as follo ws:     extracted standard extracted p     standard stanard extracted r     r p pr F 2       The test d a ta incl ude s 3 3  identified  classe s,  24 re lations, 4 4  at tributes, 5 6  e x amples  and 20 exa m ples  with no  attribute. The  exper ime n t has al so  co mpared the  prop osed me thod  (AFW)  with  L ily, MapPSO, and  TaxoM a p, and  a s  i s   displ a yed i n   Figure2  belo w , o w ing  to t he  adoptio n of  automatic fe ature  wei ght  cal c ulat io n, the mat c hi ng efficie n cy  and th e th ree  perfo rman ce  stand ard s  ha ve been imp r oved sig n ifica n tly.      5. Conclusio n   By emphasi z i ng the import ance to represe n t feature s  via the method of weig h t  and  analyzi ng the  sem antics  o f  feature s , thi s  the s i s  ha desi gne d the  com puting  model  of enti t weig ht and  calcul ated the  simila rity we ight amon g variou relatio n s. Due to the ado ption  of  iteration m e th od an d auto m atic featu r e  weig ht ca l c ul ation, the Ont o logy-m appin g  efficien cy h a been imp r ov ed in relate d  experime n ts. Besides, it  also po sse s se s better  chara c te risti c s in   pre c isi on  rate , re call  rate  a nd F - me asure when  co mpa r in g w i th o t he r   s y s t e m s .   Pr io r i ties   w o uld  be given  on t he studies of  improvin g the robustness and adj ustable  capability of the algorithm  in   the near futu re.         Ackn o w l e dg ement  Proje c t wa suppo rted by t he Nature S c i ence Fou nda tion of AnHui  (201 3SQ R L 074Z D,  1408 085M F1 35).Key Con s tructive  Disci p line of  He fei  University, No. 2014x k08,  Traini ng O b je ct  for Acad emic  Lead er of Hef e i University, No. 201 4dtr0     Referen ces   [1]  Z hou She ng-c hen, Qu W en- ting, Shi Yin g - z i, Sh i Xu n-zh i ,  Sun Yun-che n . Overvie w   o n  Sentime n Anal ys is of Chi nese Micr obl og gin g Co mput e r  Applic ations  and Softw are.  201 3; 30(3): 16 1-16 4.  [2]  Gang Lv, Cheng Zheng.  A novel frame w ork for concept detect ion on lar g e scale video database and  feature po ol.  Artificial Inte l lig e n ce Rev i ew . 2013; 40( 4): 391 -403   [3]  AH. Doan, J. Madh avan, P. Domin gos, A. Hale v y . Ontol o g y  m a tchin g : A machin e le arn i ng a ppr oach Han dbo ok on  Ontolog i es  in Information System s. 20 03: 39 7–4 16.   [4]  Xi on g F a n g , H uan g Ho ng- bin ,  Huan g Yu-c h eng. An  Appr o a ch of Inform a t ion Sem antic  Clusteri n g   Based o n  Sem antic Simil a rit y .   Computer En g i ne erin g an d Scienc e .  2012;  34(1 1 ): 175- 17 9.  Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 4, Dece mb er 201 4: 101 7 – 1022   1022 [5]  Jian g Me n-ji n,  Z hou Y a -qi an,  Hua ng  Xua n -ji ng. S y n o n y m o us Entit y  E x pa nsio n Bas e d  In formation  De- dup licati o n . Jo urna l of Chin es e Information P r ocessi ng . 20 1 2 ; 26(1): 42-5 0 .   [6]  Cui  Xi ao-Ju n, Xia o  Ho ng- yu, Ding L i - x in.  Distance-B a s ed Ada p tive  Recor d  Matchi ng for W e b   Databases .   Jo urna l of W uhan  University (Na t ural Scie nce E d itio n) . 201 2; 12(1): 1-9   [7]  Z hao Ha i- xia,  Li Da o-sh en, L I U Yong, et al.  Rese arch o n  e n tit y  e x tracti on  method  of Dee p  W eb dat a   integr ation.  C o mp uter Eng i n e e rin g  and A ppl i c ations . 20 12;  48(3 6 ): 160- 16 3.  [8]  Erlin E, R ahmi a ti R, Ri o U. T w o  T e xt Cl assi fiers in On li ne  Discussi on: Su pport Vect or M a chi ne v s   Back-Prop agat ion Neur al Ne t w ork.  T E LKO M NIKA T e leco mmu n icati on  Co mp uting  Ele c tronics a n d   Contro l.  201 4; 12(1): 18 9-2 0 0 .   [9]  Qi  Yu-do ng,  Y an Xi ao- bin, Xi e Xia o -fan g.   C once p tua l  mod e ls simi lar i t y  c o mputati on  ba sed o n  LIS A   theor y.  Co mp u t er Engin eeri n g  and App lic atio ns .  2012; 48( 3 ) : 40-42.   [10]  Don g  De ng-h u i ,  Xia o  Gan g , Z han g Yu an-mi n g , Lu Ji a- w e i, Xu J un. An SO A Refere nce M ode l Base d   on Multi-gr an ul arit y  Serv ice Li brar y   and Its Applic atio n.  Co mp uter App lica t ions an d Softw are . 2012;   29(1 0 ): 152- 15 5.  [11]  Sun  M i ng, Lu  Chu n -she ng, Xu Xi u- xin g A W eb  Entit y  Inf o rmation  E x tra c tion M e thod  B a sed  on  SVM   and Ad aBo o st.  Computer Ap p licatio ns an d S o ftw are.  2013; 30(4): 10 1-1 0 6 .   [12]  Albar da A, Supa ngk at S  H,  Kuspri ya nto K, et al. Informatio n  Intercha nge L a yer base d  o n   Classification of In formation U s e (IU).  T E LKOMNIKA T e lec o mmunic a tio n   Co mp uting E l e c tronics a n d   Contro l.  201 4; 12(2): 48 5-4 9 2   [13]  Y.s R. Jean-M a r y , EP. Shir o nosh i ta, et al.   Ontology  matching  w i th  s e m antic  verification.  Journ a l of   W eb Semantic s.  2009; 21( 4): 121- 135.   Evaluation Warning : The document was created with Spire.PDF for Python.