TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol. 12, No. 8, August 201 4, pp. 6324 ~ 6331   DOI: 10.115 9 1 /telkomni ka. v 12i8.461 7          6324     Re cei v ed O c t ober 3, 20 13;  Revi se d March 7, 201 4; Accepted Ap ril 2, 2014   Cliques-based Data Smoothing Approach for Solving  Data-Sparsity in Collaborative Filtering       Yang Yujie*, Zhang Zhiju n, Duan Xintao   Coll eg e of Co mputer an d  Informatio n  Engi n eeri ng, Hen an  Normal U n iv ersit y ,   Xi n x i ang, He na n, Chin a, 453 0 0 7   *Corres p o ndi n g  author, e-ma i l y u j i e y a n g y u j i e @gma il.com       A b st r a ct   Coll ab orative  fi lterin g (CF ) , as  a  pers ona li z e d rec o mmen di ng tec h n o lo gy, has  b een  w i d e ly  us e d   in e-c o mmerc e  an d oth e ma ny p e rson a l i z e d  reco mm end er are a s.  How e ver, it s u ffers from s o me  prob le ms, suc h  as  col d  start  pr o b le m,  data  spars i ty a nd  scala bil i ty, w h ich re duce  the  reco mmend ati o n   accuracy a nd  user exp e ri enc e. T h is pap er  ai ms to so lv e the d a ta spars i ty in CF . In the pa per, cli q u e s- base d  data s m oothi ng ap pro a c h is propos ed  to alleviat e th e data spars i ty proble m . F i rst, users and ite m s   are div i d ed i n to many cl iqu e s  accordi ng to  social   netw o rk analys is (SN A ) theory. T h e n , data s m oot hin g   proce edi ng is carried   o u to  fill  th e missi ng  ratings in   user- i tem ratin g   mat r ix bas ed  on t he us er a nd  ite m   cliqu e s. F i na ll y, the traditio nal us er-b ase d  ne ar est ne i ghb or reco mme n d a tion  al g o rith m is us e d  to  reco mme nd ite m s for  users.  T he exp e ri me n t s show   that the pro pos ed  ap proac ca n effectively  i m prov e   the accuracy a nd perfor m anc e on spars e  da ta.      Ke y w ords : dat a sparsity, coll abor ative f ilteri ng, cliq ue, soci al netw o rk an al ysis, data smo o thin g     Copy right  ©  2014 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion  Colla borative filtering  (CF) ca n h e lp to overco me  "in f ormation  ov erloa d " a nd t o  provide   person a lized  servi c e s  in  social n e two r king we b si te.  Gene rally sp eaki ng, coll a borative filteri n g   can b e  cate g o rized into m e mory-ba s ed  algorithm an d model -ba s ed algo rithm  [1]. The CF has  been a pplie d  in many areas  su cce ssf ully, such as boo k site s, movie site s and some  e- comm er ce  si t e s [ 2 ] .  How e v e r,  t he CF  also  suf f e r s  f r om a lot  of  issu es,   su ch a s  c o ld s t art   probl em, data  sparsity and  scalability [3].  This pape a i ms  to solve the  data spa r sity  problem . Data  spa r si ty problem  will occu whe n  eithe r  few rating s are available fo r the a c ti ve user, o r  for th e target item  that predi cti o n   refers  to, for the entire us er-item  rating matrix  in  a v erage  [4]. The existin g  solution s of d a ta   spa r sity incl ude dime nsi onality redu ction te chni qu e [5], data  smoothi ng te chni que[6] a n d   asso ciative retrieval techn i que [7] etc.  Paper  [8] p r o posed a  novel goal -ba s e d  hybrid a ppro a ch   to overcome  the cold -st a rt p r oble m   in e-l ear ning  intern et. And it also h e l ps to i m pro v colla borative filtering usi n g   k-ne are s t nei ghbo r as  nei g hborhoo coll aborative filte r ing  (NCF) an d   conte n t-ba se d filtering a s  content -ba s ed coll abo rati ve filtering (CBCF ) . Pape r [9] propo se d a  so cial re com m ende r syste m  that follows use r s  pref eren ce s to provide re com m endatio n b a se d   on the  simila rity among  u s ers  parti cipa ting in t he  social  network. And the ap proa ch  whi c h  it  prop osed wa s ba sed o n  integratio n of major  cha r a c teristi cs  of co ntent-ba s e d  and collab o ra tive   filtering tech n i que s.   In this p ape r, cliqu e s-ba sed d a ta smo o thing a p p r o a ch  is  propo sed  to  solve  the data   sparsity probl em in  collaborative filtering. Firstl y, user  so cial net work a nd ite m  so cial n e two r are  built. An d then,  users and  item s a r divided i n to ma ny cli q u e re sp ective ly acco rding   to  social network  analysi s   (SNA). In  order to fill the mi ssi ng  ra tings,  data  smooth ing operation is  carrie d out  by usin g th ese  cliq ue s. Finally , the  traditional  use r -ba s e n eare s t nei gh bor  recomme ndat ion al gorith m   is u s e d  to  re commen d  item s fo r u s e r s. T he exp e rim e n t s indi cate  th at  this novel ap proa ch  can ef fectively improve  the reco mmend ation  accuracy an d  performan ce The rem a ind e r of this pap er is o r ga nize d as follo ws.  In sectio n 2, we give a bri e f survey   of the related  wo rk on  the  sol u tion of  d a ta s parsity i n  CF. S e ctio n 3 d e scribe s  the  propo sed  algorith m  in  detail. Sectio n 4  presents  the experi m e n tal re sults  a nd an alysis.  Finally, se ctio n 5  gives the con c lu sion.   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Cliqu e s-ba se d Data Sm oothing App r oa ch for Solvin g Data-S parsity in… (Yang Y u jie)  6325 2. Related  w o rk  Collaborative filtering recommends items to  u s e r s acco rdi ng t o  thei r p r efe r en ce s.   Therefore, a  history dat ab ase of u s e r s'  prefer en ce s must be avail able. Ho weve r, the databa se   is alway s  very spa r se. This lead s to the reduction of re comm end atio n accuracy and   perfo rman ce.  Data  sparsi ty is an  inev itable p r obl e m   with all ki nds  of CF  a l gorithm s. Data   spa r sity in clu des t w o a s p e cts. O n  the  one h and,  t he num be of use r  ratin g  is ve ry sm all  comp ared to the num ber  of items. On th e other h and,  the overlap p i ng num ber  of two user rating   is very fe w. There a r e m any re sea r ch ers who  h a ve  focu sed  on t he data  sp arsity pro b lem  and   prop osed so me solutio n s.   Dimen s io nalit y reductio n  tech niqu e, su ch as p r in cipl e comp one nt analysis (P CA) [10]  and  sing ular value de co mpositio n (S VD) [11], i s   comm only u s ed to alleviat e data  spa r sity.  Referen c e [5]  combi ned th e SVD and it em-b ased re comm end er i n  CF. It utilized the results of  SVD to fill th e missin g ratings an d then  used the  tra d itional item -based m e tho d  to recomm end.   This  combi n a t ion method  can in crea se  the accura cy of system. Referen c e [1 2] investigate d  a  hybrid re co m m endatio n method whi c wa s based  o n  two-stage  data pro c e s si ng-d ealin g wi th   conte n t features  de scribin g  items an d  handin g   user be havioral  data. This  hybrid meth o d   combi ned  ra ndom i ndexin g (RI) te ch ni que  and SV D to  pre p ro cess the  cont ent features.  The   experim ents  improve d  the  re comm end ation a c cu ra cy with out in cre a si ng th e  com putation a compl e x i t y Data sm oothi ng tech niqu e is the most u s ed me th od to solve the d a ta spa r sity p r oble m   in CF. Va rio u s   spa r sityme asu r e s  [13]  were u s e d  to  enha nce a c curacy  of CF . These  spa r sity  measures we re  com puted   based  on l o cal an d gl obal   simila rities.  T hen, a n  e s tim a ting p a ra met e r   scheme fo r weig hting the  various  spa r sity meas u r e s  wa s propo sed. The exp e rime ntal re sults  demon strated  that the p r o posed  estim a te pa ra m e te r outp e rfo r m  the  scheme s  for which t he  para m eter i s  kept con s tant  on accuracy  of predi ction rating s.  Refe rence  [14] pro posed a pa rtial  missi ng data  predi ction al g o rithm, in whi c h the  inform ation of both use r s a nd ite m s wa s take n   into acc o unt. In this  algorithm, s i milarit y  thre s h o l d  fo r  us er s  an d ite m s  wa s   se t r e sp ec tive ly, if   and o n ly if the interse c tion  of the nei gh bor  of us er  a nd the n e igh bor  of item is not empty, the   missi ng  data  will be  p r edi cted. An it erative pre d ictio n   method [1 5]  wa s p r op ose d  to alleviate   the  spa r sity probl em in CF.Thi s metho d  clu s ters t he u s e r  and item re spe c tively by using  spe c tral   clu s terin g  al g o rithm. Th en,  the iterative  predi ctio n  techniqu e is u s e d  to convert  u s er-item  sp arse  matrix to d e n s one  ba se d on  the expl icit rati n g s. M o reove r , clu s ter-ba sed   sm oothing   meth od   [16], suppo rt vector ma ch ine(SVM) [17 ], BP neural  netwo rks [18]  and ze ro-su m  reward a n d   puni shme nt  mech ani sm[1 9] are  also a pplied to  sm ooth the mi ssing  ratin g s f o r the  sol u tio n  of  data sp arsity in CF.   With the  d e velopme n t of  social  net work, so cial  net work a nalysi s   (SNA) [2 0] the o ry h a been   appli ed to  re comm en der syste m s. Referen c [2 1] pro p o s ed  to u s so cial  netwo rk to  so lve   data sparsity probl em in o ne-cla ss  CF.  It compa r ed so cial  net wo rks belon to spe c ific dom ains  and the o n e s  bel ong to  more  gene ri c domain s  in  terms  of their u s ability i n  one -cl a ss  CF  probl em s. Asso ciative  retri e val techniq u e  was ap p lie d to all e viate  the  spa r sity probl em i n   CF.  [22] gives a  social n e two r k rep r e s entati on for  CF re c o mmen der  sy st em s.  I t  sho w som e  of  t h advantag es and re sults  that  c an b e   obtaine d ap p l ying SNA.  Referen c e [2 3] gave a  b ook  recomme ndat ion ba sed o n  web  so cial  netwo rk. It analyzed the  probl em of trust in so cial   netwo rk  an d prop osed a  recom m en der syste m  mo d e l ba se d on  social  net work tru s t. Refe re nce   [24] pre s ent ed a fra m e w ork of  re co mmend atio n s  based on i n formatio n n e twork a naly s is.  Referen c e [2 5] propo se d a new weigh t ing me thod  in netwo rk-b ase d  re com m endatio n. This  method  pre s ents a  ne expre ssi on  of initial re so urce di stri butio n and  takes  into acco unt  the   influen ce of reso urce a s so ciated  with re ceiver n ode s.   In this pap er,  clique s-ba se d data smoot hing te chniq u e  is p r op ose d  to solve th e data  s p ars i ty problem in  CF. Firs t, the s i milarity of  use r  an d item is co mputed  re sp ectively and  the   use r  a nd ite m  so cial  net works a r e  b u ilt ba sed  t h e simil a rity.  Then, all  u s ers an d item s a r divided into   many cli que s acco rdin g to  SNA theo ry.  The mi ssing  ratings of testi ng u s e r s will  be  predi cted. T h i s  predi ction  will take i n to  account  both  user and item. The predi ction values f r om   use r  and ite m  are wei ght ed togethe r a s  the smo o thi ng value. Fin a lly, the traditional user-ba s e   nearest  neig hbor re co m m endatio n al gorithm i s   u s ed to  re co mmend ite m s for  user.  The  experim ents demon strat e  that the prop osed   algorithm  is effectively improvin g th e   recomme ndat ion accu ra cy.    Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  632 4 –  6331   6326 3. Cliques-b ased Data Smoothing Al gorithm   The a ppli c ati on of  so cial n e twork  analy s is t heo ry in recom m en der system s i s  b e comi n g   more  an d m o re i m po rtan t. The pote n t ial user  rel a tionship  ca n be  mine d  to re co mm end  informatio n o r  item s fo use r s.  The   most  co ntrib u tion of  this pap er is p e rform m ing   data   smoothi ng by  mean s of  cli que s of u s er  and item  tog e ther. Th e smoothing  rati ng matrix i s  u s ed   to the reco mmend ation. This  re com m endatio n alg o rithm  ca n i m prove  the  recomme ndat ion  perfo rman ce effectively.    3.1. Building Social Net w ork   A netwo rk is com p o s ed  of node an d the re latio n s a m on g n ode s. Formal ly, let us  con s id er a n e t work a s  a g r aph  G= (U ,E)  in  whi c U  re pre s ent s no d e s an E  re prese n ts lin ks. I n   this pa per, th e users o r  ite m s r epresent  the nod es  a nd, the simi l a rities  a m on g use r s or  item s   denote the rel a tions. We wi ll build the user so cial  n e twork a nd item  so cial net work re spe c tively.  In order to b u ild the  user  re lation n e two r k,  firstly,  we n eed com pute the  si milarity among   each pai r u s e r s.  A s sume t hat U= {u 1 ,u 2 ,...,u N } denote s  t he set of u s e r s,  P= {p 1 ,p 2 ,... ,p M }  for the  set   of items,  an d R  as  a n   M   matrix of  ratings r i,j , with  i  1,..., N, j  1,...,M . The r e  are  many   algorith m s to  dete r mine  t he  simila rity among  u s e r s:  Pearson ' s correl ation coefficient, co sine   simila rity, and adju s ted  cosin e  mea s u r e [26] a nd  so o n . In the  pape r, Pea r son' co rrelation   coeffici ent is  use d . So, the similarity bet wee n  user  u i  and u j  is  as  follows :     ,, 22 ,, [( ) * ( ) ] (, ) () * ( ) uu ij uu ij ip i j p j pP P ij ip i j p j pP P rr r r si m u u rr r r             ( 1 )     Whe r i r  and  j r corre s p ond to the averag e rating of u s er  u i  a nd   u j res p ec tively.  i u P  denote s   the item set of user u i rating.  j u P denote s  the item set of user u j rating. In prac tice, becaus e  the  amount of ite m s is ve ry large, use r s ma y only  rate few items. Th e  numbe r of o v erlappi ng item  among  u s ers  may be ve ry few. Thi s  l ead s to th e ina ccurate  simila rit y . For mo re  a c cura cy of th e   s i milarity, a parameter   wh ich  den otes the ove r lap p in g nu mbe r  of   rating  bet wee n  two  u s e r will be ad ded  to adjust. So, the impr ove d  formula i s  as  follows:    ' (, ) , (, ) 0, ij ij si m u u T sim u u T                ( 2 )     Whe r T  is a  threshold val ue. The large r  of the value T ,the more ac curac y  of the s i milarity.  The buil d ing  of item netwo rk i s  a s  sa me  as  the u s e r   netwo rk. T h e  differen c e i s  that the  similarity of item, rather than  the si milarity of user,   will be  computed. For the same  reason, a  para m eter    which denotes the  overla ppi ng num ber of  rating betwe en two items  will be  added  to adjust. So, the improve d  formula i s  as  follows:    ' (, ) , (, ) 0, ij ij s im p p T sim p p T                                                                        (3)    After comp uting the simil a rity, the similarity  value n eed s bina ry pro c e ssi ng in  orde r to  building th e social  netwo rk. Con s id erin the cliq ue s di vision (de s cri b ing n e xt section), the bin a r threshold  req u ire s  suita b le  in orde r to obtain app rop r i a te cliqu e s.     3.2. Cliques Div i sion  Acco rdi ng to  SNA theory, clique s are some  sub - structures  of the netwo rk. F r om the   view of soci a l  stru cture, cl ique fo cu se s att ention on  how  soli dari t y and co nne ction of  so ci al  netwo rk.  The  gen eral  defi n ition of a  cli que i s   simply  a  sub - set of  node whi c are  more  clo s ely   tied to each  other than th ey are to nodes  which ar e not part of the grou p. More a c curatel y , it  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Cliqu e s-ba se d Data Sm oothing App r oa ch for Solvin g Data-S parsity in… (Yang Y u jie)  6327 insi sts th at every mem ber  have a  dire ct  tie with  e a ch  and eve r y oth e r m e mbe r . In ou r a pproa ch,   the existing users and item s will be divi ded into many cliques respectively.  UCI NET is a  kind of net work an alysi s  softw are. I t  can make all kind s of netwo rk  analysi s su ch a s  net wo rk stru ctu r e,  centrali za tion  and so   on. We  m a ke cli que divisi on   by  mean s of UCI NET in this p aper.   Comp ared to  k-m ean s cl u s ter al go rithm [16], cliqu e  ha s many  advantag es.  On on hand, k-me a n s cl uste r divides the  simila r us ers into the same  clu s te r, howeve r   for  oneu se r,he/she is divid ed  only one  clu s ter. Intuit ively, each u s e r   may have ma ny intere sts a nd  they may join  a few  of com m unities. So,  the user  sh ou ld belo ng to  several  clu s ters. Cliq ue s ca avoid this ob stacl e . On  ot her  han d, k-mean s al gorit hm requi re s t he  k  less  n , whic h  k  d eno tes  the numb e r o f  cluste rs,  n  i s  the num be r of users. In fact, the clu s t e r num be r m a y be more than  that of the users.  Ho wever, c lique n u mb er can mo re t han u s e r s.  Fi nally, clique  can also prese n the user  rel a tion better.  It is not o n ly con s id eri ng the di re ct relation ship s, but al so  the  transmissio n relation shi p s.  Sowe clu s te r use r a nd items by usin g  cli que theo ry rather than  k- mean s clu s te r algo rithm.    3.3. Cliques-based  Data Smoothing   Becau s e  the  overla ppin g   numbe of ra ting items be tween  u s ers  is  small  or  n one, it   lead s t h e  a c c u ra cy  of   simil a rit y  is  v e ry  l o w.  I n   order t o  en han ce  th e a c curacy, it  is ne ce ssary  to  smooth the m i ssi ng ratin g  of user-item rating matrix.  In this pap er,  the predi ctive value of mi ssi ng  rating i s  from two a s pe cts: u s e r   cliqu e and item cliq ues. First, the clique’ s me mbers of  use r  and item are colle cted re spe c tively. Then,   the predictive rating  will be co m puted based on  user's  cliques and   item's cliques respectively.  Finally, the weighted value of the two predi ctive ra ting will be the  final predictiv e  value of the   missi ng ratin g . The weig hted formul a is  as follo ws:     () ( 1 ) ij mi s i j u p Sr S S                                                                  (4)    () i ku i ui k k j uC Sw r                                                                                     (5)    () j kp j pj k i k pC Sw r                                                                            (6)    Whe r e i u S is the   predi ctive val ue  whi c rel e vant to the   cliqu e s of u s er  u i C ui  rep r esents  the  cliqu e set  of  use r u i w ik  is  the simila rity betwe en u s er  u i and  u k . j p S den otes the p r edi ctive value  according to the clique s o f  item  p j .C pj repre s e n ts th e clique s set of item  p j . w jk is the similarity  betwe en item   p j and  p k is a  significan c weig hting factor.  S mis (r ij )  is  the final smo o thing value   of missin g  rat i ng r ij .     3.4. Prediction for Activ e  User   After the missing  rating are p r edi cted  in the use r -item matrix, we can reco mmend  items for th e active users. In this pape r, the traditional  use r -ba s ed  nearest n e ig hbo recomme ndat ion algo rithm is adopte d . For the active  use r  ui, the predi ctive value of item pj can   be com puted  as follo ws:     1 1 () (, ) M ik k j k ij M ik k wr pr e u p w                                                                                 (7)    Whe r M  is t he numb e r of  neighbo r of use r   u i . The p r edi ctive values are so rted  accordi ng to the  desce nding. The  Top N  items will be  sel e cted to the user  u i Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  632 4 –  6331   6328 The wh ole st ep of the pro posed ap pro a c h is a s  follo ws:   (1)  Comp utin g the simila ri ties amon use r and it ems respe c tively acco rdin g to the   use r-item  rati ng matrix, th en buil d ing  u s er rel a tion n e twork  and it em rel a tion n e twork  ba sed  on   thesesimilariti es.   (2)  Dividing al l users an d items into ma n y  clique s re sp ectively.  (3) Smo o thin g the missing  rating acco rd ing to use r  an d item clique s together.   (4) Finally, u s er-b ased  ne are s t nei ghb or  re comm en dation i s   use d  to p r e d ict it ems for  n e w  us er s .       4. Experimental Re sults   4.1. Data se The M o vieL ens ( h ttp://www.moviel en s.umn.ed u)   dataset is u s ed  in thi s   pape r. In  MovieLen s,  t here   a r 1 00, 000 rating s with  943 pe rso n s and 168 2 movies.  An d each  p e rson  had   rated  at lea s t 20 m o vies.  The u s e r  info rmation i n cl u des  age,  sex ,  and o c cup a t ion and  so o n The movie in clud es 1 9  types. The d ensi t y of  the use r -item matrix is 6.3%.  First, the  dat aset i s  divid e d  into two p a rts, 20%  of all   person s   are  selecte d  to b e   testing  set,  an the  remai n ing   a s   trainin g  set. For mea s u r in a c cura cy, we co ndu cte d   a 5-fold   cross   validation by  uniformly  cho o sin g  differe n t  traini ng a n d  test set s . In orde r to b e tter evaluate th e   perfo rman ce  of new  app ro ach,  we ta ke  the testi ng  u s ers from d a taset u n iforml y. That is, the   degree  of all  use r s is firstl y comp uted a nd  sorte d  by   orde r. Th en, t he te sting  set  is  sele cted  b y   equal inte rval s. So, the te sting set incl ude s all ki nd s of use r s. F o r the trainin g  set, first, the   simila rities a m ong ea ch  pair u s e r s a nd items  will  be com pute d  re spe c tively acco rdin to  Equation (1), (2) and (3 ).  In  order  to   im prove  th e a c cura cy, in the  experim ent, the pa ram e ter  T   will be  set a s  2 in E quatio n (2 and  5 i n  Equatio n (3 ). Each u s e r s and  items re pre s ent s n o d e s,   and simil a ritie s  form the rel a tions am ong  the use r  net work an d item netwo rk  re spe c tively.    4.2. Perform a nce Ev aluation  In order to  estimate  the  pe rform a n c e of the  p r o posed  app ro ach, th e p r e c isi on  of  predi ction i s  measured wit h  three different metrics.   Re call: The recall sco r e is the average  propo rtion o f  items from test set that appe ar  among   To pN  of the  ran k e d  list  from  th e trai ning  set [27]. Thi s   m easure   sho u ld be  a s   high  a s   possibl e for  good  pe rform ance. Assum e   N  is the  nu mber of item whi c are  i n  the te sting   set  and liked by  use r s,  n  i s  th e amou nt of items which the  testin g user likes  and  appe ars in th e   recomme nde d list. So, the  reca ll is computed as follows:    n Re c a l l N                                                                                              (8)    Preci s io n: Th e preci s io n i s  the p r op ortio n   of recomm ende d item s t hat the te stin g u s ers  actually liked  in the test  set [28]. This me asure  is also a s  high a s  po ssi ble for g ood   perfo rman ce.  The pre c i s io n is co mpute d  as follo ws:     n P r eci si o n To p N                                                                                    (9)    F-mea s u r e: It is al so kno w n as th F 1 m easure,  whi c h com b ine s  p r eci s io n an d recall int o   a singl e metric by taking t he ha rmoni mean of  the m [28]. So, th e F-me asure  is com puted  as  follows   1 (2 * * ) () R eca l l P r eci si o n F R ec a l l P r eci si o n          (10 )     4.3. Results and An aly s is  For building  the user and item social net work  respectively, first, utilizing  Pearson  correl ation  coefficient  algorithm, each pair us er's and each  pair item 's similarity will  be  comp uted. T hen, bi nary  al l simila ritie s  a r con s tructe d a s  follo w:  we  set  a relat i on threshold   R T   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Cliqu e s-ba se d Data Sm oothing App r oa ch for Solvin g Data-S parsity in… (Yang Y u jie)  6329 (it may be  different  as fo r u s er an d item  netwo rk),  si m ilarity value s   greate r  o r  e q ual than  are  set  1, that is, the  use r  pai r or item pair h a s li nk, othe rwi s e  0.  For conveni ence, we u s e TCF as the  traditional user-ba s ed nea re st neigh bo recomme ndat ion al gorith m  and  the  pro posed  algo rithm is exp r e s s a s   Cliqu e - CF.  Figu re  1,  Figure 2 an d  Figure  3 gi ves the com pari s on s of two alg o rithm s  in re call, p r eci s io n an d F- measure with   differe nt  Top N  valu es. In  t hese figu re s,  the nu mbe r  o f  neigh bor  M  is selected  as  100. Th e p a rameter   is  se t 0 . 5 . F r o m  F i gu r e   1 ,  we   c a n k n o w  th a t  the  r e c a ll va lu e o f  T C F  and  Cliqu e -CF i s   grad ually in creasi ng  with t he in crea sing  of  To pN .  Howeve r, the   perfo rman ce   of  Cliqu e -CF is  better than th e TCF. Th e recall of  C liqu e -CF is la rge r  than TCF  co nstantly. Furt her,   with the  in creasi ng  of  To pN , the  g ap i s  b e comin g  l a rge r . Fi gure  2  depi cts th e comp ari s o n  in   pre c isi on. T h e figure  sho w s that the  p r eci s io n valu e of b o th T C F an Clique -CF  is g r adu ally   d e c r e as w i th  th e inc r ea sin g  o f   Top N .  Ho weve r, th eperfo rma n ce of  Cliqu e -CF i s   better  than   TCF. The p r e c isi on of Cliq ue-CF is la rg er than T C alway s . But, it is different from Figu re 1, the   gap bet wee n  Cliqu e -CF an d TCF is b e coming smalle r with the increasi ng of  Top N           Figure 1. The  Compa r i s on  of Recall bet wee n   TCF an d Cliq ue-CF with  Di fferent  Top N   Figure 2. The  Compa r i s on  of Preci s ion  betwe en TCF  and Cliq ue-CF with Differe nt  TopN           Figure 3. The  Compa r i s on  of F-mea s u r e  bet wee n  TCF and Cliq ue -CF with  Different  TopN       Figure 3 de scrib e s th e ch angin g  of F-measur e abo ut Clique -CF  and T C F with  different   TopN . F r om t he figure, we  can  see th at the F-m e a s ure value of bot h Cliqu e -CF  and T C F is al so  grad ually increa sing  with  the increa sing of  TopN . As same Figure 1and  Figure 2, the   perfo rman ce   of Cliq ue-CF   is b e tter tha n  TCF.  Fr o m  t he a nalysi s we  ca see  that the  pro p o s ed  algorith m  is b e tter than the  traditional co llaborativ e filtering al gorith m  in recall, p r eci s io n and  F- Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  632 4 –  6331   6330 measure.In the above, we set the nu mber of  nei g hbor a s  a  so lid value. Figure 4 give s the   perfo rman ce  of  Cliqu e -CF with  different neigh bors  M .  And the   Top N is  set  100. From Figu re 4,   the perfo rma n ce i s  be comi ng better  with  the increasi n g of M . Furthe r, the perfo rm ance increa ses  fas t  when  is less than 5 0  and then it become s  sta b le with mo re   M Finally, in tim e  pe rform a n c e, the compu t ing  of si milarities bet wee n  each p a ir  users an each pai r u s ers, th e buil d ing of u s e r  relation n e two r and item  relation n e two r and  dividi ng  cliqu e s can b e  implemente d  in offline. So,  its  speed is almo st at the same level  comp ared wit h   the traditional  reco mmen d e r  system s.       Figure 4. The  Performa nce  of Clique s-b a se d Data  S m oothing Alg o rithm with  Di fferent Neig h bor  M       5. Conclusio n   This p ape prop oses  a cliqu e s-ba se d data sm oo thing algo rith m to solve the data   spa r sity probl em in coll abo rative filtering .  Firs t, the si milaritie s  of users a nd item s are com put ed  respe c tively and the u s e r   so cial net wo rk and item  social n e two r k can b e  built. Then, all u s ers  and item s a r e divided i n to many  cliqu e s a c cording  to so cial n e t work an alysi s  theo ry. Th missi ng  rating of the user-item rating m a trix w ill  be fi lled according to the predi ctive value from   use r  cli que and item cli q ues. Fin a lly, we p r op os e d   the tradition al  use r-b ased  nearest n e igh bor   recomme ndat ion alg o rith m. The  exp e rime ntal  re sults sho w  t hat the  pro posed  algo ri thm  perfo rms b e tter than the traditional  co lla borative filteri ng algo rithm.       Referen ces   [1]  Adomav icius  G,  T u zhilin A. T o w a rd th e ne xt ge ner ation  of recommen d e r s y stems: A  surve y  of th e   state-of-the-art  and p o ssib l e ext ensi ons.  IEEE Transactio n s on Kn ow le dge a nd D a ta  Engin eer ing.   200 5; 17(6): 73 4-74 9.  [2]  Linden G, Smit h B, York J.  A m a z o n  co mrec ommen datio ns : item-t o-ite m  c o lla bor ative  filt erin g . Re port   numb e r. 7(1): 200 3.  [3]  Grcar M, Mlad enic  D, F o rtun a B, Grobel nik  M.  Data Spar sity Issues in  the Co lla bor ati v e F ilterin g   F r amew ork . Ad vances i n  W e b  Minin g  and W eb Usa ge An al ysis.Ber lin, H e i del berg. 2 006:  58-7 6 .   [4] DanEr   Ch en.  T he  Col l a borativ e F ilter ing  R e c o mmen datio Algorit h m  Bas ed  on  BP N eur al  Netw orks.   Internatio na l Symp osi u m on I n telli ge nt Ubi q uit ous C o mp uti ng an d Ed ucat ion .Ch e n g Du.  2009: 2 34- 236.   [5]  Song Ji e Gon g , Hong W u  Ye, YaE Dai.  Combi n in g Sing ular Val ue D e compos ition a nd Item-b a se d   Reco mme n d e r  in  Col l a borati v e F ilteri ng.  Int e rnati ona l W o r kshop  on  Kn o w l e d g e  Disc o v e r y  a nd  Data   Minin g . MOscow .  2 009: 7 69-7 72.   [6]  Ron g  Hu, Yan s hen g Lu.  A Hybrid Us er a nd Item- base d  Coll abor ative F iltering  w i th Smo o thi ng  o n   Sparse  Dat a Procee din g o f  the Inter nati ona l C onfer en ce  o n  Artifici al  Re alit an T e lexiste n ce- W o rkshops.   Han g zho u . 200 6: 184-1 89.   [7]  Z an Hu an g, Hsinch un  Ch e n , Dan i el Z e n g . 200 4. App l yi ng Ass o ciati v e Retri e val  T e chniques  to   Allevi ate th e S parsit y  Pro b l e m in C o ll ab ora t ive F ilteri ng.  ACM T r ansacti on o n  Infor m at ion Syste m 200 4; 22(1): 11 6-14 2.  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Cliqu e s-ba se d Data Sm oothing App r oa ch for Solvin g Data-S parsity in… (Yang Y u jie)  6331 [8]  Muhamm ad W a seem  Ch ught ai, Ali S e l a mat, Imran Gha n i.   Goal-b ased  h y brid fi lterin g for  user-to-us er   perso nal ize d  recomme ndati o n.  Internatio na l  Journa l of El ectr ical a nd C o mputer E ngi n eeri ng.  20 13;   3(3): 329- 33 6.  [9]  Abeer El-K ora n y , Salm a MokhtarKh a tab.   Ontolog y -b as ed Soci al Re commen der S y stem.  IAES  Internatio na l Journ a l of Artificial Intel lig enc e.  2012; 3(1): 1 2 7 -13 8 [10]  Goldb e rg  K, R oed er T ,  Gupt a D, P e rkins   C. Eig entaste:  A C ons ta nt T i me C o l l ab orat ive F ilt erin g   Algorit hm.  Inform ation Retrieval . 200 1; 4(2): 133- 151.   [11]  Sar w ar BM, Ka r y p i s G, Konstan JA, Rie dl J.  Appl icatio n of  Di mens io nal ity Red u ction  in R e co mme nde r   System  - A Case Study.  ACM W ebKDD W o rkshop. Re port numb e r: 070 4- 018 8. 200 0.  [12]  Sz w a b e  A, C i e sielcz yk  M, J anas ie w i cz T .   Semantic ally  E nha nce d  C o ll a borativ e F ilter i ng B a sed  o n   RSVD.  Procee din g s of the T h ird Intern atio n a l Co nfer enc e on Com putati o nal C o ll ective Intelli ge nce.   Gd ynia. 20 11:  10-1 9 [13]  Anan d D, Bhar ad w a j KK. Utili zi ng Vari ous S parsit y  M easur es for Enhanc i ng Accurac y  of  Colla bor ative  Recomme nd er  S y stems Base d on Loc al an d  Global Simi lari ties.  Expert Systems w i th App licatio ns: An  Internatio na l Journ a l . 20 11; 3 8 (5): 510 1-5 1 0 9 [14]  Hao Ma, Kin g  I, Michael R L Effective Missing Data Pre d ic tion for Col l ab o r ative F ilteri n g .  Proceed in gs   of  the annual Internatio nal ACM SIGIR Conference on Resear ch and  Development  in Information  Retriev a l. Amsterdam. 20 07; 3 9 -46.   [15]  Abde l w a h a b  A ,  Seki ya  H, Matsuba  I, Hori uchi Y, K u roi w a S.  Co lla bora t ive F ilteri ng B a sed  on  a n   Iterative Pred i c tion Meth od  to Allevi ate th e Sparsity Pr obl e m . Procee din g s of the Internati o n a l   Confer ence  on  Information Int egrati on a nd  W eb-bas ed  Ap plicati ons & Se rvices. Kual a L u mpur. 20 09 ;   375- 379.   [16]  Guiron g Xue, Che n x i Li n,  Qiang Ya ng, W ensi Xi, P Hua Jun Z e n g , P Yong Yu, P Z heng Che n .   Scala b le Co lla borativ Filteri ng Us ing  Cl u s ter-base d  S m oothi ng .Proc e e d in gs of the   28th A nnu al   International ACM  SIGIR  Conference on Research  and  Develo pment in Informat ion Retrieval.   Salva dor. 20 05 ; 114-12 1.  [17]  Grcar M, Mlad enic  D,  F o rtun a B, Grobel nik  M.  Data Spar sity Issues in  the Co lla bor ati v e F ilterin g   F r amew ork.  Ad vances i n  W e b  Minin g  and W eb Usa ge An al ysis. Ch ica go. 200 6; 419 8: 58 -76.  [18] DanEr   Ch en.  T he  Col l a borativ e F ilter ing  R e c o mmen datio Algorit h m  Bas ed  on  BP N eur al  Netw orks Procee din g s o f  the Internati ona l S y mp osiu m on In te lli ge nt  Ubi quit ous Comp uting an Educ atio n .   Che ngd u. 200 9; 234-2 36.   [19]  Nan Li, Ch un p i ng Li.  Z e ro-S um R e w a rd a nd Pun i sh me n t  Collab o rativ e  F iltering Rec o mmen datio Algorit h m Pro c eed ings  of th e IEEE/WIC/A C M Internat i o n a l Co nfere n ce  on Web Inte lli genc e Ag ent   T e chnolog y. Mi lan. 20 09; 54 8- 551.   [20]  Han nema n  RA , Riddl e M. Introducti on to So cial N e t w ork M e thods. C a lifor nia: Un iversit y  of  Califor nia.   200 5: 17-4 1 [21]  Ka ya H, Alp a s lan F N Usi n g Socia l  Net w orks to Solve Data Sp ars i ty Proble m   i n  One-Cl ass  Coll ab orative  F iltering.   Proc eed ings  of t h e Sev enth  In ter natio nal   C o nferenc e on Information   T e chnolog y: N e w  G ener atio n s . Las Vegas. 201 0; 249- 252.   [22]  Perez LG, C h iclan a  F ,  Ahm adi S.  A  Soci al N e tw ork R epres entati on  for Col l a borati v e F ilteri n g   Recomm ender  System Inter natio nal Co nfe r ence on  Intel l i ge nt  S y stems  Desig n  a nd  Appl icatio ns.  Córd oba.  2 011 ; 438-44 3.  [23] Mingj ua Z hou Book Reco mme n d a tion B a s ed on W eb S o cial Netw ork . Internati o n a l C onfere n ce o n   Artificial Intel lig ence a nd Ed uc ation. Ha ngz ho u. 2010; 1 36-1 39.   [24]  Xu e Li,  Li ng  Che n Rec o mme n d a tions  b a sed  on  Netw ork Ana l ysis . I n ternati o n a l C onfere n ce  on   Advanc ed C o mputer Scie nc e and Inform ati on S y stem. Jakarta. 2011; 9- 16.   [25]  Chu n   Xi ao  Jia,  Ru n R a n  Li u,  Duo  Sun,  Bin g   H o ng  Wa ng . A N e w  W e ig h t i n g  Me tho d  i n  Ne tw ork-ba sed  Recomme nd ati on.  Physica A: Statistical Mec han ics an d its Appl icatio ns . 2 008; 38 7(2 3 ): 5887- 589 1.   [26]  Herlock e r JL, Konstan JA, Borchers A, Riedl J.  An  Algorith m ic  F r amew ork fo r Performi ng   Coll ab orative  Filtering .  Proceedings of t he 22nd  Annual International  ACM SIGIR Conference on  Rese arch an Devel opm ent i n  Information  Retriev a l. Berk ele y . 19 99; 23 0-23 7.  [27]  Francois F, Alain P, Jean-Michel R, Marco  S. Random- W alk Computation  of Similarities bet w een  Nod e s of a   Graph  w i t h  A pplic atio to Coll ab orative  Recomme nd ati on.  IEEE Transactions on  Kn o w l e dg e  and  D a ta  En gi nee ri ng . 200 7; 19 (3): 355-3 69.   [28]  Can e  W L , Stephe n CC, Ch ung F .  An Empirica l St ud y of a Cross-le vel Associ atio n Rul e  Mini ng   Appro a ch to C o ld-Start Rec o mmend ations.  Know led ge-B a sed Syste m s . 200 8; 21(7): 51 5-52 9.         Evaluation Warning : The document was created with Spire.PDF for Python.