TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol. 12, No. 8, August 201 4, pp. 6393 ~ 6402   DOI: 10.115 9 1 /telkomni ka. v 12i8.525 7          6393     Re cei v ed  No vem ber 3 0 , 2013; Re vi sed  April 16, 201 4; Acce pted  May 5, 201 4   Time-Weighted Uncertain Nearest Neighbor  Collaborative Filtering Algorithm      Zheng Zhi-G ao* 1 , Wang P i ng 1,2 , Sun Sheng-Li 1   1 School of Softw a r e a nd Micr oel ectronics, P e kin g  Univ ersit y ,   Beiji ng 1 0 0 260 , China   2 Nation al Eng i neer ing R e se a r ch Center for  Soft w a re Eng i n eeri ng, Peki ng  Univers i t y   Beiji ng 1 0 0 871 , China   *Corres p o ndi n g  author, e-ma i l : zhengz hi gao @pku.e du.cn       A b st r a ct     T o  overco me  the li mitati ons  of the traditi on al  col l a borativ e  filtering  r e co mme n d a tion al gorith m ,   this pa per pr o pose d  a T i me -W eighte d  Un certain N ear e s t Neigh bor C o lla bor ative F i l t ering Al gor ith m   (TWUNCF). Ac cordi ng to t he actual a ppl icati on sit uati on of reco mme ndati on system, the  author w e ight e d   the pro duct si mi larity a nd us er simil a rity to ensur e the d a ta vali dity firstly, and the n  calc u l ate the si milar i ties   of user a nd pr oduct a nd ch o o se t he truste d  nei ghb or gro u p  as the re c o mme n d ed o b j e ct ada ptively  bas ed   on th e w e ig ht.  Experi m ental  r e sults s how  th at the  alg o rith m c an  be  use d  to i m pr ove  dat a val i d i ty accor d in to the time attri bute, an d ba la nc e the i m pact  the differe nt gr oups  on  the r e commen datio n  result, and  av oid  the prob le ms w h ich ca use d  by  the  data sp ars eness. T h e o ret i cal a nalys is an d exper i m e n tal  de monstrati o n s   show  that th alg o rith m th is  pap er  prop ose d  o u tperfo rm e x i s ti ng  al go ri th m s  in  re comm en da ti o n  qu al i t y,  and i m prove th e system's acc u racy an d reco mme n d a tion ef ficiency.      Ke y w ords :  c o l l ab orative  filter ing, ti me w e i g ht, uncert a in  n e ig hbors,  trustw orthy subset,  reco mmend ati o n   system         Copy right  ©  2014 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion  With the  d e v elopment  a nd p opul ari z ation  of  e-commerce,  m any researchers  and  schola r s h a ve made the  relevant re sea r ch  on t he re comm end atio n efficien cy and accu ra cy of  recomme ndat ion syste m  in ord e r to mi ning pote n tial  custo m ers g r eatly . Many schola r hav prop osed a  variety of recommen d a tion algo ri thm, among  which coll aborative filterin g   recomme ndat ion algo rithm  is the mo st wi dely use d .   Curre n tly the resea r ch, based on  colla bo rative filtering ,  is mainly divided into two  kind s:   use r -ba s ed  collabo rative filtering a nd p r odu ct-ba s e d   colla borative filtering. Eithe r  the u s e r  or t he  prod uct, there is individu a l  variation, which  re sults i n  the re com m endatio n di fferences. In  the  use r -ba s ed  recom m en dati on, the tra d i t ional u s er -b ase d  collab o r ative filterin g algo rithm  or   prod uct - ba se d one  ha s so me limitation s , due to  th inherent diffe ren c e s  am on g users an d t h e   uncertainty of scenarios predi ct ion  and the vari abilit y of production predi ction, mainly in t h followin g  thre e area s: (1 Many sch o lars u s ually  use  the  k NN  [1-3]   method   to recomme nd an   objec t for the target. Sinc e the  k NN method   choo se k  nea re st  neigh bo th roug h a ce rtain  simila rity co mpari s o n , it can  pre s e n t the ch ara c te ristics of the  predi cted ta rget to a cert ain  extent. Howe ver,  k  i s  a  common  argu ment an d u s ually  do n o t have the p a rticularity, whi c make s it may  be not availa ble in certai scena rio s . Fo r exampl e, an  extreme  ca se that wh en t h e   numbe of th e obj ect’ s n e i ghbo r i s   sma ller tha n   k , the  k NN m e th ods will  re co mmend  seve ral  individual s which is q u ite  different from t he object  as the object’s nei ghb or, makin g  the   recomme ndat ion un relia ble .  (2)  Cu rre nt recom m en dati on alg o rithm  often only re commen d  for  certai singl e  gro up  of u s e r s or produ ct s, ign o ri n g  th e impa ct fo r t he oth e grou ps [3 -6]. Sin c e   we neith er h a ve deeply u nderstan ding  in the reco mmend ed in dividual dime nsio n tru s two r thy   sub s et befo r e  we re comm end, nor  stud y its in fluence on re comm endatio n re su lt, the quality  of   recomme ndat ion to some e x tent can’t meet the  need s of people in every asp e ct.  (3) Tradition al  recomme ndat ion algo rithm doe s not con s ide r  the fact  that the valu e of the data decrea s e s  wi th   time when  m a ke  de ci sion s. Treatin different  dat a  du ring  differe nt  perio ds affe cts the  a c curacy  and fea s ibility of recom m en dation to som e  extent.    Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  639 3 –  6402   6394 In order to  sol v e the th ree  i s sue s  a bove,  this  pap er,  u s ing  the i dea   of dynami c   selectio n,  on the  ba sis of the exi s ting resea r ch,  ada ptiv ely choo se  re com m ende d o b je ct’s trust w o r thy   sub s et in  different di men s ions  und er di fferent scen a r ios  and  req u irem ents  as recomme nd ed   can d idate  set ,  and p r opo se a Time  We ighted  Un cert ain Neigh borhood  Coll abo ration Filte r in g,   TWUNCF. Th is algo rithm,  by using  use s  logi stic  m e thod s to wei g h time for score s, distin gu ish  score s  i n  diff erent  pe riod s and  fully con s ide r  the   fact   that the valu e  of  data  de creases over time   to ensu r e th e validity of the data ag ai nst time. As  to the data with sa me time attribute,  it is  cal c ulate d  ba sed o n  the si milarity of users a nd p r od ucts, in the  meantime it determi ne s which  trust w orthy  subset of re co mmend ed target as  th e re comm end ed  can d idate  set  and sele cts t he  neigh bor  of p r edi cted ta rg et adaptively. Experime n ts  sho w  that th is alg o rithm,  Time Weight ed   Un certai Ne ighbo rho od Collabo ration Filtering, ca n  effectively balan ce the i m pact of diff erent  grou ps on  re comm end atio n, ha s g ood  p e rform a n c e i n  solvin g sco r e data  sparse ness  pro b lem s and ta ke s int o  a c count  th e imp a ct  of t he di minishin g value  of ti me o n  the  recom m en dati o n   result. As a result, the p r o posed alg o rit h m in this p a per imp r ove s   the quality of recomme ndat ion  and ha s go o d  stability to some  extent. This pa pe r is organi ze d as follo ws: S e ction 2  de scribe related  wo rk and defin es the issue s  to be solv ed  in this pa per; Section 3  details the Ti me   Weig hted Un certai n Neigh borh ood   Coll aboration  Filt ering  algo rith m; Section  desi g n s  multi p le   experim ents  to validate the prop osed a l gorithm  an d make s a sim p le analysi s ; finally make  summ ary .       2. Relev a nt Work a nd Problem Defini tion   2.1. Relev a nt Work   Currently, data sparseness  [7],  cold  start [8]  and scalability [9] are  com m on i n   recomme ndat ion system.  To solve the s e thre e is su es, many re searche r s hav e made a lot  of  resea r ch, hop ing to improv e them by a n e w algo rithm.  For example,  Seung-T a e k  Park  cre a ted a  new  sea r ch model MAD6  [10] by combining  collab o rative filterin g algorith m  with search e n g ine   tools, and ap plied it to Yahoo! [4]; Tomoharu us ed  maximum ent ropy pri n cipl e  to predict th ose  prod uct s   con s ume r s inte re sted  ba sed  o n  collabo rativ e  filtering  alg o rithm [5], a n d  it turn ed  ou t to   be a su cce s s wh en ap pli ed to E-co m m erce sy ste m ; Chen [2] etc. applie d dual collab o rative   filtering algo ri thm to search for pro d u c ts that  target  use r s m a y be intere sted i n , which usi n colla borative filtering meth ods a gain in  the firs t re sult set for a se con d  re co mmend ation;  Gu  prop osed a  time weig h t ed re comm endatio n alg o rithm, taki n g  time prop erties [ 11] i n to  con s id eratio n  pro perly in   t he process  of re comm en dation;  Huan g brought  ou t an un ce rtai n   nearest  n e ig hbor re com m endatio a l gorithm whi c h comp re h ensively con s ide r ed different   grou ps  of users  and p r o d u cts, b a lan c i ng the  u s er  grou p an d the pro d u c t group [12]; Ch en   improve d  resource  asse ssment de nsity  throug h th e  e s tabli s hme n of k  nea re st  neigh bor an d  its  impact  set, and he defin e d  a new  re commen dation  mech anism to calculate the sco r e of the   predi ction [1 3], which all e viated the  data spa r sen e ss p r oble m  effectively and imp r oved  the   quality of the recomme ndat ion; Liu u s ed  Beta distrib u tion to predict t he simil a rity of use r ba se d   on tru s tworth y grou p, imp r oving th e re comm end ed  re sult to a  certain  extent [14]; Jamali,  in  orde r to  imp r ove the  qualit y of re com m endatio n, ma de a  de ep  di gging  in th e t r ust  rel a tion ship   betwe en u s e r s, foun d the  deep u s e r   simila rity  and  made a  re commen dation  by some  da ta   mining meth o d s [15], and finally improve d  t he re comm endatio n efficiency of the system.    2.2. Problem Definition   Traditio nal collabo rative filtering alg o ri thm finds k  neigh bors who influen ce  curren t   individual m o st thro ugh th e inne r indivi dual inte ra ction bet wee n  the u s er  grou p and th e p r o duct   grou to pre d ict curre n i ndividual pro perty.  Bu t wi th the in crea sing  u s of recom m en dati o n   system a nd  the increa sin g  com p lexity of  the environm ent, this method of  intercepting  neigh bors tu rns to  be  pa rtial. This on e-side dne ss  i s   mainly ma nifested  in t w asp e ct s. On e  is  that con s ide r i ng se parately the impact o f  a par ticula grou p and ig norin g the im pact of anoth e grou whi c itself is un re aso nabl e. Th e othe r o ne i s  that  wh en t he d a ta of in dividual s in t h e   grou p is  spa r se, the num b e r of neigh bo rs in the  clu s ter may be le ss than the val ue of  k  in  k NN ,   the ba sic  re commen dation  algo rithm if  simply  recom m end based on  u s e r s or p r odu cts.  In  th is  ca se, users o r  pro d u c ts  with low  simila rity have to  be adde d into th e trainin g  set,  thus lea d ing  to  a sha r p de cli ne in the accuracy of the  algorithm . And its re sult is often inaccurate or ev en  wro ng.   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Tim e -Weig hted Un ce rtain  Nea r e s t Neig hbor  Colla bor ative Filteri n g  Algorithm  (ZHENG Z h i-g a o 6395 For  exampl e, the m e thod s cu rrently u s e d  to  pr ed ic ho w   muc h   a  pe r s o n  lik es an  ite m  is  User  Based Colla borative Filteri ng, UB CF and   Item Based  Collab o rative  Filte r i ng,  IBCF.  T h ough   these  metho d s  to  som e  ext ent are  cap a b le of  re com m endin g , the  con s trai nts  of reality ma ke   its   ac cur a cy  f a more t h a n  sat i sf act o ry .  For  inst an ce,   when a user is int e rested in an item while few  peopl e did a nd mad e  little evaluation,  the ac cu ra cy of recom m endatio n ba sed on  UBCF  is  relatively low.  Due to the compl e xity of the r eality,  we nee ds to  con s id er every aspect of the  use r s an d th e produ cts  a daptively sel e cts in u s e r   grou p a nd p r odu ct group,  but not  sim p ly  con s id er on e  aspe ct and i gnore the oth e rs  whe n  ma king a recom m endatio n.  Acco rdi ng to the   need s of  actu al situatio n, we ca n dyn a mi cally  sele ct th e nea re st nei ghbo r a nd th e neig hbo rho o d   factor, pi ck n e ighb ors p r o perly o u t of u s er g r ou ps  a nd p r od uct  group s a nd al so re co mmen d  fo the curre n t object.   Even the  nu mber of th use r  i n  the  u s er  cl u s ter or the  numb e of the  pro d u c t in the   prod uct  clu s ter satisfie s the lowe st valu e of k in  kNN,  time incon s i s tency may also exist. Since  a  use r ’s i n tere st may chang e  with time, the score t hat a use r  give s to the sam e  p r oje c t may vary  with time to o .  Ho wever, t r aditional  algo rithm tre a ts  a  user’ s   score s  e qually in  f i nding  a u s e r ’s   nearest n e ig hbor witho u t taking th variation  with  time of the  use r s  interest into a c co unt,  resulting in th e cal c ulate d  may not be the neig hbo grou p the u s er re ally interests. Th e poi nt is  the accuracy  of the kNN al gorithm de pe nds on  h o much the  sel e cted nei ghb ors m a tch wit h  the  target  use r s,  whi c h i s   one  of the i m po rtant re aso n why the  a c cu racy  of tra d itional  algo rith sho u ld  be im proved.  For  example, a  u s er A  wa s int e re sted i n  a c tion movie s   durin g a  cert ain  perio d of the  past  and  scored  highly  on such film s while  anot her  user B i s  inte re sted i n  it  curre n tly  and score s  highly on  the sam e   f ilms.  Acco rd i ng to the  cal c ulation p r in ci ple of  simila rity,  the two u s ers sh ould  be  each othe r’s  neigh bors. But in fact, it’s obviou s ly  unre a sona ble  to  recomme nd  based o n  two  use r s’ intere sts in  differe n t   time. Firs t of all, the c u rrent interes t  of A  may not be a s  same a s  B’ s. Seco ndly, influen ced by   so cial po pula r ity, what A like s  at that time   may not  be f a vored  by B  cu rrently. Usually,  sea r ching th simi larity amo ng  the sco r e s  th at   different u s e r s give t o  the  same  item  wi thin the  sam e  or si milar p e riod  of time  can  en su re t h e   effectiveness of  the  selected neighbor. T able 1 illust rates it with an example.       Table 1. Simple Example   User  Project  I 1   I 2   I 3   I 4   I 5   I 6   u 1 (T 1 )   4 3  4 3  u 2 (T 4 )   3 4  2 3  u 3 (T 1 )   3 4  4 3  u 4 (T2 )   4 3  2 4      Table  sho w s the  sco r e s  that 4 u s e r s g i ve to 6 p r oje c ts i n  3  peri o ds  whe r e  T1  and T 2   are si milar p e r iod of time, T1 and T4 a r far away fro m  each oth e r.   Acco rdi ng to the assumpti on above,  u 2 u 3  and  u 4  constitute the nearest nei gh bor set of   u 1  when re comm end with 3 neigh bor u s ers  by the traditional colla b o rative filtering  recomme ndat ion alg o ri thm, and  the  similarity satisfies th e conditio n     12 1 3 1 4 ,, , s i m uu s i m u u s i m uu  . However, a c cordi ng to th e data given i n  Table  1, the time  gap is l a rg e b e twee n the time wh en u s e r   u 1  and  use r   u 2  each sco r es the  sam e  proje c ts. A s  the   analyses  abo ve, it is un rea s on able to  predict the  interest of u s e r   u 1  based  on th e sco r e d a ta  of   use r   u 2  in a certai n peri o d of the last and give a re conm end atio n to  u 1 If  tak i ng the time into   con s id eratio n ,  only  u 3  and  u 4  is the neig hbor of  u 1 , whic h is  more c o ns is tent wit h  the fac t.      3. Time-Wei ghted  Unc e r t ain Ne ares Neighbo r Co llaborativ e F iltering Algo rithm  3.1. Time-We ighted Near e s t Neig hbor   Without limit s to the pe rio d  of time  wh en se le cting t he k nei ghbo rs  of the u s e r  or the   item, it is e a sy to ta ke  outdated  d a ta as  neig hbors i n to consi deration  (Li k e m a ke  a   recomme ndat ion ba sed on  the thing that a user inte re sted 20 yea r s ago), whi c h t u rn s out to be   unsatisfa ctory. In the traditional  colla borative f iltering alg o rithm ,  not disting u i shin g the d a t a’s  time effec t iveness ,  to  s o me extent, affec t s  the ac curacy of th e re sult. Ta king  the influe nce t hat  Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  639 3 –  6402   6396 the time h a on the  targ et  grou com p rehen sively  a nd mo difying  the simil a rity  by wei ghing  the  time can avo i d the low a c curacy of the  reco mmen d a tion re sult caused by time inco nsi s ten c effec t ively.  As a re sult, this pa pe r pro poses a Ti m e  Weig hted  Selected  Nei ghbo r metho d . Before   sele cting the  neigh bors, time-wei g h s a nd modify the sco re s with  log i stic   function. In this pap er,   it use s  the P earson  Co rre l ation Metho d  to cal c ulat the simila rity. Firstly, wei g h the sco r e s   o f   different use r s an d different peri o d s  of time with  lo gistic  function, replace  , uc r  with   , , uc uc r l o g istic r , ma k i ng  ea ch  sc or e   h a s  its  time   w e ight. Sin c e  th e la te s t   s c o r e re p r es en ts   a   use r ’s inte re st most, the  current  weig ht sh ould  be  la rge r  tha n  the  last  one  an d the  sco r e s  of   different time sho u ld be di stinguished.   Here is  the  log i stic  f unc tion.    , , 1 () 1 uj uj t logistic t e            ( 1 )      Among  the m , 11 t   , , 0( ) 1 uj l o gi stic t , () uj l o gi stic t is a  monotoni c i n cre a si ng   function, the weig ht increa se s with time  t increa sing,  and the value is alway s  within (0,1). Th is  pape r firstly converts th e range  of time to [-1,1]  by using  a sta nda rdiz ed conve r sion  m e thod. By  doing thi s , the weig ht’s variation with tim e  is al mo st lin ear, an d the  cha nge of u s er’s i n tere st can  be dete c ted i n tuitively   [16].  The most important step in collaborative filter ing alg o rithm is the formation of the  target   use r ’s  neig h b o rs.  He re it u s e s  the ne arest nei ghbo whi c h is  used  in the co mp uting of Pearson   correl ation. The Pearso n relevant simila ri ty based o n  time-weighte d  of the use r s is:    ,, , , ,, , , 22 (( ) ) ( ( ) ) (, ) (( ) ) ( ( ) ) ac ac a b c b c b U ac ac b c b c UU i UU U U U U cI ab UU U U cI cI l ogi s t i c l ogi s t i c l ogi s t i c l ogi s t i c rt r r t r si m U U rt r t          (2)     In the above formula,  (, ) ab sim U U  is the simila rity betwe en the target u s e r   a U an d its  nearest  neig h bor  b U U I  p r es en ts  th e pr o j ec s e t th a t  b o t u s er   a U  an b U  scor e s ,  the sc ore   use r   a U  gives t o  proje c t c i s  , the ea ch a v erage  sco r e  that user  a U  an d  us er   b U  give to a  proje c t i s   a U r and b U r . Assuming  that  a U  is the  ta rget  user,  we  ca n p r e d ict t he  score  that   a U   giv e s wit h  t h e  sco re b U  gives to any item () U j jI Here is  the formula:     , 1 , 1 [( , ) ( ) ] [( , ) ] ac a b n ab U U i uj U n ab i s im U U r r Pr sim U U           ( 3 )     Here it  calcul ates th e si milarity by time -weig h ted Pe a r so Correl ation Fu nctio n and the   simila rity calculation of the  use r s a nd th e one of  the  proje c ts i s  ca rrie d  out at the sam e  time. It  predi cts  the value  that  a  use r  score s  other pr oj ect s , an d then  take s th ose items  whi c h  d on’t   belon g to  U I  into the re com m endatio n se t in descen d i ng mod e . And finally sele ct the prope proje c t from t he re comm en dation set to make a  re co mmend ation.     3.2. Impro v e d  Similarit y   Computing  The simila rity  amo ng users  i s  wei ghed  with  th e   scores th at different u s e r s giv e  to th e   same  p r oje c t s  o r  th sam e  items. If th numbe of  th e same  proje c ts  or item s t he u s e r score is  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Tim e -Weig hted Un ce rtain  Nea r e s t Neig hbor  Colla bor ative Filteri n g  Algorithm  (ZHENG Z h i-g a o 6397 so  sm all tha t  it is  una bl e to m eet t he mi nimum  num ber of  neigh bor,  the  accu ra cy of  its  recomme ndat ion re sult wi ll decrea s e.  In orde r to avoid this  occa sion al influen ce, so me   resea r chers  alrea d y do some re se arch on it. Herlo c ker et c. improves the  si milarity cal c ul ation  with an in cre a se d wei ght of the releva nce; Ma  et c. points o u t its spe c ific settings in d o cum ent   [17] . And this  pape control s  it by  setting  a threshold.  Suppo sing  th at  ' ab I UU  presents t h e   items that b o t h use r   a U and use r   b U  have  scored,  we a d d  the p r op ort i on of differe nt use r s   score in the  same or  simila r time perio d to improve the  similarity am ong u s ers.     mi n ( | ' | , ) '( , ) ( , ) ab a b I s im U U s i m U U         ( 4 )     Among them   is the thresh old, and a c co rding to it s de finition its ma ximum value i s  the  numbe r of th e proj ect s  th at the use r both sco r e s . So mi n ( | ' | , ) 1 I , and the range of the   improve d  use r  simil a rity  '( , ) ab sim U U  is still [0,1]. When the n u m ber of the  sa me proje c ts t he  use r sco r e i s  large r  than  its thre shol d,  '( , ) ( , ) ab a b si m U U s im U U . In  th e  s a me w a y, w hen  the num ber o f  the sam e  p r oject s  the  users sco r i s   small, the si mil a rity amon g u s ers  sh ould  b e   decrea s e d  to improve its in fluence on th e recomme nd ation accu ra cy.    3.3. Uncer tai n  Near est  Ne ighbor Trus tw o r thy  Subset  Curre n tly the  use r -ba s ed  o r  p r od uct-ba sed  co llab o rative filtering  al gorithm  is co mmon i n   recomme ndat ion  system.  Howeve r d ue t o  the va riabili ty of the user’ s  d e man d s o n  the q uality  of  recomme ndat ion and th e reality, the recommen dation  always tu rn s out to be un able to me et the   use r ’s  need s if only using  one metho d s  espe cially  whe n  the dat a is sparse n e ss. That ho w to  con s id er several facto r comprehe nsiv ely and how to  weigh them  automatically  is what we n eed   to solve. Aiming at the ch ara c teri stic of  a  reco mme ndation  syste m  makin g  de cisi on with th nearest nei gh bors.  This p ape r o p timize s the  sele ction of recom m en dati on set, an d weig hs b e tween the   use r  an d the  prod uct a dap tively to avoid too mu ch hu man involve m ent whi c result s in redu ced   flexibility of re co mm endation system.   In docume n t [12], it propo se s a m e thod  to we ig h the  use r s  simil a rity and the  p r odu ct’ s   by setting two simila rity threshold   and  , and dynami c ally sel e ct th e pro per  neig hbor  of the  recomme ndat ion target in use r ’s g r ou p and produ ct ’s group b e fore  sele cting its neigh bors. Th i s   method, to some extent, can ove r com e  t he sh ort c oming of tra d itional alg o rithm  k NN  a nd  dynamically sele ct the neighb or, but it needs 2  thre shol ds to  weigh it. Howeve r, setting a   threshold  ha s som e  influe n c e o n  nei ghb or  sele cting,   and its calcul ation is rel e vantly com p le x. If  the threshol d is set too  big, the num ber of  recommendation  group  will decrease and the  recomme ndat ion will lack of generality; if  the thresh old is set too  small, it is easy to bring i n   neigh bor with  low simil a rity  whi c h  affect s the a c curacy  of the  re com m endatio n. T herefo r e, i n  t he  absen ce of p r ior  kno w led g e , this meth o d  is  still  not  well eno ugh to  sele ct the u s er’s neig hbo r.  In   orde r to ove r co me the  shortcomin g in docum e n t [12], this paper  brin gs  in a Ha rmo n ic  para m eters to balan ce the  user-b ased  method an d the pro d u c t-b a se d method.   Here, we n o te the gro u p  of the predicte d  sco r e that use r   a U  to item  j I  as  12 ' '( ) { , , , } m aa a a SU U U U , and note th e size of the  grou p a s |' ( ) | ' a SU m . The item gro up  that  use r   a U  has scored in the  neighbo r of item j I  is noted as 12 ' () { , , , } n jj j j SI I I I , and  |( ) | ' j SI n . The  co mput ing p r o c e dure of  ' m  an ' n  is  relatively e a sy so  that it  can b e   done   off-line. Thi s   pape r int r od u c e s  n e igh bor facto r  and   1  as the  bal an ce fa cto r  of  the u s e r   grou p a nd th at of the  item  group  sepa rately, and  ad justs the val u e of the  nei g hbor fa ctor  with   harm oni c parameters.   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  639 3 –  6402   6398 ' '' 0 '' 0 0. 5 m mn mn m mn mn     其他   ' '' 0 '' 0 1 0. 5 n mn mn n mn mn      其他     Among them,    is the harm onic p a ra met e r. In the followin g , we take   for exampl e to   analyze h o  adj ust s  th e nei ghb or f a ctor.  When '' 0 mn  ha s th e f o llowin g  fo ur  possibl e values:   Whe n   '0 m  as well as '0 n , it means m a ki ng  recomme ndat ions  by item-based   colla borative filtering meth od. In this  ca se,  0 , the value of   has  nothing to do with the  value of .   Whe n ' ' n m , 10 . 5  . In this ca se, it means h a lf of th e recomme n dation se t   half come s from item-ba s e d  recomme nd ation set an d half use r -ba s ed re comm en dation set.   Whe n ' (, ) ' n m   is an  increa sing f unctio n , and  its ran ge is  (0.5,1).  1  is an  decrea s in g f unctio n , its  range  is  (0,0. 5 ). It mea n s that with th e in cre a si ng  value of  , the  proje c ts in  re comm end atio n set come from the  u s er gro up m o re. An extrem ca se i s   '0 n   and  1 , which  mean s the m e thod is u s e r -bas ed collab o rative filterin g method.    Whe n ' [0 , ) ' n m  is an  decrea s ing f unctio n , and  its rang e is (0,0.5). It means the   recomme ndat ion set grad ually tends t o  the item grou p. Whe n   0 , it means making  recomme ndat ion with item-based collab o rative filterin g method.   In ord e r to b a l ance the  imp a ct of  user group  and  item  grou p o n  diff erent  dime nsi on, this  pape r intro d u ce s a h a rmonic  para m eters   to  automatical ly adjust th e so urce o f   recomme ndat ion  set, avoid  the lo quali t y from reco mmendi ng  by sin g le  gro u p .  The im proved   method in thi s  pa per  re du ce s the u s e r s  interve n tion  to the algo rit h m by re du ci ng the n u mb er  and the difficulty of the thresh old s  the u s er n eed s to assign to. Co mpared to the threshold s  i n   document [1 2], the on in this pa pe r is mo re  consi s tent  wit h  u s er ha bits, redu cing   the  compl e xity of the  use r   op eration.  In d o c ume n t [12],   and    is  se nsitive to the  selectio n of   neigh bors, re sulting in big  influence o n  reco mmen d a tion re sult, while this p a per introdu ce s a  harm oni c p a rameters to  co ntrol the  thre shol d, re du ci ng the  sen s itivity of neighb or  sele ction  a nd  ensurin g the  accuracy  of recom m en dati on result.  In the othe r ha nd, the th reshold’ s setting  in   this pa pe r is  relatively ea sy, and the  be st thre sh old  can be  obtai n ed after multi p le test s, whi c h   also e n surin g  the algorithm ’s accu ra cy and red u ci ng h u man’ s interv ention.     3.4. Time-We ighted Uncer tain Ne ares Neighbo r Co llaborativ e F iltering Algo rithm  Acco rdi ng to  the an alysi s  above, thi s   pape fully consi ders th time attribute  of the  score, a nd  weigh s  the u s er-ba s ed  sco r e an d the it em-b ased on e ba sed o n  that. It takes i n to  accou n t man y  aspect s , an d prop oses a  Time Weight ed Un ce rtain Neig hbo rho o d  Collab o rati on  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Tim e -Weig hted Un ce rtain  Nea r e s t Neig hbor  Colla bor ative Filteri n g  Algorithm  (ZHENG Z h i-g a o 6399 Filtering al go rithm(T W UNCF) to p r e d ict the  use r ’s  score. If the average  score  of use r   , ax UU   on produ cts i s  repres ente d  se parately by  , ax R R  and the  averag e sco r e of a kno w n  use r  o n   prod uct s   , jy I I   is repre s e n ted separately  by  , jy R R , then th e T W UNCF  propo sed in  this  pap er  can b e  rep r e s ented by the formul a belo w   , , () () , () ( ) '( , ) ( , ) '( , ) ( , ) () ( 1 ) ( ) '( , ) '( , ) yj xa xa yj jy a y y ax x j x IS I US U aj a j ax j y US U I S I s im I I R R sim U U R R RR R sim U U sim I I         Based  on un certai n scen e s , the algo rithm TWUNCF  firstly bring s   in a time variable by   log i stic  function, wei gh time again s t the similarit y   between th e use r  gro up and the item grou p to  disting u ish the time effe ctivene ss  of the sim ila rit y  and secon d ly on this  basi s   con s id ers  comp re hen si vely the similarity of the user a nd t he item, controls the neigh bo r factor of different  grou ps by  ha rmoni c fu ncti on in dire ctly  and th en  co n s ide r s the  im pact  of the  u s er a nd th e it em,  and ultimatel y  produ ce the  reco mmen d e d  result set.   T h e r e f o r e ,  the r e   a r e   2  s t ep s .  Ste p  1 ,   se le c t  th e  tr us tw o r th s u b s et o f  th e  r e c o mme n ded  target; step  2, make a  recom m en dati on ba sed  on  the sele cte d  re comm en dation set a n d   produce the final result. The  descri p tion  of the algorithm  is illustrated in Figure 1.          Figure 1. TWUNCF Algo rithm      In TWUNCF  algorithm, the firs t thing to  do is  to  dete r mine the  score matrix of u s ers and   items. Thi s  could b e  do ne  off line to sav e  time compl e xity of the algorithm. And   it is  22 () Os t  in  the wo rst ca se. Since bot |' ( ) | ' a SU m and  |( ) | ' j SI n  are consta nt, the time com p lexi ty o f   comp uting th e neigh bo r sand the trust w orthy  sub s et is (' ' ) ( 1 ) Om n m n O  . In the  bes t   condition, the time com p lexity is  (1) O , effectively avoiding the calculat ing proble m   cau s e d  by  data  spa r sen e ss a n d  dat a a c cumul a tion. And  com pare d  to  the  DS N al go rithm p r op osed  in   document [1 2], the algo ri thm paramet er in thi s   pa per i s  le ss,  whi c redu ce s the im pa ct of  human o p e r a t ion on neig h bor sele ction  and ma ke s it more  con c i s e  and und ersta ndabl e.   TW UN CF Alg o rithm   Input: the target use r   a U , the  item waited to be scored  j I , harm oni parameters    Output: the score  , aj R  that the predi cted u s e r   a U  gives  to the item  j I   Step 1 Separately calculat e the use r  si milarity ma tri x  and the item similarity m a trix base d  o n   the score m a trix () Rs t , and save  the two matri x  separately  ) ( _ , A r r UsrSim s s  and  _ , A rr Ite m Sim t t Step 2 Weigh time with logis t ic  func tion;   Step 3 Determine the validity of the time;  Step 4 Calcul ate  |' ( ) | ' a SU m  and  |( ) | ' j SI n  based on the u s e r ’s  sco re a nd  the item’s  score, an d ca lculate the tru s two r thy sub s et of  '( ) j SI Step 5 Determine a prope r harm oni c pa ramete Step 6 Calcul ate the value of  Step 7 Calcul ate the predi cted score  , aj R  that user  a U  should  give to item  j I Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  639 3 –  6402   6400 4. Simulation and Analy s is  In the following, we testify the effectivenes s and a ccura cy of TWUNCF alg o rit h m with  simulatio n and explo r in g descri be the adapta b ili ty  to  differen t  size of data by using the  prop osed T W UNCF alg o rit h m again s t to that by using  k NN method  to verify  the prop osed ide a   of dynamic  sele cted n e ighbo r is correct. Mea n while, we try to analyze t hat wheth e r the  harm oni c parameters’ setting ca n lead  to a better recom m en ded  result from t he trust w o r th sub s et. The s e are the two  asp e ct s to be  verified in this se ction.   Similar to th e test  meth ods of oth e r re comm end ation al gorith m , this p a p e r u s e s   MovieLen s d a taset provid ed by Grou pl ens to sim u la te. MovieLen s data s et co n t ains 10 records.  943 u s e r score o n  16 82  movies fo r five levels in tot a l and th e ra nge of the  score i s  1 ~ 5. 1  point  pre s ent s “p o o r”, 5 is  “pe r f e ct” a nd oth e rs m ean s m i ddle value.  They pre s e n t use r  intere st  in   film in varying degree s. The hardw are  environ ment of the experi m ent  is Intel (R) Co re (TM )  i5- 2520 0 2.5G Hz  qua d-co re 64 -bit CP U an d 4 G B of memo ry, the software environme n t i s   Wind ows 7  64bit ope rati ng sy stem (profe ssi onal ) and all the  cod e s a r e i m pleme n ted  with   Java(64bit JDK) and Matla b201 2.  The de nsity o f  the score m a trix  of the user an d the ite m  is  100 00 0 1. 6 3 % 94 3 1 68 2 , which  mean the matrix is  a spa r se mat r ix. We divide  the 943  u s ers from d a taset into 3 grou ps to test; ea ch   sep a rately ha s 100 u s e r s,  200 u s er s, 3 00 users. We  sele ct 70%  sampl e  data  from the wh o l e   dataset as th e train set, th e other 30%  as the test se t to compare and verify.    4.1. Compari s on of Dy na mic Selection Method   In the exp e ri ments,  we  n eed to  sepa rately  verify the meth od t o  sele ct tru s tworthy  sub s et an d the one to re comm end. Fi rst of all, we  compa r e the  DSN metho d  – a metho d  to  sele ct tru s tworthy su bset  - with the kNN met hod to  test whethe r the prop ose d  DSN meth od   coul d succe s sfully pick o u t  the relativel y  good  n e igh bor o b je cts,  and p r ep are  for the follo wi ng   recomme ndin g . We  set  k as th e ab scissa an co mpare the  p e rform a n c o f  the 2 different  method s i n  d i fferent n e igh bors, a nd it rang i s   1,2,4,8,10…6 0 Measure it b y  the MAE(M e a n   Absolute Erro r). The results are  sho w e d  in Figure s  2-4.          Figure 2. Co mpari s o n  of kNN Meth od a nd  DSN Meth od  (100 Use r s)  Figure 3. Co mpari s o n  of kNN Meth od a nd  DSN Meth od  (200 Use r s)      Figure 4. Co mpari s o n  of kNN Meth od a nd DSN M e th od (30 0 Use r s)  0. 7 0. 75 0. 8 0. 85 0. 9 0. 95 12345 678 1 0 2 0 3 0 4 0 6 0 MAE K 100u_kN N 100u_DSN 0 0. 2 0. 4 0. 6 0. 8 1 1 234 567 8 1 0 2 0 3 0 4 0 6 0 MAE K 200u_kN N 200u_DSn 0 0. 2 0. 4 0. 6 0. 8 1 1. 2 1 2 3 4 5 6 7 8 10 20 30 40 60 MAE K 300u_kN N 300u_DSn Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Tim e -Weig hted Un ce rtain  Nea r e s t Neig hbor  Colla bor ative Filteri n g  Algorithm  (ZHENG Z h i-g a o 6401 At first, comp are the  experi m ental re sult s ho ri zontally. We can  see,  when th e nu mber  of   use r  is 1 00,   kN N ha s b e s t  result s wh e n  k 7. Howe ver DSN  ha s a better re sult in the sa me   condition than kNN, and when k takes othe r val ues,  DSN i s  still able to achi eve bet ter  perfo rman ce.  Compa r in g the situatio n of 200 user s to that of 300 use r s, the  DSN ha s bet ter  perfo rman ce  than the kNN  unde r the sa me con d ition s .   Secon d ly, co mpare the  re sults of e a ch  grou lo ngitu dinally. It’s o b vious that th e big g e r   the train  set i s , the m o re f a vorabl e findi ng the  targ et user’ s  trust w orthy  su bse t  and m a ki ng  a  recomme ndat ion i s . Th rou gh the  an alysis an com pari s on,  we   can  find th at DS N h a s b e tte stability and a c cura cy than  kNN un der th e same  con d i t ions.   The experi m ent sho w s t he DSN me thod pr o p o s ed in this paper i s  of positive  signifi can c e f o r improving  the method  for deter min i ng the trust  subg rou p . Therefo r e, in the   followin g  ex perim ents,  we sel e ct the  target  o b je ct’s trust w ort h y sub s et  with DSN  wh en  recommending for UBCF and IBCF.    4.2. Compa r ativ e Experiments  bet w een  the  Tra d itional Rec o mmendatio n  Algori t hm  and  the T W UNCF  Algorithm  in this Paper  The expe rim ent com p a r e s  the traditio nal co llabo ra tive filtering algorith m  UB CF an d   IBCF  to  the TWUNCF alg o rithm pro p o s ed   in  th i s  p a per. T he a b scissa  indi cate s the  num ber of   the predi cted  target item’s  neigh bor, an d   the ordinate  use s  MAE as the metric.         Figure 5. Co mpari s o n  of IBCF UB CF and  TW UN CF ( 1 0 0 U s er s )   Figure 6. Co mpari s o n  of IBCF, UBCF a nd  TW UN CF ( 2 0 0 U s er s )           Figure 7. Co mpari s o n  of IBCF,  UBCF a nd TW U NCF  (300 U s e r s )       Comp ari ng a nd  a nalyzi ng the  three experime n ts abo ve,  we ca fi nd  that TWUNCF  can   obtain s  the smaller valu of MAE than IBCF and  UB CF un de r the  same  co nditi ons  and it ha relatively  bett e r re comm en dation wh en comp ari ng  ea ch  experi m en t hori z ontally.  Com p a r ing t he  three expe ri ments verti c a lly, it  is obvious that the q uality of  reco mmend ation i n crea se s wit h  the   0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1 1 02 0 3 04 05 0 6 07 08 09 0 1 0 0 MAE Users 100u_TB U N C F 100u_UB C F 100u_IB C F 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1 1 02 03 0 4 05 06 0 7 08 09 0 1 0 0 MAE Users 200u_TB U N C F 200u_UB C f 200u_IB C F 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1 1 02 03 0 4 05 06 07 08 09 0 1 0 0 MAE Users 300u_TB U N C F 300u_UB C F 300u_IB C F Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 8, August 2014:  639 3 –  6402   6402 increa sing  n u mbe r  of the tru s twort h y su b s et. Analyzing al the  expe riments abov e   comp re hen si v e ly ,  we c a n  com e  t o  a n   con c lu si o n  th at TWUNCF  has better p e rform a n c e t hat  UBCF a nd IBCF und er the  same  con d itions.       5. Conclusio n   Against th prod uct - ba se d an d u s e r-b ase d   p r eju d i c e s  in th e traditional  coll aborative   filtering algo rithm and the  characte ri stic of ti me-dat a validity, this pap er pro posed a Tim e   Weig hted  Un certai n Neig hborhoo d Co llaboration  Fi ltering Algo ri thm (T WUNCF). T W UNCF  effectively sol v es the p r obl em of time-d ata validity  with logis t ic  time func tion. On this   bas i s, it   prop oses an  idea  of un certain  neig h b o rs,  and   dyn a mically  sel e cts th e tru s t w orthy  neig h bors   with both a  u s er-b ased m e thod an d a  prod uct - ba se d method, av oiding the  un certai n a c curacy  of recomme ndation u n d e r differe nt occasi on s cau s ed by  simply usi ng pro d u c t-based   recomme ndat ion o r   use r -b ase d  recom m endatio n. B o th the  expe rimental  an d  the the o retical  analysi s  h a ve proved th prop osed  alg o rithm T W UNCF  ha better a c cu ra cy and  stability tha n   the traditional  algorithm TB CF and IBCF.      Referen ces   [1]  Jele nc, Davi d. Decisi on mak i ng matters:  A  better  w a y to  evalu a te trust models.  Kn o w ledge-B a se d   System s . 20 13 ; 52: 147-1 6 4   [2]  Che n  MC, Ch en LS, Hsu F H , et al. HPRS: A profitabili t y  bas ed rec o mmend er s y st em. Martin   Hela nd er, Min  Xi e, Rog e r Jia o , et al. Proce edi ng of  the IE EE Internatio n a l Co nfere n ce  on Ind u strial   Engi neer in g a nd En gin eer in g Man agem en t. Singap ore,  IEEE Engin e e r ing Ma na gem ent Soci et y   Sing apor e Ch a p ter. 2007( 12):  219-2 2 3   [3]  Abeer  Moh a m ed El-k ora n y ,   Salma M o khta r Khata b . Onto log y - base d  S o cial  Recomm e nder  S y stem.  IAES International Jour nal of Artificial In telligence (IJ-AI).  2012; 1(3): 1 27- 138.   [4]  Park ST , Pennock DM.  Apply i ng co ll abor ativ e filterin g tech niq ues to  mov i e searc h  for b e tter ranki n g   and br ow sing.   Proceed in gs of the 13th A C M SIGKDD In ternatio na l Confer ence  o n  Kno w l e dg e   Discover y   and  Data Min i ng. K DD 20 07, San  Jose, Ca l i forni a , USA. ACM,  Ne w  York 2 0 0 7 : 834– 84 3.  [5]  T o moharu I,  Kazumi  S, T a keshi  Y.  Modeling user behavior  in  re c o mm ender syst em based on  max i mu m e n t r opy .   Procee di n g s of the 16th  Internation a C onfer ence  on  W o rld W i de W eb. Nige l  T .   Banff, Alberta, Canada, World Scientific  Publishing Co.Pte .Ltd. 2007: 1281- 1282  [6] Papp ag eorg e Charl o tte.  Rec o mmen ded ve rificatio n  appr o a ch for hu ma n  rated systems based o n   lessons learned on the  orion launc h abor t system . 2 1 st Annu al Int e rn ation a l S y m p o s ium of th e   Internatio na l C ounc il on S y ste m Engin eeri n g. 2011; 1: 1-1 3 [7]  Kakla u skas,  A. Recomme nde d b i ometri c stress man agem ent s y st em.  Expert System wit h   Appl icatio ns . 2 011; 38( 11): 14 011- 140 25.   [8]  Massa P, Ave s ani P. T r ust-aw a r e co lla bor a t ive filterin g for  recommen der  s y stems . Lect u re Notes  in  Co mp uter Scie nce.  200 4; 329 0: 492-5 08.   [9]  Vincent SZ,  Boi Faltings.  Using  hi erarc h ical c l usteri n g  for lear ni n g  the o n tolo g i es use d  i n   reco mme ndati on systems.  Procee din g s o f  the 13th ACM S IGKDD  Internatio na l Confer ence o n   Kno w l e d ge D i s c over y   an d Dat a  Mini ng. San  Jo se, Cal i forni a , United State s . 2007: 59 9-6 08.   [10]  Muhamm ad W a seem  Ch ug htai, Al i Bi n S e l a mat, Imr an Gh ani. Go al- base d  h y b r id  filter in g for  user-to- user P e rson al i z ed  Recomm e ndati on.  Inter n ation a l J our nal  of El ectrical   and  Co mputer  Eng i n eeri n g   (IJECE).  2013;  3(3): 329-3 36.   [11]  GU Yi-ran,  C H EN Mi n. On e T ag T i me-w e i g h ted  Rec o mmen d  Ap pr oach  on  T r ipartite Grap hs  Net w orks.  Co mp uter Scie nc e.  2012; 3 9 (8): 96-9 8 ,12 9 [12] HUANG  Ch ua ng-Gua ng,  YIN Jian, W A N G  Jing, et al.  Uncerta i n N e ig hbors  Co lla bo rative F ilteri n g   Recomme nd ati on Alg o rithm.  Chin ese Jo urn a l of Co mp uter s.   2010; 33(8):  1369- 13 77.   [13]  CHEN Ji an, YIN Jian. A C o ll a borativ e F ilteri ng Rec o mme n datio n Alg o rith m Based o n  In fluenc e Sets.  Journ a l of Softw a r e. 20 07; 18 (7): 1685- 16 94 [14]  Liu  X, D a tta  A, Rzadca K,  Lim EP.  Ste r eo T r ust: A Group b a se per-so nal i z e d   trust mo del.   Procee din g of the  18th  ACM  c onfer enc e o n  In-formatio n   a nd K n o w l e dg Mana geme n t.  Hon g  K ong,   Chin a. 20 09: 7 - 16.  [15]  Jamali M, Est e r M,  T r ust Walker.  A ran d o m  w a lk  mo del  for combin in g  trust-based  a nd ite m -b ase d   reco mme ndati on.  Proc eed in gs of th e 1 5 th  ACM SIGKD D  Intern ation a l  Conf erenc e o n  Kn o w l e d g e   Discover y   and  Data Min i ng. P a ris, F r ance. 2 009: 39 7-4 06.   [16]  LOU Jun-g a n g ,  SHEN Qing,  SHEN Z han g - guo. Ke r nel  Methods  of Soft w a r e  Re li abi lit y  Pr edicti on.   Co mp uter Scie nce . 201 2; 39( 4): 145-1 48.   [17]  Ma H, Ki ng  I, L y u MR.  Effective  miss in g d a ta pr edicti on f o r  coll ab orative  fi lterin g.  Proce e din g s of th e   30th Annual International ACM  SIGIR Conference. Amsterdam,  the Netherland s. 2007: 39-46.   Evaluation Warning : The document was created with Spire.PDF for Python.