Indonesian Journal of  Electrical  Engineer ing and  Computer Science   V o l. 10 , No . 3, Jun e   20 18 , pp . 10 30 ~ 1 035  ISSN: 2502-4752,  DOI: 10.115 91/ijeecs .v10.i 3.pp1030-1035          1 030     Jo urn a l  h o me pa ge : http://iaescore.c om/jo urnals/index.php/ijeecs  Fusion of Random Projection, Multi-resolution Features and  Distan ce Wei g hted K Nearest Nei g hbor f o r Mass es  Det e ction   in Mammographic Images        Viet Dun g  N g uyen 1 ,  Minh Dong  Le 2   1 Department of Biomedical  Eng i neering ,   Hano i Un ivers i t y  of  S c ienc and T echn o log y , Vi etn a m    2 Department of Computer  Scien ce,  C honnam National University, South Kor e     Article Info    A B STRAC Article histo r y:  Received  Ja n 11, 2018  Rev i sed   Mar  19 , 20 18  Accepted  Mar 30, 2018      Breast can cer   is  the top cancer  in women bot h in the develo ped and the  develop i ng world. For  early detection of the dise ase, ma mmogra phy is stil l   the most effective method b e side ultrasoun d  and magnetic  resonance  imaging.   Computer A i ded D e tection systems h a ve been  deve l oped t o  ai d   radiolog ists in  diag nosing  b r east cancer. D i ffe rent meth ods w e re  proposed t o  ov ercome the mai n  draw back of  producin g large  number of   False Po sitiv e s.   In this paper, we presen ted a novel method for masses  detection  in mammogra m s. To descri be masses, multi-resolution featur es  were ut ili zed . In  featur e ex tra c tio n s t ep,  we  cal cul a ted  m u lti-res o lu tion Blo c k   Differenc e Inve rs e P r obabili t y  featur es  and  m u lti-res o lut i o n  s t atis ti ca featur es. Once the descriptor s we re extracted, we deplo y ed random  projection  and distance wei ght ed  K Neares t Ne igh bor to c l as s i f y   th e de tec t ed   ma sse s.  The  re sult is quite  sa nguine  with  sensit i v it y,  false  positi ve redu ctio n   and time for  carr y ing  out the algo rithm    K eyw ords :   Distance weighted K nea r est  nei g hb o r   Ma mm o g r aphy  Mass detection  Mu lti-reso l u tion  featu r es  R a nd om  pro j ec t i o n   Copyright ©  201 8 Institut e  o f   Ad vanced  Engin eer ing and S c i e nce.  All rights re se rve d Co rresp ond i ng  Autho r V i et  Du ng  Ngu y en ,   Depa rt m e nt  of  El ect roni c  Tec h n o l o gy  a n d  B i om edi cal  Engi neeri n g ,     Hano Un i v ersi ty o f   Scien ce an d Tech no log y   No  1 .   Dai Co   Viet Str. Han o i , Vietnam .   Em a il: d u n g . ng u y en v i et1@hu st.ed u .vn       1.   INTRODUCTION  B r east  cancer   is the most c o mmon cancer in women  wo rldwide, with nearly 1.7 mill ion new  cases diagnosed  in 201 2 [ 1 ]. Ab no rmal tissue sc reen ing usin g X-r a y mammogr aphy is curre ntly the   most effective method o f  early detection o f  the di sease [2-3]. T h e introduction  of di gital mammography   gave the o p p o rtunity  of  in creasing the num ber  of c o mmercial Computer  Aide d Detection ( C AD systems, which has significantly e nhanced the radiolog ists’ ability  to detect and diagnose cancer and  take immediat e precautions  for its earliest  prevention [4]. One  problem with  C A syste m s  is  due  to a  large number of false positive  (FP) marks when hi gh sensitivity  is required [5]. Too many fals e   positives may confuse the radiologist of the most  common types  of  cancer among wome n all over the  world is breast cancer. Grea t effort  has be en devoted in  recent years  to  the development  of CAD which  pro pose a lot  of features to   red u ce   false   positives  [6]. However, many feat ures are not ke y features of  masses and they make high di mensions f o r classificatio n.   In this  pape r we introduce novel method   using mome nt  and basic characteris tic of the masses.  B l ock Difference Inverse Probability ( B DIP )  and basic f eatures  are c a lcul at ed in different  multi-  resolutions. O n ce the features are  extracted, random p r ojection [7] a nd k nearest neighb or (k N N ) [8]  with  distance   weighting are used to classif y  the suspici ous areas into real mass or no rmal  parenchyma.   Evaluation Warning : The document was created with Spire.PDF for Python.
In d onesi a n  J  E l ec En g &  C o m p  Sci    ISS N :  2 5 0 2 - 47 52       Fu sion  o f   Rand om Pro j ection ,  Mu lti-Reso l u tio Fea t u r es a n d  Distan ce…  (Viet  Dun g  Ng u y en 1 031 2.   PROP OSE D  METHO D    2. 1.   D a t a b a se   In t h i s  st u d y ,  we use m a m m og ram  dat a base M i ni - M I AS [9]  t o  t e st  t h m e t hod p r ese n t e d. M I A S  i s   t h e p ubl i c  dat a base o f  M a m m og ra phi c Im age Anal y s i s  S o c i et y  - an or ga ni zat i on o f  U n i t e d Ki ng d o m  research   gr o ups . T h i s  d a t a base i n cl u d e s 3 22 m a m m og ram s  from  161  pat i e nt s.  Fi l m t a ken f r om  t h e U n i t e Ki ng d o m   National B r eas t Screeni ng  Program  have been di gitized  to 50-m i cron pixel edge and  prese n ted  each pixe l   w ith  an   8 - b it w o r d . Ev er y imag e in  d a tabase alw a ys h a s ex tr a in for m atio n  or  gr ound  tr u t h  as show n  in    Fi gu re  fr om  the ra di ol o g i s t s  abo u t  c h aract e r i s t i c  of  bac k gr ou n d  t i ssue ,  t y pe  of a b no rm ali t y  present ,  sev e ri t y   of a b no rm al ity , t h e co or di n a t e s of ce nt er  and a p pr o x i m at e radi us (i n pi xel s of a  ci rcl e  encl osi ng t h e   abn o r m a li t y M i ni -M IA S da t a base i s  a red u ced t y pe  of  th e orig in al MIAS d a tab a se (d ig itized  at 5 0 -m icro pi xel  e dge ha s bee n   red u ce d t o  2 0 0 -m i c ron  pi xel  ed ge  an d cl i p ped/ p a dde d s o  e v e r y  im age has s i ze of    10 2 4  x 10 2 4  pi xel s .           Fi gu re  1.  R e d l i ne s h o w g r o u n d  t r ut h i n  M I NI -M I A dat a base       2.2. Prepr o ces sing  The aim of the step is to re move  unnecessa ry in fo rm at i on i n   m a m m ogram s such as l a bel ,  pect ora l   m u scle o r  o t h e r no ise. To  separate th e breast reg i on   fro m  i m ag e lab e l, we j u st th res h old  the im age and  keep  t h e bi ggest  t h r e sh ol regi on .  The  pect o r al   m u scl e   in a ma mm ographi c im age appea r s as a  predominant  den s i t y  regi o n .  It  can  af fect  negat i vel y  t h e resul t   of  det ect i on m e t hod  [1 0] . F o r t h i s  reas on , t h regi o n   represe n ting t h e pectoral m u s c le shou ld  be e l iminated. In t h e m a mmogra m there are al so s o m e  s m all  bri ght  sp o t w h ich  h a v e  gray lev e l ap pro x i m a te  th at o f  circu m scrib e d  m a ss. Med i an  filterin g   w ith  a w i nd ow  of 3x3  is app lied  for eli m in atin g  t h ese spo t s as illu strated  i n  Fi g u re  2 .               Fi gu re  2.  O r i g i n al  (l eft )  a n d  p r ep roce ssed  ( r i ght ) m a m m ogram     2. 3. M a ss dete cti o n   In  t h i s  st a g e,  s u spi c i ous  re gi o n s a r e e x t r act e d   fr om  t h e pre p r o cesse d m a m m ogram . Th e ra di ol o g i s t s   sh ou l d  fo cu s t h eir atten tio n  t o  th ese  ext r acted re gions. T h e steps of this  pr oce d u r e are f u l l y  descri be i n  [1 1] Sho w n  i n   Detected  ROIs are  mask ed  are m a sk ed  as t r u e  positiv e ROIs (TP-ROIs) or  false po sitiv e R O Is (FP- ROIs)  as  illu st rated   in  Figu re 3  b a sed  o n   th e p r ov id ed  g r o und   tru t h.  Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 502 -47 52  I ndo n e sian  J Elec Eng  & Com p  Sci, V o l. 10 No 3 ,  Jun e   2 018  :   10 30     1 035  1 032           Fi gu re  3.  Det e ct ed R O Is  (g re en)  an gr o u n d  t r ut h ( r e d )       2. 4.   Fe ature  e x tr acti on   In  h u m a n vi si o n , e d ges a nd  v a l l e y s  [12]  i n  a n  i m age are ve ry  im port a nt  fe at ures,  especi a l l y  val l e y s   are fun d a m e n t al in  th e v i sion   p e rcep tion   of an   o b j ect   shap e [13 - 14 ].  B l o c k  Differen ce  In v e rse Pro b ab ility  (BDIP) is th tex t u r e feat u r e wh ich  m easu r es th v a ria tio n  in in ten s ities of an  im ag e b l o c k .   It effect iv ely  extracts edges  and  valleys. The large r  the variations of in t e nsi t y  or t h e si ze of t h e bl ock ,  t h e hi g h er t h e  val u e   of  B D I P   [1 5] B D IP  o f  a  bl oc of  si ze  Wx W  i s  de fi ne d as:     2 (, ) (, ) (, ) 1 ma x ( , ) ( , )              ma x ( , ) ij B ij B ij B Ii j I i j W BD I P Ii j        where I(i,j) denotes the inten s ity of  a pixel  (i,j) in the blo c k B.   As th e d e tected  ROI is no t in  size o f  WxW   so  we  sub titu te th e ter m  “W 2”in  ab ov e equ a tio n  b y  size  o r   nu m b er of  p i x e ls i n  th ROI t o  calcu late th e BDIP  featu r e at  first  reso lu tion ,  wh i c h  th en  is  ju st  si m p l y   called BDIP.  Other B D IP feat ures  at di ffe rent reso l u tio n are calcu lated  as fo llo w:   a.   Divide  each si de  of the m i nim a rectangular that c o ntains  the RO I by  2, 3...n  to get 4, 9... n 2  bl oc ks.   b.   For  eac bl oc usi n g a b ove  eq uat i o n  t o   c a l c ul at e B D I P  feat u r es  w h i c h a r e cal l e d B D IP 2 x 2  a n d   BD I P 3x 3... BD I P nx n.    c.   Expectation a n d va riation  of BDIPs a r e  use d   as  BDIP  features  for each RoI. They a r e   BD I P 2x 2 m ean , BDI P 2 x2var ,  B D IP3x3mean , BDI P 3 x3v ar,...BDI Pn xn m ean , B D I P nx nv ar   respectively.  On the  ot her  hand,  we  compute basics fe at ures of each ROI:   a.   Mean: the  av er a g e  grey  level   b.   Var: the standard devi ation o f   grey  level   c.   Max: the high est grey  level   d.   Min: the lowest grey  level   Ho we ver  hi g h  or l o w i n t e ns i t y  val u es i s  n o t  abs o l u t e , i n put  i m ages oft e n ha ve   di f f e r ent   bri ght ness W e   pr o pose  t w o e x t r a feat u r es  f o ens u ri n g  t h pe rsuasi ve  of  o u r  al go ri t h m   a.   Ratio_1: Mean/Max    b.   Ratio_2: Max/ Max_I    where Max_ I is the highest  gray level of the whole image.   Mu lti-reso l u tion   b a sic feat u r es are calcu lated  in th sam e   man n e r as m u lti-reso l u tio n B D IP feat u r e.    2. 5.   R a n d om  Projec ti o n   In  m a th e m atic s and  statistics, rando m  p r oj ectio n  is a tech n i q u e  u s ed  t o  red u c e th d i m e n s ion a lity o f   a set  of  poi nt s whi c h l i e  i n  Eucl i d ea n spac e. R a n dom  pro j ect i on m e t h o d s  are p o w er ful   m e t hods  kn o w f o r   t h ei r sim p l i c i t y  and l e ss erro neo u s o u t p ut  com p ared wi t h   ot he m e t hods .  Accor d i n g t o  expe ri m e nt al  r e sul t s ,   random   projec tion pres erve distances  we l l ,   but  em pi ri cal  r e sul t s  are  s p ar se [ 15] .  I n   ran dom   p r o j ect i o n, t h e   ori g i n al   D- di m e nsi o nal   dat a  i s  p r o j ect ed  t o  a  L-  di m e nsi ona l  (L <<  D ) .     Evaluation Warning : The document was created with Spire.PDF for Python.
In d onesi a n  J  E l ec En g &  C o m p  Sci    ISS N :  2 5 0 2 - 47 52       Fu sion  o f   Rand om Pro j ection ,  Mu lti-Reso l u tio Fea t u r es a n d  Distan ce…  (Viet  Dun g  Ng u y en 1 033 LxN L x D DxN XR X        where X LxD , X DxN  den o te output and inp u t matrix and R LxD   is a rand om   projection  matrix.  The ra nd om   mat r i x  R  can be  gene rat e d usi ng a Ga ussi a n  di st ri but i o n.  Achl i o pt as [ 1 5 ]  has sho w n   t h at   t h e Gau ssi an di st ri b u t i o n can be repl ace d by   m u ch  si m p l e di st ri but i on suc h   as:     , 1   w i t h  probabi l i t y  1/ 6 3 0       w i th pr ob a b il ity  2/3 1   w i t h  probabi l i t y  1/ 6 ij R     2. 6.   K Neares t Nei g hbor   Let T = {(x i , y i ): i=1:N} denote the traini ng set w h ere  x i  is the training  vecto r  in m -dim e nsional  feature  space a n d y i  is th corr espon d i n g  class lab e l.   Giv e n un kno w x’ , class y’  is assigned   b y  two  steps  a.   First, a set of  k labelled target neighbours  for the x’   is id entified and sorted in ascending o r der  in term of Euclidean distanc e  to x’ .   b.   Second, the class label y’   is predicted by major voting  of it nearest n e ighbo urs.   A wei ghte d   voting sc hem e  for kNN,  whic is calle distance-wei ghte d   k nearest neighbor (wkNN)  rule is  p r op os ed i n  [ 1 6] In   wk N N , t h e cl o s er  neig h b o r are  weig hted   m ore heavily  t h an  the  fa rthe r  o n es,  usin g the dista n ce- weig hted  f unctio n. T h e n  the classifi cation  result o f  th e que ry  is  m a de by  the m a jority   weighted  voting a  neighbor  with sm aller distance is we ig hted  m ore hea v ily   than one  with greater di stance:  the nearest n e igh b or  gets weight o f  1 ,  the f urt hest ne ig hb or a wei ght o f  0 and the  oth e r weig hts are  scaled   linearly to the inte rval in  between.      3.   RESULTS   The  num ber  of detected R O I i s  10 00  [11]. For each R O I, B D IP and  basic  feature s are cal culated at n  level. The m a xim a l value o f  n is the m i nim a l radius  o f   a circle enclos ing the a b no r m ality  pro vide d in the   M i ni-M IA da tabase. T o tally  we  ha ve 2 4 0 0  featu r es.  Dif f e r ent  values of  K are  tested a n value  of K  whic gives highest sensitivity  is  selected.  Figure 4 shows the  perform a nce with  di fferent  K val u e. The  selected  value of K  is 21 with  sensitivity of  90 %.             Figu re  4.  O r igi n al (left )  a n d  p r ep roce ssed  ( r ight ) m a m m ogram s       Table 1 gives  com p arison s o f  ou m e thod   t o  dif f ere n t a p pr oac h es.  It is  o bvi o u s th at  ou r m e thod  provides hi gher sensitivity at  lower num b er of false  posi tives per im ag e.  On the other hand, we  also   compare the performance in terms of  sensitivity, false positive per im age, time of random projection and  time of runni ng between di fferent sizes of rand om pr ojection matrix. The results  are given in Table 2.  The result sho w s rand om p r ojection he lp  to reduce tim e of running. This  tool should be effecti v e with  big data and a  lot of features  but in sma ll d a ta  it  can influ e nce to other  performance.  Table 1.  C o m p arison  to ot her  approaches    Approach  Sensitivity (% False Positives per Im age   Density  slicing,  textur e flow field  analysis   81  2. Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN:  2 502 -47 52  I ndo n e sian  J Elec Eng  & Com p  Sci,  Vo l. 10 ,   No .   3 ,  Jun e   2 018  :   10 30     1 035  1 034 Multi-level thresh old seg m entation   80  2.3  K m e an  cluster i ng  85   Multi-resolution f eatures, distance  weighted k near est neighbor   90  1. 04       Table 2. Per f o r m a nce  with dif f ere n size of r a nd om   pr ojecti o n   m a trix    Size of  matrix  Sensitivity   False po sitive per  image   Time of rando pro j ection per im age  (s Running time per  image (s)   2000x2400 89  1. 2. 19  1500x2400 87  1. 1. 17  1000x2400 85  1. 1. 16  F u ll 90  1. 04    24      4.   CO NCL USI O NS   This stud pr opo ses a   new  meth od   t o    de tect mas s es  in  mammographic image based  on  combination  of m u lti-resolution features and dist ance weighted K  nearest neighbor alg o rithm .  The  highest sensitivity is observed with   small  fals e positive per image. Compar isons with other re lat e d   wor k s p r o v e that our meth od is effective and has p o t ential to be further in vestigated. When  using  random  projection, this  tool  will be   effective  with   big   data.   In the future, we will evalu a te the  method o n  larger set of mammog r ams and use different features.      REFERE NC ES   [1]   Ghoncheh M , et al. , “ I nc idenc e   and Mortal it y a nd Epidem iolog y  of Bre a st Can cer in  the W o rl d,”  Asian Pac J   Cancer  Pr e v , vo l. 17(S3) ,  pp . 43 -46, 2016 [2]   H.  D.  Cheng,  et  al .,  “ A pproaches  for au tom a ted  d e te ction  and  cl as s i fica tion of  m a s s e s  in   ma mmogr a m s,   Pat t ern   Recogn ition ,   vo l. 39(4) , pp . 646- 668, 2006   [3]   Elah e Chagh a ri , et  al. , “A Novel Approach for Tu mor De tection in  Mammography   Images,”  Indonesian Journal o f   E l ec t r i c al  E n gi ne e r i n g   and  Computer Science , v o l. 12(8) , pp . 62 11-6226, 2014 [4]   V. M. R a o,  et al. , “How Widely  I s  Computer-Aided Detection Us ed in  Screening  and Di agnostic Mammography?,”  Journal of the American College of  Radiolog y,  v o l. 7(10) , pp . 80 2-805, 2010 [5]   P.  T a y l or,  et al. , “Impact of  computer-aided  d e tection  prompts  on the sensitivity   and specificity   of scr eenin g   mammograph y ,”  He alth Te c hnol  Asse ss.  vol. 9(6), pp. 1-58, 2005.    [6]   F a riha Nos h een,   et al. “False p o sitive and  false negative reduction in  digital ma mmograms usin g binary rotatio n   invariant and noise toler ant texture descriptor,”  2017 International Conferen ce  on Co mmunication Techno logies  (ComTech), 201 [7]   P .  P unithavath i ,  et al.,  “Rando m Projection-based Cancelable Templa te Gen e ration for Sp a r se ly  Distributed  Biom etric P a tter n s ,  Indonesian  Journal of Electrical  Engin eerin g and Computer Scien c e , vol. 7( 3), pp. 877-886 2017  [8]   Zhigao Zheng ,  e t  a l . ,  “ Tim e -Wei ghted Uncer tain   Nearest Neighbo r Collabor ativ Filtering Algor it hm , ” Indonesian  Journal of Electrical  Engi neerin g and Computer   Scien c e , vol. 12( 8), pp . 6393-640 2, 2014   [9]   http: //pe i pa.essex.ac.uk/info/mi a s.html   [10]   N. R. Mudigond a,  et a l . , “Detection of br east m a sses in mammograms b y  density  slicing and  texture flow-f ield   anal ys is ,   I EEE Transactions  on Medica Imagin g , vol. 20(12) , p p . 1215-1227   [11]   V .  D .  N guyen,  et a l . " D e t e c t i on of  t u m o r i n   ma m m o g r a p h i c  i m a g e s   by  hi e r arc h y  of   bl oc k ' s f e at ure s ,"  19th  Internationa l Conference on D i gital S i gnal P r ocessing, DS P 2 0 1 4   [12]   Y. D. Chun,  et a t . , “Image r e tr ieval using BDIP and BVLC moments,”  IEEE Transactions on Cir c uits and System for Vid e o Techn o logy , vol. 13(9) , pp . 951-957   [13]   D. E. Pearson and J. A. Robinson,  “Visual co mmunication at very low data  rates,”  P r oceedi ngs  of the IEE E ,   vol.73(4), pp. 79 5-812.  [14]   Y, J .  Ry oo , N. C. Kim ,  “ V alle y operator for ext r act ing s k etch fe atures : DIP , ”  El ectr oni cs  L e tter s , vol. 24(8), pp 461-463.    [15]   T. D .  Ngu y en et a l . , “Surface Extr action Using  SVM-Based Tex t ure Classifica tion for  3D  Fetal Ultr asound  Imaging,” 1 st  In ternational Conference on Communica tions and  Electronics ( I CCE2006), 2006   [16]   D. Achlioptas,  “Database-fri en dly  r a ndom projections,”  20 th   ACM SIGMOD- SIGACT-SIGART symposium o n   Principles of  database systems  PODS2001   [17]   S. A. Dudani, “The Distance- Wei ghted k-Nearest-Neighbor Rule,”  IEEE Transactions on Systems, Man, and  Cybernetics , vol. 6(4), pp. 325-32 Evaluation Warning : The document was created with Spire.PDF for Python.
In d onesi a n  J  E l ec En g &  C o m p  Sci    ISS N :  2 5 0 2 - 47 52       Fu sion  o f   Rand om Pro jection ,  Mu lti-Reso l u tio Fea t u r es a n d  Distan ce…  (Viet  Dun g  Ng u y en 1 035     BIOGRAP HI ES OF  AUTH ORS       Viet Dung Ng uy en  rec e iv ed Doctorat e degr ee from  Hanoi Univers i t y  of  S c ience  and   Techno log y , Hanoi, Vietnam, in Electron i c En gi neer ing in  20 16. Dr. Ngu y en  is curr ently   working as Sen i or Lectu r er , Vice Head of  th e Department o f  Electronic Technolog y   and   Biomedical Engineering of Scho ol of Electroni cs  and Telecommu nications, Hano i University  of   Science and Technolog y ,  Hanoi, Vi etnam which  he joined in 20 00. His main research in ter e sts  includ e biosign a l and  m e dic a l  im age  ana l y s is;  m e dica l instrum e nt ation .             M i nh Dong Le   rece ived h i s  Eng i neer  Degre e  an d M a s t er Degr ee  of Engin eer ing  in Biom edic al   Engineering at  Hanoi Universi ty  of Science and  Techno log y , Hanoi, Vietnam in  2014 and 2016  res p ect ivel y.  He  is  current l y  w o rking as  a r e s earch er a t  Depa rtm e nt of Com puter S c i e nc e,   Chonnam National University South  Korea. His research in ter e sts are in sign al processing biomedical engineering ,   mach in e learning  & pa ttern recognition.               Evaluation Warning : The document was created with Spire.PDF for Python.