TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol.12, No.5, May 2014, pp . 3777 ~ 37 8 5   DOI: http://dx.doi.org/10.11591/telkomni ka.v12i5.5097          3777     Re cei v ed  No vem ber 1 0 , 2013; Re vi sed  De cem ber 2 8 ,  2013; Accep t ed Jan uary 1 0 , 2014   Bayesian Neural Network of Rolling Force Prediction  for Hot-Strip Mill       Xiaodan Zha ng 1 , Rui LI 2 , Yanliang  YE* 3   1 Electrical a nd  Information En gin eeri ng D epa rtmen t, Beihua  Univers i t y , Jil i n , 1320 13, P. R. Chin a   2 School of Aut o matio n  & Elec trical Eng i ne eri ng, UST B , Beijing 10 00 83, P. R. Chin a   3 Scientific Research Office , Beihua Universit y , Jili n,132013,  P. R. China  *Corres p o ndi n g  author, e-ma i l : z1314 o y @1 6 3 .com 1 , lirui0 1 2 @1 63.com 2 , yy lx cy @126.com* 3       A b st r a ct  F o r obta i ni ng  r e lativ e  acc u rat e  ro lli ng- mi ll  mode l is  d i fficult y by th e s i mpl e   math e m atic a l   meth od,   due to th e co mplexity of th e a c tual pr oducti o n  scen e  an d th e no n-li near r e l a tions hip  betw een v a ria b les, t h is  pap er firstly p r opos es an i m prove d  Bayes i an reg u l a ri z a ti on ne ura l  net w o rk mod e l a ccordi ng to th ese   me asur ed  data  of 15 80  pro d u c tion l i n e . In th is mod e l,  the  p aper c onstruct s  the i m prove d  Bayesi an  ne ur al   netw o rks by  the  intro ductio n  of b o u n d  ter m s th at re pre s ents the  n e tw ork co mpl e xi ty in th obj e c tive   function. At las t, the simul a tio n  re sult prov es  the effectiven ess and va lid ity of the mod e and the pr ed iction   accuracy of the  mod e l a l gor ith m  is sup e ri or to the traditio n a l  mo de l.    Ke y w ords :  hot  continu ous ro ll ing, rol lin g force pred ic tion, n eura l  netw o rk, Bayesi an re gul ari z a t i on      Copy right  ©  2014 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion    The  characteristics of the  rolling process are non -linear, large-del a y, strong  coupling  and p a ramet e r vari ation.  Since  state p a ram e ters of   the co ntrol  sy stem a r co n s tant chan ge,  the   traditional   co ntrol m odel  cannot  well  ad apted  due  to  i t sho r tcomi n gs. T a ki ng i n to a c count  of t h e   learni ng ne ural netwo rk, m any st udie s  showed that p r edi ctive cont rol effect usi n g traditional  BP  algorith m  or  LM algo rithm,  whi c h u s n eural  networks to cre a te ro lling force m o del an d u s on- site mea s u r e d  data for trai ning an d learning, is  rema rkabl e. Since  neural network traini ng time is  usu a lly too long, and the sample data  contain s   noi se , there are p r oblem s of tra i ning times to o   much o r  the  network sca l e too large  and othe r is sue s , so it tend s to make the netwo rk to   remem b e r  un necessa ry de tails wh en ne ural net wo rk  t r ainin g . If the  noise incl ude d in the traini ng  pro c e ss of ne twork data a r e recor ded, the ne w data may result in inco rrect outp u t, that is to say  the  traditio nal   neu ral netwo rk algo rithm d oes  not   have  good  ge nerali z ation  fun c tio n , and  there i s   a few p r oble m su ch  a s  t he difficulty to control  com p lexity degre e  of the  mo d e l an d the  difficulty  to  overcome  over-fitting  d a t and so on [1].  Acco rd in g to the p r oj e c t specifi c  i s sues,  com pari ng  with the  BP a l gorithm,  LM  algorith m  a n d  Bias alg o rith m, this  pap er propo se an  improved  Bia s   method of n e u ral n e two r predi ction fo the rollin g fo rce of the h o t rolling mill,  so  as to obtai n the   better mathe m atical mo de l.      2.  The Principle of Bay esia n  Regulari z a t ion Neu r al Net w o r k   The m e thod  of Bayesi a n  re gula r i z at ion mai n ly  throug h m o difying the  training  perfo rman ce  function s of n eural  network to impr ove t heir ma rketin g ca pabilitie s. Input variabl es  are two categ o rie s  in a c tua l  system, on e  can  be ob se rved, and th e  other i s  al so  uncontroll abl and un ob se rved. But the two varia b le s have a n  i m pact o n  th e output sy stem. Let X be an  observabl e v a riabl e, X=[x1, x2…xn]. Then the  follo wing  rel a tion ship  between  the sy stem o u tput   d and the inp u t x:    ) ( x f d                                   (1)     Whe r e f rep r ese n ts the ef fect of the un obser vabl e in puts to the o u tputs in the  system;  rep r e s ent s the rand om vari able with a di stributio n.  Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 5, May 2014:  3777 – 37 85   3778 The trai ning  perfo rman ce   function  of ne ural  network i s  ge ne rally u s ing th e me a n  sq ua re  error func tion. As s u ming the error func tion E0 is :       K k N n nk nk y E 11 2 ' 0 ) y ( 2 1                    ( 2 )     Whe r e N  represe n ts  the nu mber of  sam p les,  K repre s ent s the o u tput numb e o f  neural   netwo rk,  nk y  represe n ts the ex pecte d output nk y '  rep r e s ent s the actu al out put of network.  Although the  function tha t  make the above- mentio ned obje c tive function reach to  minimize has infinite, the  neural netwo rk ha lo cal  minimum. Aiming at the above-mentio ned   probl em s, it can be solve d  by r egula r ization theory wh ich add s a co nstrai nt term to obtain stabl and  useful  so lutions. In  ge neral, if  F(x) i s   smooth,  it  will h a ve the   interpol ation  ability. Whe n   the   netwo rk weig ht is  small, th e network o u t put is  smoot her.  So usi n g   smo o thne ss con s trai nt  a s  a   con s trai nt term, it can effectively redu ce  t he network  weig ht. Then the obje c tive function i s   2' 2 11 1 11 () 22 WK N in k n k ik j Fw y y       () () WD JF J F                (3)      3.  Impro v ed Ba y esian Regularization  Ne ural Ne t w o r k  Algorithm   Bayesian  ne ural  net works p u t the  probability di stribution  of we ight value  (t hre s hol d   value) i n  the   whol spa c e   as th startin g  poi nt, co nsi ders the  pa ra meter  as a  ra ndom va ria b l e con s id ers the  obje c tive function a s  the li kelih ood fun c tion of trainin g  data, and t he rig h t de ca term  corre s p ond s to the  p r iori  proba bility distri b u tion  of the net wo rk pa ram e ters, and inte grati on  the pri o r probability dist ri buti on  assumption of the param e ters , and the param e ters of  the  poste rio r  dist ribution  can  be co nsta ntly adjus ted a fter the observing data  are given. T he  predi ction re sults of Bayesia n  neu ral  network  are base d  on  an average  of the posterio r   distrib u tion of  the param eters, a si ngle  model is  ma p ped to a poin t  in paramete r  spa c e, an d all  model s a r e   mappe d to th e entire p a ra meter  sp ace, in o r de r to  g uara n tee  stro ng g ene rali za tion   ability of the  network in theory [2].  Assu ming th e network  st ructu r e  H i s  giv en (prim a rily the n u m ber  of hid den laye neuron s) a n d  the network  model di =f (xi,W,H) is given .  In the abse n ce of the sa mple data, th e   prio r di stribu tion of the  weig hts  (thre s hol d) i s   ) , | ( H w p ; the po sterio ri di strib u tion i s   ) , , , | ( H D w p  with the sam p le data set } , { N N d x D . Ac c o rding to the Bayes i an rule [3] is   ) , , | ( ) , | ( ) , , | ( ) , , , | ( H D p H w p H w D p H D w p                 ( 4 )     W h er e p ( D | w , β ,H) represe n ts th e  likeli hoo d  functio n p(D| α , β ,H ) re p r es en ts   norm a lization  factor, w re pre s ent s the  weig ht value (thre s h o ld) v e ctor. Th e kn owle dge o n  the   weig hts  distri bution i s  little  wh en the r e  i s  n o  dat a;  th erefo r e th e p r ior di stributio n is a ve ry wi de  distrib u tion. It can be co nverted to a co mpact po steri o r distri bution  when the da ta are obtain ed,   the weight va lue only in a very small ra nge will p r od uce  con s i s te nt with the performa n ce of the  netwo rk m ap  [4].    3.1. Prior Pr obabilit y   In the ab sen c e of the  prior kno w led g e  of wei ghts, p(w| α , H)   follows  the Gauss  distrib u tion th at the mean is 0 and the v a rian ce i s  1/ α  [5]:     ) exp( ) ( 1 ) , | ( 1 W i i W w z H w p                  ( 5 )     Thus, the val ue of the normalizatio n factor ZW( α ) is:   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Baye sian  Ne ural Netwo r k of Rolling Fo rce Pre d ictio n  for Hot-Stri p Mill (Xiaoda n Zhang 3779 2 1 ) 2 ( ) exp( ) ( W W i i W dw w z              ( 6 )     3.2. Approxi m ate Probabilit Assu ming  the  noi se  smo o thing fu nction   with a  Ga uss  distrib u tion th at the me an i s  0  an d   the varian ce  is 1/ β  produces the desi red  output  d, for  a given input  x,  the observ ed probability of  the output d:    K k n nk nk n n H w x y d H w x d p 1 2 ) )] , , , ( [ 2 exp( ) , , , | (         ( 7 )     If each sa mpl e  indep ende n t ly selected d a ta,    N n D D n n J z H w x d p H w D p 1 ) exp( ) ( 1 ) , , , | ( ) , , | (         ( 8 )     The n o rm alization fa ctor  dD J z D D ) exp( ) (   K k N j nk nk D c y J 11 2 ) ( 2 1 , therefo r e, 2 ) 2 ( ) ( N D z . Where N is t he input vect or dime nsi on.     3.3. Optimized and Solv ed   The Pri o r Probability functi on and approximate  probability function  into   equation (8), we  can o b tain:     11 ( | , , , ) exp( ) e xp[ ( ) ] (, ) ( , ) DW MM p wD H J J M w zz         ( 9 )     Whe r e,  dw J J z W D M ) ( ) , ( If the sampl e  data re aches a  ce rtai n numb e r, the po sterio r distrib u tion  tends to  Gau ssi an distribution. If th e poste rio r  distributio n cu rve simultane ously satisfie s the suffici e n tly  narro w an d t he  sha r ply e noug h pe ak,  you can fu rth e simplify th e problem,  n a mely u s ing   the   Taylor expa n s ion o b tain ) , ( M z .  A ssu me  t hat   MP w is the wei ght  value (thre s hold value )  to  whi c h B i s  th e minimu m value  co rre sp o nding. T he T a ylor exp a n s ion of  ) ( w M  in the  vicinity of  MP w  is   ) )( ( ) ( 2 1 ) ( ) ( MP MP T MP MP w w w M w w w M w M          ( 1 0 )     () () () M PD M P W M P Mw J w J w   () DM P Jw I     (11 )     Whe r e,  represents the seco nd der ivative,  therefore:    )] ( exp[ )]} ( {det[ ) 2 ( ) , ( 2 1 2 MP MP W M w M w M z            ( 1 2 )   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 5, May 2014:  3777 – 37 85   3780 3.4. Approxi m ate Calculation of  Hes s ian Matrix   If you want to  optimize the  solutio n , the f i rst i s  to  cal c ulate  Hessian  matrix  when  ) ( w M   in the minimu m point of  MP w . T he formul a (1 1) sh ows that  the calculatio n amount of  ) ( MP D w J    is larg e. Therefore,  Hessian  matrix  can b e  furthe r simplifie d to improve com puting spee d.  Make   ) ( nk nk nk c y , then:    } { 11   K k N n i nk D w w J                                (13)       K k N n j i nk nk j nk i nk ij MP D w w w w w w J 11 2 ] [ )) ( (             ( 1 4 )     3.5. Dete rmination of  H y per-p a rame ters  α  and  β   Hyper-p ara m eters  α  and  β  can be o b tai ned by cal c ul ati ng the po sterio r distri buti on:    ) | ( ) | , ( ) , , | ( ) , | , ( H D p H p H D p H D p           ( 1 5 )     Assu me that  the prio r di stribution  ) | , ( H p  meet a very wi de  distrib u tion fu nction.   Be c a us e th n o r ma liza t io n fa c t or   ) | ( H D p  ha s n o thing to  do   with  , in the  ab ove form ula,  so the  proble m  of obtaini n g  the maxim u m a po ste r iori distri bution  coul d be  tran sform ed into   the  probl em of  solving  m a ximum like lihood fu ncti on. Becau s e the a pproximate fun c tion  ) , , | ( H D p  is the norm a l i zation fa ctor  of the formula  (15), then:     ) , , , | ( ) , | ( ) , , | ( ) , , | ( H D w p H w p H w D p H D p             ( 1 6 )     Uniting the (8 ) and (9), we  can o b tain:     ) ( ) ( ) , ( ) , , | ( W D M z z z H D p                      ( 1 7 )     For form ula (7) takin g  the logarith m   l n ( ( | , , ) () () l n l n ( 2 ) 22 WM P D M P NN pD H J w J w     1 ln { d e t [ ( ) ] } ln 22 MP W Mw            ( 1 8 )     If the charact e risti c  value  of  ) ( MP D w J  is W i i ,... 2 , 1 }, { , we can  obtain that t h e   cha r a c teri stic value of  ) ( MP D w J  is  } { i  by the formula (11). Also,  becau se  D J  is a   norm a l error t e rm, then:     1 ln{ d et [ ( ) ] } l n[ ( ) ] W MP i i dd Mw dd     Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Baye sian  Ne ural Netwo r k of Rolling Fo rce Pre d ictio n  for Hot-Stri p Mill (Xiaoda n Zhang 3781 1 1 1 [( ) ] W MP i i tr M w                    ( 1 9 )     Since  i and   are   propo rtion a l,   therefore :     i i d d 1 l n { d et [ ( )]} l n [ ( ) ] W MP i i dd Mw dd      11 1 11 [l n ( )] WW W ii i ii i ii d d dd                ( 2 0 )     Re spe c tively make th e partial derivative of  A and B in the formula  (20) e qual to  0, you   can g e t:    N N w J W w J W i i i MP W W i i i W i i MP W 1 1 1 ) ( 2 ) ( 2       ( 2 1 )   Therefore, th e maximum p r omin en ce of  and M PM P  can be o b tai ned:     ) ( 2 , ) ( 2 MP D MP MP W MP w J N w J                 ( 2 2 )       Figure 1. Bayesia n  neu ral  netwo rk traini ng flow chart   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 5, May 2014:  3777 – 37 85   3782   Whe r γ  re pre s ent s the  numbe r of  para m eter s works in  redu cing th e  netwo rk  perfo rman ce i ndex functio n ,    0, W In summa ry, the Bayesia n  neural network is an  iterative process, e a ch  iteration i n volves  three inferenc es  [6]: the firs t la ye r infe rence is to  m a ximize  ) , , | ( H w P  und er the  co nditi ons  of  hyper-pa r am eters; the se con d  layer infe ren c e i s  to optimize hyp e r-paramete r s , , and to infe the most po ssi ble hype r param eter s; the third layer infere nce  is the signi ficant deg ree  of  cal c ulatio n model, and  sel e ct the be st model [7].      4. Simulation  In the theoret ical an alysi s , the pape r ma de a se rie s  of simulation e x perime n ts b a se d on   the mea s u r e d  data of a  1 580 h o t strip   mill pro d u c tio n  line  whi c con s i s ts of  sl ab yard, fu rn ace,  roug hing  mill  group, fini shing  mill, coi ling m a chine s  a n d  othe equipm ent. T he  strip  de si gn  thickne ss  of 1580  hot-rolli ng mill is  1.2 mm~1 2 .7mm  and  width i s  700mm ~ 1 7 5 0 mm. The m a in  varieties in clude lo w-ca rb on ste e l, sili con ste e l,  carbon-structu r al  steel , mi cro-alloy steel, lo w- alloy steel. The steel  stren g th cla ss a r σ b 65kg/mm2,  σ s 50kg/mm2.  The seven ra ck fou r -roll m ill of 1580 finishin g mill was a rra nge d in tandem, th e seven   mills refe rred  to as F1 ~ F 7 , the distan ce betwe en e a ch  rack i s  5 800mm. fou r  rolle r pairs (P C)  mill, roll crossing  with unil a teral transm issi on form . Four roller  pair-cross  (P C) mill is used by  F2~F 7, the form of u n ilat e ral  cross-use drive i s   a dopted  by ro ll. F1 ha s th e neg ative roll  bendi ng, F2~F7 has th e po sitive bendi ng  [8].  To  cal c ulate   the rolling  sp eed  and  rolling time  fram e: According   to the  rule  of  volume   flow rate, taking into acco unt the dista n ce of  the roughi ng mill exports to th e finishin g m ill   entran c e i s  1 8 m, and the  distan ce b e tween ea ch ra ck is 5.8m, Th e two frame t r an smi ssi on time  of the rolled p i ece in ea ch can be cal c ula t ed, and  the total rolling time also can  be obtaine d. The   results a r e sh own in Ta ble  1. The pre - se t roll gap valu es of ea ch fra m e are  sho w n in Table 2.       Table 1. The  Rolling Sp ee d and Time of  Rolling Mill    Frame w ork   1 F   2 F 3 F 4 F 5 F 6 F 7 F   Rolling  speed(m/s)  0.867   1.4743   2.1825  3.0225  4.21  4.8672   5.176   Exit  speed(m/s)   6.1834  7.8959   8.8373  9.5083  11.8712   11.2095  8.2363   O v er  time  mill(s)  0.2222  0.1064   0.0651  0.0422  0.0301   0.0239   0.0199   Total time rolling(s)  0.2793   0.1161   0.0727   0.049   0.0364   0.0289   0.0253       Table 2. The  Pre-set Roll  Gap Value of  each Fram e   Frame w ork   1 F   2 F 3 F 4 F 5 F 6 F 7 F   gap  value(mm)   16.584  9.296   5.95 5.165  3.649  3.711   3.596       The sele ction  prin ciple of the input an d  out put varia b les: the r e is a clea r and  definite   relation shi p  t hat p r od uces a  gre a ter i m pact  bet we en the   sele ct ed va riable s   and th studi ed   output va riabl es  wh en t he  neural n e two r k va riabl es  are sele cted; th e sele cted  variable s  can  b e   detecte d or calcul ated in the ac tual produc tion proc es s  [9].  We  can  know that there are  many factors affecting the ro lling pressure changes by the  mechani sm analysi s  of the rollin g process  and pri o experience,  such as the ent rance thi c kness  of rolled pl ate, exit thickn ess,  red u ctio n rate, rolli ng  temperature,  rolling  spe e d , roll diam eter,   chemi c al  co mpositio n co ntent  an d so  on.  Acco rd in g to th scen e me asure d   data, the  det ermin e   para m eters o f  each layer i s  as follo ws:  The input lay e r: the C cont ent , the Si cont ent, the Mn conte n t, the Cu co ntent, the entry  thickne ss  (H), outlet thickn ess (h 1), rolli ng width  (B), the rolling te mperature  (T ), the rolling ti me  (t1), reduction ratio  (e1).T he output lay e r:  the rolling force  (P).   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Baye sian  Ne ural Netwo r k of Rolling Fo rce Pre d ictio n  for Hot-Stri p Mill (Xiaoda n Zhang 3783 The n u mb er  of neu ron s  i n  the in put lay e r i s  1 0 , the   numbe of n euro n s in th e  output  layer is 1.     4.1. The Prediction Rolling Force o f  BP Neur al Net w o r k   In the pap er,  610 g r ou ps’  norm a lized d a ta are  u s ed  as the t r ainin g  sa mple s; a  variabl e   learni ng  rate   BP algorith m  is  used to  train th e  net work.  The  tra n s fer fun c tion  of between  the   input layer an d the hidden l a yer ado pts the hyperbo lic S-shap ed tra n sfer fun c tion ; the neuron  of  the output layer uses the n euro n  linea r tran sfer  fun c tion. The frequ ency of the learnin g  pro c e ss  is 50, the trai ning time is 5 000 an d the e x pected e r ror is set to 1e-0 04.  Figure 2  shows the error  of the BP al gorithm  forecasting  rolling fo rce and the actual  value, and th e error of the  cal c ulate d  value of  rolling f o rce and the  actual valu e. The ab sci ssa  is   the sampl e -p oint; the vertical axis is t he er ror val ue. As can  be see n , the use of neural  netwo rks, the  forecastin g error valu es  of usi ng BP  neural net works i s  bet wee n  [-200, 30 0], but   the traditiona l calculation  errors is bet wee n   [-600,4 00]. Namely the forecasti ng rollin g force   fitting curve o f  BP neural network is g o o d . Therefo r e, the predi ction  accura cy of rolling force can   be improved  by the use of neural network model.         Figure 2. The  Rolling Fo rce Fitting Curv e of BP Algorithm Predictio     4.2. The For ecas ting Mo del of Lev e nberg- M a rqu a rdt Alg o rith m   In the same  para m eter  se ttings, 610 g r oup s’ normali zed d a ta set  610 as the t r ainin g   sampl e s, Lev enbe rg -Ma r q uardt alg o rith m is used to train the net work.         Figure 3. Fitting Cu rve of L-M Algorithm        As can  bee see n , L-M alg o rithm fo re ca sting  by  the rolling fo rce a nd the  actu al  value of   the error, the  predi ction  error va lue s  of the mod e l usi ng the LM al g o rithm is  bet wee n  [-20 0, 200],  whi c erro r i s  sm aller tha n   the e rro of th e tra d itional   BP algo rithm. Ho weve r,  we foun d th at the  netwo rk  pre d i c tion a c curacy is not guaranteed  whe n  the numbe of hidden n o des  cha nge s in   experim ents.  For exa m ple,  taking  the 3 0  hidde n no de s, the training  of the net wo rk i s   com p let ed  to achi eve th e accu ra cy of  9.9356 e-005  at step  150.  But we fou n d  the p r edi ctio n erro r is quit e   0   10 20   30 40 50 60 70 80   90   1400   1600   1800   2000   2200   2400   2600   2800   3000   3200   Fittin g  curve of L - M al g orithm Sa m p le  p o in t P r edi ct   A ct ual   For c e KN   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 5, May 2014:  3777 – 37 85   3784 large and the rolli ng forc e predi ction  curve deviates  signifi cant ly  from the act ual rolling force  values  wh en  the re st data  of 90 g r oup were u s ed to  detect. Thi s  i s  du e to exce ssive  emph a s is  on traini ng p r eci s io n, leav ing the d e si g n  of the  net work i s  la rge ,  resulting in  more  po werful  netwo rk fu nct i on map p ing,  resulting in e x cessiv e ad a p tation phe no menon. Thi s  i s  the limitatio ns  of LM  algo rit h m: The  a ccura cy of th netwo rk  trai ni ng o b je ctives ca nnot  be  d e termin ed, th e   error i s   set to o sm all in  ord e r to th e la ck  of traine d net work  gen erali z ation  and  th e low preci s io n;  Erro r that be set too larg e will ea sily lead  to excessiv e gene rali zati on and n on-v e rsatility.    4.3. Ba y esian Regulari z a t ion Neu r al Net w o r k M o de   In the same  para m eter  se ttings, Bayesi an neu ral n e twork a d d s  the con s traints of the   squ a re d wei g hts and the n u mbe r  of valid para m eter  i n  netwo rk tra i ning obje c tive function. T he  training  Resul t s: MSE = 0.0058, SSE = 1.3961.   Figure 4 shows the comparing  error  curve of t he forecast rolling force of Bayesian  netwo rk a nd t he a c tual  rolli ng fo rce. As  can  be en  se e n , the  pre d icti on e r ror ba si cally di stri but ed   in [-20 0, 200] , but the tra d i t ional calculat ion e rro r di stribution in  [-60 0, 400]. Fig u re 5  sho w s th curve of the predi ctive roll ing  force and  the measu r e d  value. We can see the fitting degre e  is  good f r om th e graph. T herefore, t he accura cy  of  Baye sian neu ral n e tworks can establi s h a  g ood   Rolling fo rce predi ction m o del.      Table 3. The  Traini ng Result Contra st o f  Three Network M odel        N=4 N=5  N=6 N=7 …  N=26  Variable learning  rate BP  MSE 0.0145  0.0097   0.0094  0.0092    0.0059   SSE  3.4744  2.3212   2.2665  2.1998    1.4190   Levenberg -  Marq uardt   MSE 0.0084  0.0076   0.0068  0.0052    9.9363e-0 0 7   SSE  2.0068  1.8203   1.6262  1.2371    2.3847e-0 0 4   Ba y e sian regula r ization   MSE 0.0109  0.0078   0.0071  0.0058    0.0026   SSE  2.6058  1.8818   1.7015  1.3961    0.6196         Figure 4. Erro r Cu rve of Bayesi an Netwo r Predictive Rolling  F o rce         Figure 5. Curve of Bayesian Ne twork Predictive Rolling Force       Usi ng Baye si an neu ral n e t work an d int r odu cin g  the  poste rior  probability of statistics  allows the n e twork to avoid falling into local extre m e and to re duce the trai ning time. In the   experim ent, each trai ning  time, the error in dicator  a nd the  netwo rk  perfo rma n ce valu es of  the   Bayesian  ne ural  network  training  mod e l are re latively stable.  When th e  si ze  of the n e twork  0   10 20   30 40 50 60 70 80   90   1400   1600   1800   2000   2200   2400   2600   2800   3000   3200   Sam p le  p oi n t Pr edic t   A ct u a l   Force KN   0 10   20   30 40 50 60 70 80 90   - 200   - 100   0 100   200   S a mp le    p o int Fo rce KN   E r r o r cur v e of Bayesian networ k pr edictive r o lling for c e Cur v e of Bay e sian networ k pr edictive r o lling for c e Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Baye sian  Ne ural Netwo r k of Rolling Fo rce Pre d ictio n  for Hot-Stri p Mill (Xiaoda n Zhang 3785 increa se s, it did not a ppe a r  the p hen om enon  of "ove r-fit", which  avoids t r ying to  cho o se the b e st   approa ch to  d e termin e net work  si ze. In  the sa me  p a rameter  settin g s, Ta ble 3  shows the t r ai ning  results of ta king the  different type o f  hidden n o d e s by contra st variabl e-le arnin g  rate  BP  algorith m , L-M optimizatio n algorith m  a nd Bayesia n  regula r ization  algorith m In the same p a ram e ter settings, Tabl e 3 sho w s the tra i ning re sult s of taking the different   type of hidde n node s by contra st  variab le-lea rnin g rat e  BP algorith m , L-M optimi z ation al go rithm   and Bayesi an  regula r i z atio n algorith m The  comp arin g the results  sho w  that L - M algo rithm n eed to  cal c ul ate the Jacob i n matrix   and the  He ssian m a trix, and la rge r  st orag e spa c e.  Whe n  the n u mbe r  of pa rameters i s  very  large, L-M al gorithm may not  be pra c ti cal.  In  a dditi on, the a pproximation p r eci s ion  of ne ural  netwo rk train ed by train f unctio n  for le arnin g   samp l e s i s  ve ry hi gh, it is  ea sy to re alize "o ver- match" fo r th e sam p le d a ta point s. But for non -le a rning  sampl e s (such  as validation le arni ng- effect sampl e ), the  approxi mation error  will appe ar a singular  phenomeno n that   decreased and   then risen al ong with the  incre a ses in  the num be r of neural n e twork trai ni ng, whi c h ca nnot  guarantee th e gene rali zati on ability of the network.  Ho wever, trai ner a d d s  the  weight s of the  netwo rk to th e pe rform a n c e fun c tion,  se lect the   optim um weight s a nd threshold s  gro u p s   so  ca redu ce  the   weig ht range  in  ord e r to  make  th e  ne twork  output  sm oothe r, e a se  the  la ck of   gene rali zatio n  cap ability, and en su re  that t he Bayesia n  train i ng network is stability  and  robu stne ss.      5. Conclu sion   Based o n  the backg rou n d  of a 1580mm hot  strip  mill produ ction line, This pape descri b e s  the  stru cture a n d  functio n  of  mode rn  h o t rolling  control  system, p u t forward the m u lti- level  control strategy and resear ch on the finishing  mill model   based on LEVEL  2.  Considering  the net work  stability using the BP al gorithm  is  poor and the generaliz ati on ability is  low,  Bayesian  ne ural n e two r ks is introdu ced into t he  con s trai nt in the tradition a l  neural function  according  to  the comple xity of the actual  produ ction  site. Combine d   with the n on-li nea cha r a c teri stics of the vari able s , highe r pre c is io n n eural n e two r k predi ction  model ha s b een  obtaine d ba sed on the  me asu r ed  data.  At last, St udy and the exp e rime ntal re sult found that  the   predi ction  a c curacy  of the  optimized m odel h a s bee n sig n ifica n tly improve d , a nd the  stabilit y of  its network, the traini ng  speed  and th e  gene rali zatio n  ca pabilitie s are  su peri o to the traditio nal  netwo rk n e u r al netwo rk.       Referen ces   [1] Li ya Do ng  R e search  of Appl i c ation F o und at ion o n  Bay e sia n  Netw orks.  Chan gch un: Jili n  Univers i t y .   200 7.  [2]  W e i Don g , Z hang Mi ng lia n, Jian g Z h iji an,  Sun Min g Neu r al Netw ork No n-lin ear Mo de ll ing Bas ed  o n   Bayesi an Meth ods . Comp uter  Engin eeri ng a nd App licati ons . 2005; 11( 1): 5.  [3]  MN Haime e r. Ba yesi an-n eur al net w o rk ap proac h for pro bab ilistic mo d e lin g of bacter i al gr o w th/n o- gro w th interface .   Internatio nal  Journa l of F o o d  Microbi ol ogy .  2003; (82): 2 3 3 -24 3 [4]  Z hang Ji xian,  Yi Xi a,  Neur al  Nerw ork and  Its Applicatio n in Eng i ne eri ng.  Beij ing: C h in a Mechi n e   Press. 1996.   [5]  Man L e u ng W ong, S h in g Y a n L ee, K w o n g  Sak L e u ng.  Data Mi ni ng  o f  Ba yesi an  Ne t w ork  Usi n g   Coo perativ e C oevo l utio n .   De cision S upp ort Systems . 20 04 ; (8): 451-472.   [6]  Qiang  S, Ai-m in W ,  Yu n-su  Z .   T he combi n atio n  Pred ictio n  of BT P in S i nteri ng Pr oce ss bas ed  o n   Ba yesi an F r am e w ork a nd  LS- SVM.  T E LKOMNIKA Indon e s ian Jo urn a of Electrical  E n g i neer ing.  20 13 11(8): 46 16- 46 26.   [7]  Hon g li an L, Ho ng F ,  Ju  T ,  et  al. A Novel Pre d ic tio n  Algor ith m  of DR Positi on Error Base d  on Ba yesi a n   R e gu l a ri za ti on Ba ck-p r op a gati o n  Ne u r al  Ne tw ork.  T E LK OMNIKA Indo nesi an Jo urn a l  of Electrica l   Engi neer in g . 2012; 11( 7): 400 4-40 11.   [8]  Hu  Xi an lei, W a ng J un, W a n g   Z haod on g. Pro c ess  Mo del  Se tup S y stem  of  334 0mm Pl ate  of Sho u g a n g   Group Co. Ste e l Rol l i ng. 20 0 3 ; 20(1): 42-4 4 .   [9]  Lv Che ng, W a ng Guo don g, Liu  Xi an ghu a, Jian g Z hen g y i,  Yuan Ji ang ua ng, Xie Qi.  Hi gh-pr ecisi o n   Predicti on of R o lli ng L o a d  of F i nishi ng Stan ds w i th Neural  Netw ork . Iron & Steel. 199 8; 33(3): 33- 35.       Evaluation Warning : The document was created with Spire.PDF for Python.