PPt3 - Feedforward

Chia sẻ: Pham Thanh Hai | Ngày: | Loại File: PPT | Số trang:48

Thêm vào BST

Báo xấu

116
lượt xem 17
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Multi layer feedforward NN (FFNN): Xét mạng có lớp neuron nằm giữa lớp đầu vào và ra như hình sau. Lớp nằm giữa được gọi là hidden layer, nó ko đưa đầu ra trực tiếp đến đầu ra của mạng. FFNN khắc phục hạn chế của mạng đơn lớp: thực hiện với nonlinearly saparable

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: PPt3 - Feedforward

Multi layer feedforward NN (FFNN) •Xét mạng có lớp neuron nằm giữa lớp đầu vào và ra như hình sau. Lớp nằm giữa được gọi là hidden layer, nó ko đưa đầu ra trực tiếp đến đầu ra của mạng. FFNN khắc phục hạn chế của mạng đơn lớp: thực hiện với non- linearly saparable Input Output layer layer Hidden Layer Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 1 1 Bangkok, Jun. 14 – 23, 2006
Vấn đề với XOR Một ví dụ điển hình của hàm non-linearly saparable là XOR. Hàm này nhận 2 biến vào với các giá trị thuộc {-1,1} và trả về một đầu ra trong {-1,1}, như được chỉ ra dưới đây: x1 x2 x1 xor x2 -1 -1 -1 -1 1 1 1 -1 1 1 1 -1 Nếu xem -1 và 1 như là false và true Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 2 2 Bangkok, Jun. 14 – 23, 2006
Vấn đề với XOR Graph sau đây cho thấy đầu ra 1 và -1 x2 được diễn tả với các vòng màu xanh và đỏ. Có hai lớp (green và red) không 1 thể tách nếu dùng đường tuyến tính, nhưng với 2 đường thì có thể tách -1 1 Mạng NN dưới đây với hai hidden x1 nodes thực hiện việc tách, mỗi hidden node biểu diễn một trong hai đường xanh. -1 -1 x1 +1 0.1 +1 NN này dùng hàm activation sign. Mỗi -1 mũi tên xanh chỉ ra bởi weights của một trong 2 hidden node. Nó chỉ ra hướng x2 -1 vuông góc với đường thẳng tương ứng. +1 +1 Mũi tên chỉ về nơi có đầu ra của neuron -1 bằng 1. Node đầu ra được dùng để hình thành đầu ra của hai hidden nodes. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 3 3 Bangkok, Jun. 14 – 23, 2006
Các loại miền 1 w0 Mạng có 1 node ω0 + ω1 ξ1 + ω2 ξ2 > 0 x1 w1 ω0 + ω1 ξ1 + ω2 ξ2 < 0 x2 w2 L2 L1 1 1 Mạng có 1 lớp hidden Convex 1 neurons thực hiện vùng lồi: region x1 1 mỗi hidden node thực hiện L3 L4 -3.5 các đường biên bao quanh 1 x2 vùng lồi. 1 P1 Mạng hai lớp hidden P2 1 layer thực hiện hợp ba 1 vùng lồi: mỗi box biểu x1 1 diễn một mạng có 1 lớp P3 x2 1 hidden thực hiện một 1 1.5 vùng lồi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 4 4 Bangkok, Jun. 14 – 23, 2006
Các vấn đề Non-Linearly Separable khác nhau Các loại vùng Exclusive-OR Các lớp có Các dạng Kiến trúc decision Problem vùng chồng lấn vùng chung Single-Layer Chỉ bao được A B một nửa mặt B phẳng A B A Two-Layer Vùng lồi đóng A B hoặc mở B A B A Three-Layer Bất kỳ A B (mức độ phức B tạp hục thuộc A số nodes) B A Faculty of Electronics and Telecommunications, HUT 5 5 Bangkok, Jun. 14 – 23, 2006
Mô hình của Neuron  Thuật học của FFNN được dựa trên phương pháp gradient descent. Với lý do này, hàm activation được dùng trong FFNN là các hàm liên tục của các weight, có đạo hàm ở mọi nơi.  Một hàm activation điển hình có thể được thấy như là xấp xỉ liên tục của các hàm bước với các ngưỡng là hàm Sigmoid Function. Hàm sigmoid cho node j là: ϕ (v j ) ϕ (v j ) = 1 with α > 0 1 1+ ε − αϖϕ Increasing a where v j = ∑ wji yi i with wji weight of link from node i vj to node j and yi output of node i -10 -8 -6 -4 -2 2 4 6 8 10  Khi hướng đến vô cùng thì ϕ hướng tới hàm bậc Faculty of Electronics and Telecommunications, HUT 6 Bangkok, Jun. 14 – 23, 2006
Feed forward NN Idea: Credit assignment problem • Problem of assigning ‘credit’ or ‘blame’ to individual elements involving in forming overall response of a learning system (hidden units) • In neural networks, problem relates to distributing the network error to the weights. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 7 7 Bangkok, Jun. 14 – 23, 2006
Quá trình dạy: thuật tóan Backprop  Backprop algorithm tìm kiếm các giá trị của weight để tối thiểu sai số của mạng trên tập các mẫu học (training set).  Backprop lặp đi lặp lại của 2 quá trình:  Forward pass: trong bước này, mạng làm việc với 1 mẫu và sai số của (mỗi neuron) lớp đầu ra được tính tóan.  Backward pass: bước này dùng sai số của mạng để update các weights. Quá trình này phức tạp hơn thuật LMS algorithm cho Adaline, bởi vì các hidden nodes liên quan tới lỗi không trực tiếp mà thông qua các node của lớp tiếp theo. Do đó, bắt đầu từ lớp đầu ra, sai số được lan truyền ngược qua mạng qua từng lớp. Điều này hoàn thành bởi quá trình tính toán hồi quy local gradient cho mỗi neuron. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 8 8 Bangkok, Jun. 14 – 23, 2006
Backprop  Thuật dạy Backpropagation được mô tả như sau: Tính toán sai lệch của mạng- Bước thuận Lan truyền sai số-Bước ngược  Backprop chỉnh các weights của mạng để tối thiểu sai số trung bình bình phương ủa toàn mạng Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 9 9 Bangkok, Jun. 14 – 23, 2006
Sai số bình phương trung bình  Sai số ở neuron đầu ra j sau khi thực hiện dạy dùng mẫu thứ nth là: ( x ( n ), d ( n )) e j (n) = d j (n) - y j (n)  Sai số của toàn mạng (network error) là tổng của sai số bình phương của các neuron đầu ra: E(n) = 1 2 ∑ j e 2 (n) j output node  Tổng sai số trung bình bình phương là trung bình của các sai số mạng trên các mẫu dùng để dạy N ∑ E (n) 1 EAV = N n =1 Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 10 10 Bangkok, Jun. 14 – 23, 2006
Luật cập nhật Weight Luật cập nhật Backprop dựa trên phương pháp gradient descent: lấy 1 bước theo hướng đạt được giảm tối đa sai số của mạng E. Hướng này ngược chiều ∂Εi gradient của E. vớ ∆w ji = -η ∂w ji w ji = w ji + ∆w ji Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 11 11 Bangkok, Jun. 14 – 23, 2006
Weight Update Rule Đầu vào của neuron j là ∑w Neurons 1,…m, vj = ji yi liên kết với i =0 ,...,m neuron j, yi là đầu ra ∂Ε ∂Ε ∂v j Có thể viết: = của neuron i ∂w ji ∂v j ∂w ji j Nếu xác định ∂E local gradient of neuron j δ j = − wji ∂v j theo: 1 … i … m δl ∂v j Từ ∂ω ϕι = yi Ta có ∆ω ϕι = ηδ j yi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 12 12 Bangkok, Jun. 14 – 23, 2006
Weight update ∂E Do ta phải tính tóan local gradient δj =− ∂v j của neurons. Có 2 luật là theo • j output neuron (green ones) • j hidden neuron (the brown ones) Input Output layer layer Hidden Layer Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 13 13 Bangkok, Jun. 14 – 23, 2006
Weight update of output neuron Nếu j là đầu ra của neuron thìdùng chuỗi ta nhận được: ∂Ε ∂Ε ∂e j ∂y j δϕ= − =− = −e ϕ( −1)ϕ ' ( v j ) ∂v j ∂e j ∂y j ∂v j Bởi e j = d j - y j và ψϕ = ϕ ( v j ) Đối với đầu ra j δ ϕ = e ϕϕ ' ( v j ) Thay thế δ j vào ∆ω ϕι = ηδ j yi Ta có ∆w ji = η (d j - y j )ϕ ' (v j ) yi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 14 14 Bangkok, Jun. 14 – 23, 2006
Weight update of hidden neuron ∂Ε ∂Ε ∂y j δj = − =- ∂v j ∂y j ∂v j C set of neurons of output layer ∂Ε ∂e k  − ∂e k  ∂v k − = −∑ ek = ∑ e k  ∂v  ∂y ∂y j k∈C ∂y j k∈C  k  j ∂e k ∂v k Observe that − = ϕ ' ( v k ), ekϕ ' ( vk ) = δ k , = wkj , ∂v k ∂y j ∂Ε ∂y j − = ∑ δ k w kj.Moreover = ϕ ' (v j ) Then ∂y j k in next layer ∂v j For j is a hidden node d j = j ' (v j ) ∑d kw kj k in next layer Substituting δ j in ∆ω ϕι = ηδ j yi we get ∆w ji = h yij ' ( v j ) ∑d k k in next layer w kj Faculty of Electronics and Telecommunications, HUT Neural Networks 15 NN 3 15 Bangkok, Jun. 14 – 23, 2006
Error backpropagation The flow-graph below illustrates how errors are back- propagated to the hidden neuron j w1j ϕ’(v1) e1 δ1 δ j ϕ’(vj) wkj ek δk ϕ’(vk) wm j em δm ϕ’(vm) Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 16 16 Bangkok, Jun. 14 – 23, 2006
Summary: Delta Rule Delta rule ∆ w = η δ y ϕ ′ ( v j )(d j − y j ) IF j output node dj = j ′(v j ) ∑d w k k of next layer kj IF j hidden node where ϕ ' ( v j ) = ay j (1 − y j ) for sigmoid activation functions Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 17 17 Bangkok, Jun. 14 – 23, 2006
Shape of sigmoidal activation function Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 18 18 Bangkok, Jun. 14 – 23, 2006
Dynamics of BP learning FNN have complex error surfaces (e.g. plateaus, long FNN have complex error surfaces valleys etc. ) with no single minimum For complex error surfaces the problem is learning rate must keep small to prevent divergence. Adding momentum term is a simple approach dealing with this problem. this problem Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 19 19 Bangkok, Jun. 14 – 23, 2006
Generalized delta rule  If η is small then the algorithm learns the weights very slowly, while if η is large then the large changes of the weights may cause an unstable behavior with oscillations of the weight values.  A technique for tackling this problem is the introduction of a momentum term in the delta rule which takes into account previous updates. We obtain the following generalized Delta rule: ∆w ji ( n) = α∆w ji ( n − 1) + ηδ j ( n)y i ( n) α momentum constant 0 ≤α