Một phương pháp xử lý giá trị thiếu và tìm tập rút gọn trên bảng quyết định không đầy đủ

Chia sẻ: Lâm Đức Duy | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

57
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Một phương pháp xử lý giá trị thiếu và tìm tập rút gọn trên bảng quyết định không đầy đủ trình bày phương pháp xử lý giá trị thiếu trên hệ thống thông tin không đầy đủ là mở rộng quan hệ không phân biệt được thành quan hệ đặc trưng,... Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một phương pháp xử lý giá trị thiếu và tìm tập rút gọn trên bảng quyết định không đầy đủ

MỘT PHƯƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU VÀ TÌM TẬP RÚT GỌN TRÊN BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ NGUYỄN THỊ LAN ANH Trường Đại học Sư phạm - Đại học Huế Tóm tắt: Một trong những phương pháp xử lý giá trị thiếu trên hệ thống thông tin không đầy đủ là mở rộng quan hệ không phân biệt được thành quan hệ đặc trưng. Dựa vào quan hệ đó, trong bài báo này chúng tôi xây dựng một số định nghĩa, từ đó đề xuất một thuật toán đi tìm tập rút gọn cho bảng quyết định không đầy đủ. Ngoài ra, một phương pháp mở rộng tập đặc trưng để khắc phục mức độ thiếu chính xác trong việc xử lý giá trị thiếu cũng được chúng tôi nghiên cứu. 1. MỞ ĐẦU Trong thực tế, các cơ sở dữ liệu thường chứa các giá trị thuộc tính thiếu, đó là các giá trị thuộc tính của đối tượng nào đó mà chúng ta không xác định được. Có hai loại giá trị thuộc tính thiếu là: Bị mất (lost), được kí hiệu là “?” và Điều kiện không quan trọng (do not care condition), kí hiệu là “*” [1], [3], [4]. Một hệ thống thông tin IS = (U, A) [5], [8] (tương ứng bảng quyết định DT = (U, C∪D) [5], [8]) có chứa giá trị thuộc tính thiếu được gọi là hệ thống thông tin (tương ứng bảng quyết định) không đầy đủ. Để xử lý các hệ thống thông tin không đầy đủ, G. Busse đã mở rộng quan hệ không phân biệt được [5], [7], [8] thành quan hệ đặc trưng [1], [2], [3]. Với bảng quyết định không đầy đủ ID = (U, C∪D), B⊆C, quan hệ đặc trưng R(B) là một quan hệ hai ngôi trên U được xác định R(B) = {(x, y)∈U x U ⎢y∈KB(x)}, trong đó, K B ( x) = ∩ [(a, a( x)], với a(x) là giá trị của đối tượng x tại thuộc tính a, gọi là tập a∈B,a ( x )≠?,a ( x )≠* đặc trưng của x. KB(x) là tập hợp nhỏ nhất chứa các đối tượng “tương tự” với x dựa vào các thuộc tính trong B. Kí hiệu U/R(B) là họ gồm tất cả các tập đặc trưng {KB(x), x∈U} tạo thành một phủ của U. R(B) là một mở rộng của quan hệ không phân biệt được IND(B) lên hệ thống thông tin không đầy đủ. R(B) có tính phản xạ, nhưng nói chung là không có tính đối xứng và bắc cầu. Trên ID = (U, C∪D), với quan hệ đặc trưng R(B), B ⊆ C, có ba cách khác nhau để xấp xỉ cho một tập X⊆U : xấp xỉ đơn, xấp xỉ khái niệm, xấp xỉ tập con, trong đó, chỉ có xấp xỉ khái niệm là thích hợp cho việc sinh luật quyết định [2]. Rút gọn bảng quyết định nhằm nâng cao hiệu quả của quá trình khai phá tri thức là một bước quan trọng. Trong bài báo này, chúng tôi đề xuất các định nghĩa về ma trận và hàm phân biệt được, miền xác định và tập rút gọn trên bảng quyết định không đầy đủ, từ đó đề xuất một thuật toán đi tìm tập rút gọn cho bảng quyết định này trên cơ sở quan hệ đặc trưng. Bên cạnh đó, để khắc phục tình trạng thiếu chính xác khi xử lý thông tin Tạp chí Khoa học và Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 01(13)/2010: tr. 40-46 MỘT PHƯƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU VÀ TÌM TẬP RÚT GỌN… 41 không đầy đủ theo quan hệ đặc trưng, làm cho bảng quyết định trở nên không nhất quán, chúng tôi đề xuất một phương pháp mở rộng tập đặc trưng dựa vào mức độ thiếu thông tin của từng đối tượng. 2. RÚT GỌN TRÊN BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ Cho bảng quyết định không đầy đủ ID = (U, C∪D). Định nghĩa 2.1. C-Miền khẳng định của D, kí hiệu là POSC(D), được xác định: POSC ( D) = ∪C( X ) , X ∈U / D trong đó, C (X ) là tập xấp xỉ dưới khái niệm của X theo quan hệ đặc trưng R(C). Định nghĩa 2.2. R⊆ C được gọi là một rút gọn của C trên bảng quyết định ID (hay còn gọi là rút gọn của ID) nếu và chỉ nếu: POSR(D) = POSC(D) và ∀R’⊂R, POSR(D) ≠ POSC(D) Rõ ràng, định nghĩa này vẫn thỏa mãn được các tính chất của tập rút gọn khi ID là đầy đủ. ( ) Định nghĩa 2.3. Ma trận phân biệt được của ID, ký hiệu M ( ID) = cij n× n , n = U ,với cij được xác định: { } ⎧⎪ c ∈ C c( xi ) ≠ c( x j ) ∧ (c( xi ) ≠ ? ) ∧ (c( xi ) ≠ *) ∧ (c( x j ) ≠ *) , nÕu ∃d ∈ D : d ( xi ) ≠ d ( x j ) cij = ⎨ ⎪⎩λ , nÕu ∀d ∈ D:d ( xi ) = d ( x j ) với i, j=1, 2… n; xi, xj thuộc C-miền khẳng định của D. Rõ ràng, khi ID là bảng quyết định đầy đủ thì M(ID) chính là ma trận phân biệt được của bảng quyết định đầy đủ. Định nghĩa 2.4. Hàm phân biệt được fID của bảng quyết định ID là một hàm logic được xác định: f ID = ∧{∨cij* , cij ≠ ∅, cij ≠ λ ,1 ≤ i, j ≤ n} , trong đó: n = U , ∨ cij* = {c*⏐c∈cij}. Giao các ∨ cij* cho ta tập tất cả các rút gọn của ID. 3. THUẬT TOÁN TÌM TẬP RÚT GỌN TRÊN BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ Dựa vào các định nghĩa được xây dựng ở trên, chúng tôi đề xuất một phương pháp tìm tập rút gọn cho bảng quyết định không đầy đủ với độ phức tạp thời gian đa thức. Thuật toán Timrutgon Input: Bảng quyết định không đầy đủ ID = (U, C∪D); Output: Một rút gọn P của C; Method: 42 NGUYỄN THỊ LAN ANH 1. Begin 2. Tính POSC(D); 3. P:=∅; 4. For với mỗi ai ∈C do 5. Begin 6. P:= P ∪ {ai}; 7. Tính các tập đặc trưng KP(xi), xi∈ U; 8. Tính các tập xấp xỉ dưới P(X ) , X∈ U/D; 9. Tính POSP(D); 10. If POSP(D) = POSC(D) then break; 11. End; 12. For với mỗi a ∈P do 13. If POSP\{a}(D) = POSC(D) then P:= P\{a}; 14. End. Mệnh đề 3.1. Thuật toán trên là đúng đắn. ! Chứng minh - Vì P = {ai ∈ C} nên P ⊆ C. Do đó, vòng lặp từ dòng 4 đến dòng 11 đảm bảo rằng luôn tồn tại P để POSP(D) = POSC(D). - Từ dòng 12, 13 suy ra P là cực tiểu. Vậy, P thu được là một rút gọn của C trên bảng quyết định ID (theo định nghĩa 2.2). Mệnh đề 3.2. Thuật toán trên có độ phức tạp là O(mn2), trong đó n là số phần tử của U, m là số thuộc tính điều kiện. ! Chứng minh Độ phức tạp tính toán của việc tính POSC(D) (dòng 2) là O(n2). Vòng lặp FOR (dòng 411) phải thực hiện tối đa m lần. Độ phức tạp của việc tính các tập đặc trưng KP(xi) (dòng 7) là O(n), tính các tập xấp xỉ dưới P(X ) (dòng 8) và POSP(D) (dòng 9) là O(n). Độ phức tạp của vòng lặp FOR tiếp theo (dòng 12-13) là O(mn2). Do đó, thuật toán này có độ phức tạp tính toán là O(mn2). Trong thực tế, thông thường m ε0: bản thân đối tượng xi có chứa quá nhiều giá trị thiếu so với mức độ chính xác cho phép. (ii) εi ≤ ε0 và εj ≤ ε0: cả hai đối tượng xi và xj đều “xác định”; do đó, sự không nhất quán xảy ra thường là do sai sót trong việc đưa ra quyết định của các chuyên gia hoặc trong quá trình thu thập dữ liệu. (iii) εi ≤ ε0 và εj > ε0 : xi xác định còn xj chứa quá nhiều giá trị thiếu. Các trường hợp (i) và (ii), POSC(D) không chứa xi và các đối tượng tương tự với nó trên tập thuộc tính C là điều phù hợp với thực tế. Đối với trường hợp (iii), nguyên nhân dẫn đến tình trạng không nhất quán trong bảng quyết định thường là do xj không thật sự “tương tự” với xi. Vì vậy, trong trường hợp này, chúng ta loại xj ra khỏi KC(xi) để thu được K C* ( xi ) và dùng nó trong giai đoạn sinh luật quyết định. Ví dụ 4.1. Xét bảng quyết định được cho trong Bảng 1. Bảng quyết định này không nhất quán vì tồn tại hai đối tượng 1 và 4 “tương tự” nhau trên tập thuộc tính điều kiện C nhưng có giá trị quyết định khác nhau. Chọn ε0 = 0.5. Ta có : ε1 = k1 0 k 3 = = 0 < ε 0 ; ε 4 = 4 = = 0.6 > ε 0 C 5 C 5 ⇒ Loại đối tượng 4 ra khỏi KC(1) , tập đặc trưng mở rộng K C* (1) = {1}. Lúc này,