Về thuật toán tìm tất cả các khóa của lược đồ quan hệ

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

647
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo phát triển thuật toán tìm tất cả các khoá của lược đồ quan hệ dựa trên kết quả của Lucchesi và Osborn [3] với những cải tiến như sau. Thứ nhất, giảm số lần duyệt các khóa xuống còn 1 cho mỗi khóa. Thứ hai, với số thuộc tính không nhiều, giới hạn đến 64, thuật toán tổ chức các tập thuộc tính dưới dạng số nguyên do đó tăng thêm tốc độ duyệt tìm.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Về thuật toán tìm tất cả các khóa của lược đồ quan hệ

Vũ Trí Dũng Tạp chí KHOA HỌC & CÔNG NGHỆ 58(10): 41 - 44 VỀ THUẬT TOÁN TÌM TẤT CẢ CÁC KHOÁ CỦA LƯỢC ĐỒ QUAN HỆ Vũ Trí Dũng * Trường trung cấp nghề Kinh tế - Kỹ thuật Hà Nam TÓM TẮT Lý thuyết thiết kế cơ sở dữ liệu (CSDL) đóng vai trò quan trọng trong công nghệ thông tin. Để quản lý tốt được chất lượng dữ liệu và thiết kế một CSDL tốt, ta phải xác định được dạng chuẩn và chuẩn hoá lược đồ quan hệ (LĐQH). Theo định nghĩa [1,2,4], việc xác định dạng chuẩn của LĐQH (3NF, 2NF) với yếu tố tiên quyết là phải tìm được tất cả các khoá của LĐQH, từ đó có thể chỉ ra các thuộc tính khoá, các thuộc tính không khoá và xác định được dạng chuẩn của LĐQH. Bài báo phát triển thuật toán tìm tất cả các khoá của lược đồ quan hệ dựa trên kết quả của Lucchesi và Osborn [3] với những cải tiến như sau. Thứ nhất, giảm số lần duyệt các khóa xuống còn 1 cho mỗi khóa. Thứ hai, với số thuộc tính không nhiều, giới hạn đến 64, thuật toán tổ chức các tập thuộc tính dưới dạng số nguyên do đó tăng thêm tốc độ duyệt tìm. Key words: Relational schema, key, functional dependency, database. * 1. MỞ ĐẦU Bài báo giả thiết rằng bạn đọc đã làm quen với các khái niệm cơ bản của cơ sở dữ liệu quan hệ [1,2,4]. Phần này chỉ nhắc lại một số định nghĩa, định lý và thuật toán liên quan đến việc phát triển thuật toán tìm tất cả các khoá của LĐQH. Các định nghĩa, định lý, thuật toán và kí hiệu trong bài báo sử dụng theo tài liệu [1]. Các định nghĩa: Cho lược đồ quan hệ (LĐQH) p = (U,F), trong đó U là tập hữu hạn các thuộc tính, F là tập + phụ thuộc hàm (PTH) trên U. Tập X = {A ÎU + | X Î AÎF } được gọi là bao đóng của tập thuộc tính X Í U. Tập K Í U được gọi là khóa của LĐQH p nếu (i) K+ = U và (ii) "A Î K: + (K\A) ≠ U. Nếu K thoả điều kiện (i) thì K được gọi là một siêu khoá. Tập PTH trong bài được giả thiết là được cho dưới dạng thu gọn tự nhiên, trong đó các vế trái của mọi PTH khác nhau đôi một và mọi vế phải và trái của mọi PTH là rời nhau. Trong [1] chỉ ra rằng có thể đưa mọi tập PTH về dạng thu gọn tự nhiên với thời gian tuyến tính theo chiều dài dữ liệu vào, tức là theo n.m, trong đó n là số lượng thuộc tính trong U và m là số lượng PTH trong F. Thuật toán tìm một khóa của LĐQH, Key(V,F) xuất phát từ một siêu khóa V cho trước có độ phức tạp đa thức theo chiều dài dữ liệu vào là O(n2m) [1], trong đó * Vu Tri Dung, Tel: 0983035969, E-mail: vutridungvn@gmail.com Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên O(nm) là độ phức tạp của thuật toán tìm bao đóng [4]. Các định lý Cho LĐQH p = (U,F) với n thuộc tính trong U và m PTH trong F * Gọi UI là giao các khóa của p. Khi đó có thể xác định giao các khóa bằng một thuật toán tuyến tính theo mn qua công thức UI =U \ U (R \ L) L ® RÎ F * Gọi UI là giao của các khóa trong p. Khi đó + p có một khóa duy nhất khi và chỉ khi UI =U. * Định lý Lucchesi – Osborn [3] Cho LĐQH p = (U,F), biết v khóa của p là {K 1, K2,..., Kv}, khi đó p còn khóa nữa khi và chỉ khi tồn tại một khoá KÎ {K1, K2,..., Kv} và tồn tại một PTH L®R Î F thoả: LÈ(K\R) không chứa bất kỳ khoá nào trong số khoá đã tìm được. 2. VỀ THUẬT TOÁN TÌM TẤT CẢ CÁC KHOÁ CỦA LĐQH Liệt kê tất cả các khoá của LĐQH là bài toán thuộc lớp NPC [1,3], có độ phức tạp hàm mũ. Thông thường, để tìm được tất cả các khoá của LĐQH, ta sử dụng phương pháp vét cạn các khả năng có thể tồn tại khoá, đó là xét tất cả các tập con của tập thuộc tính U. Bài báo này đề xuất phương pháp dựa trên định lý Lucchesi - Osborn tìm tất cả các khoá của LĐQH với số lần duyệt tối thiểu. Trong các thuật toán sử dụng các biến và các kí hiệu như sau: http://www.lrc-tnu.edu.vn Vũ Trí Dũng Tạp chí KHOA HỌC & CÔNG NGHỆ K = tập khoá của LĐQH. UI = tập giao của các khoá. Hàm logic Scan(X,K,i) cho giá trị true nếu tập X không chứa i khóa đầu tiên trong tập khoá K . Dễ thấy hàm này có độ phức tạp O(i.n) i = biến i làm chỉ số của tập khoá K . j = biến j dùng để đếm số lượng khoá. Thuật toán AllKeys_D1 cải tiến dựa theo phương pháp vét cạn tất cả các khả năng tồn tại khoá, nhưng thuật toán được cải tiến để tối ưu thời gian tính toán. 58(10): 41 - 44 X := UI ÈZ ("Z Í Y), (vì như thế phải tốn thời gian duyệt 2 lần, tốn thời gian lưu trữ và tốn + bộ nhớ), mà tìm bao đóng (X ) ngay khi xây dựng các tập Z Í Y. Thuật toán AllKeys_D1 liệt kê tất cả các khoá của LĐQH đã được cải tiến trên thực tế và làm giảm đáng kể thời gian tính toán. Tuy nhiên, với những cơ sở dữ liệu cỡ lớn và phức tạp thì thuật toán này trở nên không hiệu quả vì phải xử lý số lượng lớn các vòng lặp. + Bước 2: Nếu UI = U thì LĐQH có một khóa duy nhất; Dựa trên thuật toán tìm một khóa của LĐQH (Key), thuật toán tìm phủ thu gọn tự nhiên (Natural_Reduced) [1] và định lý Lucchesi Osborn, bài báo phát triển thuật toán AllKeys_D2 tìm tất cả các khoá của LĐQH với số lần duyệt tối thiểu. K := KÈUI; chuyển tới Bước 4 * Ý tưởng: * Ý tưởng: + Bước 1: Tìm giao các khoá: UI := KeyIntersec(U,F); + + Bước 1: Tìm phủ thu gọn tự nhiên Ngược lại chuyển tới Bước 3 + Bước 3: 3.1 tính Y := U \ UI; 3.2 Với tập con Z trong Y 3.2.1 Tính X:=UI È Z; 3.2.2 Gọi hàm Scan(X,K,i) để kiểm tra: nếu X không chứa bất kỳ khoá nào trong tập khoá K + và X = U thì nạp X vào kết quả: K := K ÈX; + Bước 4: return K ; Thuật toán AllKeys_D1 tương tự như phương pháp tìm khoá vét cạn. Tuy nhiên, thuật toán trở nên hữu hiệu hơn do có một số cải tiến sau: 1) Vì giao các khoá là thành phần có mặt trong mọi khoá [1], nên trước hết ta tìm giao các khoá, rồi trừ các thuộc tính thuộc tập giao các khoá có trong tập U đi, do đó số lượng thuộc tính trong tập U được giảm đi bằng số lượng tập giao các khoá, dẫn đến số vòng lặp sẽ được giảm đi đáng kể. 2) Với mỗi tập X := UIÈZ ("Z Í Y), nếu tập nào chứa một trong các khoá của LĐQH p = (U,F) (chứa Key(p)) đã tìm được thì bỏ qua mà không đi tìm bao đóng của tập X đó nữa, do đó làm giảm đáng kể thời gian tính toán (bởi vì thực tế có khá nhiều tập X chứa các khoá đã tìm được trước đó). 3.Không xây dựng các tập Z Í Y xong rồi mới duyệt mọi tập con Z để tìm bao đóng của Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên + Bước 2: (i) Tìm một khoá của LĐQH; (ii) Thêm khoá vừa tìm được vào tập khoá K + Bước 3: Duyệt lần lượt từng khoá Ki trong tập khoá K và thực hiện lặp: Với mỗi PTH L®R trong tập F, nếu L không chứa Ki thì thực hiện: 3.1 Tính X := LÈ (Ki\R); 3.2 Gọi hàm Scan để kiểm tra: nếu X không chứa bất kỳ khoá K nào trong tập khóa K thì thực hiện 3.2.1 Gọi hàm Key(X,F) để tìm thêm khoá K từ siêu khoá X; 3.2.2 Thêm khoá K vào tập khoá K ; Duyệt đến khi hết khoá có trong tập khoá K ; +Bước 4 return K ; * Algorithm AllKeys_D2 1....1 Format: AllKeys_D2(U,F) Input: - Tập thuộc tính U - Tập PTH F Output: - Tập khóa K Thoả: "K Î K : + (ii) K = U (i) K Í U + (iii)"AÎK: (K\A) ≠ U Method Natural_Reduced(F); http://www.lrc-tnu.edu.vn Vũ Trí Dũng Tạp chí KHOA HỌC & CÔNG NGHỆ K := {Key(U,F)}; i := 0; 58(10): 41 - 44 khoá có trong K nữa do đó làm giảm số lần so sánh. j := 1; repeat Thí dụ: Cho LĐQH p = (U,F) i := i + 1; for each FD L®R Î F do if L ⊉ Ki then X := LÈ(K i \ R); Tập thuộc tính U = ABCDEH Tập PTH F = {AE®D, BC®E, E®BC, AE®CE}. Tìm mọi khóa của LĐQH ? Giải: if Scan(X,K,j) then add Key(X,F) Sau khi thực hiện thủ tục Natural_Reduced ta thu được: j := j + 1; F = {AE®DC (1), BC®E (2), E®BC (3)} to K ; endif; endif; endfor; until i = j; return K ; end AllKeys_D2. Dễ nhận thấy rằng thuật toán AllKeys_D2 hiệu quả hơn hẳn do có các cải tiến sau: 1) Sử dụng thuật toán thu gọn tự nhiên, do đó loại bỏ được các PTH có vế trái trùng nhau dẫn đến làm giảm số lượng PTH, đồng thời loại bỏ các thuộc tính thuộc vế trái mà có mặt trong vế phải của các PTH (các PTH tầm thường), vì vậy làm giảm số vòng lặp. 2) Định lý Lucchesi - Osborn đã chứng minh, nếu trong LĐQH tồn tại một khoá K Î K và tồn tại một PTH L®R Î F thoả X:= LÈ (K\R) mà không chứa bất kỳ khoá nào trong số khoá đã tìm được (*) thì X là một siêu khoá [3]. Do đó ta lấy từng khoá trong tập khoá K (khoá đầu tiên tìm được qua thuật toán Key) thực hiện lần lượt với mỗi PTH thao tác trừ đi vế phải rồi hợp với vế trái mà thoả (*) thì thực hiện việc tìm khoá từ siêu khoá X. Khoá mới tìm được đem bổ sung vào tập khoá K . Duyệt cho đến hết số khoá có trong tập khoá K thì thuật toán dừng, do đó số lần lặp của vòng lặp repeat-until chỉ bằng số lượng khoá của LĐQH. 3) Khi xét một khoá Ki với PTH L®RÎF, nếu Ki Í L thì bỏ qua, không thực hiện việc tính X và không phải kiểm tra so sánh X với các Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Gọi thủ tục Key(U,F) dể khởi trị ta thu được K = {AEH}. Lần lặp repeat-until thứ 1 Ta lần lượt duyệt khóa K = AEH với các PTH trong F. Ta tìm được Với PTH (1) X = AEH, chứa khóa AEH nên bỏ qua. Với PTH (2): X = ABCH, không chứa khóa nào trong K ; Hàm Key(ABCH,F) cho ta thêm khóa mới ABCH. Ta có K = {AEH, ABCH}. Với PTH (3): X = AEH, chứa khóa AEH nên bỏ qua. Lần lặp repeat-until thứ 2 K = ABCH Với PTH (1): X = ABEH, chứa khóa AEH nên bỏ qua. Với PTH (2): X = ABCH, chứa khóa ABCH nên bỏ qua. Với PTH (3): X = AEH, chứa khóa AEH nên bỏ qua. Đến đây các khóa trong K đã được duyệt hết. Ta dừng thuật toán với kết quả K = {AEH, ABCH}. 3. KẾT LUẬN Thuật toán AllKeys_D2 có thể ứng dụng cài đặt trong các phần mềm thiết kế các CSDL chuẩn hoá. Để thuật toán có hiệu quả hơn nữa, có thể kết hợp phép dịch chuyển LĐQH [1], khi đó LĐQH được thu gọn hơn cả về số lượng thuộc tính và số lượng PTH http://www.lrc-tnu.edu.vn Vũ Trí Dũng Tạp chí KHOA HỌC & CÔNG NGHỆ 58(10): 41 - 44 TÀI LIỆU THAM KHẢO [1]. Nguyễn Xuân Huy (2006), Các phụ thuộc logic trong cơ sở dữ liệu, Viện Khoa học và Công nghệ Việt Nam, Nxb Thống kê, Hà Nội. [2]. Vũ Đức Thi, (1997), Cơ sở dữ liệu: Kiến thức và thực hành, Nxb Thống kê, Hà Nội. [3]. Claudio l. lucchesi, Sylvia l. osborn, (1978), “Candidate keys for relations”, Journal of computer and system sciences, 17, (2), pp 270-279. [4]. Ullman J., biên dịch Trần Đức Quang, (2002), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, tập 1&2, Nxb Thống kê, Hà Nội. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Vũ Trí Dũng Tạp chí KHOA HỌC & CÔNG NGHỆ 58(10): 41 - 44 SUMMARY ON THE ALGORITHM FOR FINDING ALL KEYS OF A RELATIONAL SCHEMA Vu Tri Dung* Economics and Technology Secondary Vocational Training School, Ha Nam province The theory of designing database plays an important role in information technology. In order to design a good database, we have to define the normal form of relational schema. This paper presents some improvements of the algorithm for finding all the keys of a relational schema, so that we can find out the key attributes, not-key attributes and define the normal form of relational schema and normalize the relational schema easily. Key words: Relational schema, key, functional dependency, database. * Vu Tri Dung,Tel: 0983035969, E-mail: vutridungvn@gmail.com Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn