Tổng quan về phương pháp sinh dữ liệu kiểm thử tự động từ mã nguồn

Chia sẻ: ViDeshiki2711 ViDeshiki2711 | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

71
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Kiểm thử là quá trình kiểm tra chương trình với mục đích phát hiện lỗi. Kiểm thử phần mềm cần nhiều thời gian và chi phí của dự án, thông thường chiếm 50% chi phí của dự án và 35% tổng thời gian phát triển phần mềm. Bài viết này tóm tắt các kỹ thuật chính trong việc sinh dữ liệu kiểm thử tự động từ mã nguồn và một số hướng nghiên cứu cải tiến.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tổng quan về phương pháp sinh dữ liệu kiểm thử tự động từ mã nguồn

TỔNG QUAN VỀ PHƯƠNG PHÁP SINH DỮ LIỆU KIỂM THỬ TỰ ĐỘNG TỪ MÃ NGUỒN Trần Nguyên Hương Vũ Mạnh Điệp Trường Cao đẳng Sư phạm Trung ương Trường Cao đẳng Sư phạm Trung ương Email: huongtw@gmail.com Email: diepvm@gmail.com Tóm tắt: Kiểm thử là quá trình kiểm tra chương trình với mục đích phát hiện lỗi. Kiểm thử phần mềm cần nhiều thời gian và chi phí của dự án, thông thường chiếm 50% chi phí của dự án và 35% tổng thời gian phát triển phần mềm. Bước quan trọng của kiểm thử phần mềm là tự động sinh các bộ dữ liệu kiểm thử từ mã nguồn một cách tối ưu dựa trên các tiêu chuẩn cho trước. Bài báo này tóm tắt các kỹ thuật chính trong việc sinh dữ liệu kiểm thử tự động từ mã nguồn và một số hướng nghiên cứu cải tiến. Từ khóa: Kiểm thử phần mềm, sinh dữ liệu kiểm thử tự động, kiểm thử tĩnh, kiểm thử động, mã nguồn. I. TỔNG QUAN VỀ SINH DỮ LIỆU KIỂM nguồn chương trình. Ngược lại, phương pháp THỬ DỰA TRÊN MÃ NGUỒN kiểm thử hộp trắng đánh giá chất lượng mã nguồn bằng cách sử dụng các kĩ thuật phân Trong quá trình phát triển phần mềm, kiểm tích mã nguồn. Do kiểm thử hộp trắng đi sâu thử là một giai đoạn quan trọng và thực sự vào phân tích mã nguồn nên kĩ thuật này cho cần thiết để tạo ra phần mềm có chất lượng cao. Có nhiều mức kiểm thử trong giai đoạn phép phát hiện các lỗi tiềm ẩn mà kiểm thử này, bao gồm kiểm thử đơn vị, kiểm thử tích hộp đen không phát hiện được. Tuy nhiên, chi hợp, kiểm thử hệ thống và kiểm thử chấp phí kiểm thử hộp trắng lớn hơn rất nhiều so nhận. Trong các mức trên thì kiểm thử đơn với kiểm thử hộp đen. Đặc biệt, trong các dự vị (unit test) là một trong những pha quan án công nghiệp, chi phí kiểm thử hộp trắng trọng nhất để đảm bảo chất lượng của phần có thể chiếm hơn 50% tổng chi phí phát triển mềm. Hai phương pháp được sử dụng phổ phần mềm. Nguyên nhân của tình trạng này biến trong kiểm thử đơn vị gồm kiểm thử là do số lượng hàm cần kiểm thử lên tới hàng hộp đen (black-box testing) và kiểm thử hộp nghìn, thậm chí hàng chục nghìn. Kết quả là trắng (white-box testing). Kiểm thử hộp đen chi phí để kiểm thử hết những hàm này khá chỉ kiểm tra tính đúng đắn của đầu ra với đầu lớn, ảnh hưởng khá nhiều đến tốc độ phát vào cho trước mà không quan tâm đến mã triển dự án. Vì thế, quá trình kiểm thử hộp TẠP CHÍ KHOA HỌC 3 QUẢN LÝ VÀ CÔNG NGHỆ trắng cần được tự động hóa để giải quyết bài các đường kiểm thử. toán về chi phí. Hiện nay, đa số quá trình thực Kỹ thuật kiểm thử tĩnh có ưu điểm là tốc hiện tự động hóa đều tập trung vào việc thực độ thực thi nhanh so với kỹ thuật kiểm thử thi ca kiểm thử (test case) mà không quan tâm động, số dữ liệu kiểm thử sinh ra ít (đặc biệt là đến việc thiết kế ca kiểm thử (việc phát hiện lỗi trong trường hợp chương trình có vòng lặp). phần mềm phụ thuộc chủ yếu vào chất lượng Tuy nhiên có hạn chế là độ phức tạp cao vì các ca kiểm thử). Hai thành phần chính trong phải phân tích toàn bộ mã nguồn, kỹ thuật này thiết kế ca kiểm thử là thiết kế dữ liệu kiểm khó áp dụng cho các dự án công nghiệp bởi thử và kết quả đầu ra mong đợi (expected vì hỗ trợ tất cả mọi cú pháp là điều không thể. output). Tuy nhiên, thiết kế các kết quả đầu ra mong đợi là khó khăn, khó tự động hóa. Do Trái ngược với kỹ thuật kiểm thử tĩnh, kỹ vậy trong thiết kế ca kiểm thử người ta quan thuật kiểm thử động không yêu cầu phải phân tâm nhiều đến sinh dữ liệu kiểm thử. tích mọi cú pháp của chương trình để sinh dữ liệu kiểm thử. Để giảm chi phí phân tích mã Cho đến nay, có hai kĩ thuật chính để nguồn mà vẫn đạt độ phủ cao, kỹ thuật kiểm sinh dữ liệu kiểm thử là kĩ thuật kiểm thử tĩnh thử động kết hợp quá trình phân tích cú pháp (static testing) và kiểm thử động (dynamic chương trình với trình biên dịch [1] [2] [3] [10]. testing). Điểm chung của các kĩ thuật là sử Bởi thế, kỹ thuật kiểm thử động dễ dàng đạt dụng kĩ thuật thực thi tượng trưng (symbolic được độ phủ cao mà không cần phải phân execution) và sinh dữ liệu kiểm thử qua giải tích chương trình nhiều. hệ ràng buộc sử dụng kĩ thuật sinh ngẫu nhiên hoặc bộ giải SMT-Solver. Kĩ thuật thực Kỹ thuật kiểm thử động gồm hai kĩ thuật thi tượng trưng, nêu trong do James C. King kiểm thử được sử dụng phổ biến gồm kĩ giới thiệu lần đầu tiên vào năm 1976, sau đó thuật EGT (execution generated testing) và kĩ đã có một số cải tiến trong [5][6] và là một thuật kiểm thử tự động định hướng (concolic kĩ thuật phổ biến để sinh dữ liệu kiểm thử tự testing): động. Trong bài toán sinh dữ liệu kiểm thử, từ đầu vào là đường thi hành, kỹ thuật này sẽ Kĩ thuật EGT được áp dụng trong công cụ thay thế các giá trị đầu vào cụ thể bằng các sinh dữ liệu kiểm thử tự động nổi tiếng KLEE giá trị tượng trưng để đại diện cho một miền [2] – một công cụ được đánh giá cao bởi tính các mà hành vi chương trình là như nhau. hiệu quả của nó. Tư tưởng chính của kĩ thuật EGT là vừa chạy chương trình vừa sinh dữ Tư tưởng chính của kỹ thuật kiểm thử liệu kiểm thử trực tiếp. Chẳng hạn, khi gặp một tĩnh là sinh dữ liệu kiểm thử bằng phân tích điều kiện (điểm quyết định trên đồ thị CFG), mã nguồn (không thực thi mã nguồn) sử dữ liệu kiểm thử tương ứng nhánh đúng và dụng kĩ thuật thực thi tượng trưng. Quy trình nhánh sai của điều kiện này được sinh ra. Tại thực hiện như sau: (1) mã nguồn được phân đây, với mỗi dữ liệu kiểm thử, một tiến trình tích và chuyển thành đồ thị dòng điều khiển mới được tạo ra sẽ phân tích chương trình (control flow graph - CFG) theo tiêu chuẩn theo nhánh đúng/sai đó. Quá trình sinh dữ liệu bao phủ (coverage criteria) cho trước; (2) sinh kiểm thử chỉ dừng khi một trong ba điều kiện các đường kiểm thử (test path) bằng cách sau thỏa mãn (i) đạt độ phủ tối đa (ii) không duyệt đồ dòng điều khiển; (3) sinh ra hệ ràng còn nhánh đúng/sai nào để phân tích tiếp, (iii) buộc từ đường kiểm thử; (4) sinh dữ liệu kiểm đạt đến giới hạn thời gian cho phép. Nhược thử (ngẫu nhiên hoặc sử dụng bộ giải SMT- điểm chính của kĩ thuật EGT là hiệu suất thấp solver). Các bước (2), (3), (4) được lặp lại cho khi kiểm thử hàm chứa vòng lặp có số lần lặp đến khi đạt tiêu chí độ phủ hoặc đã duyệt hết lớn, hoặc chứa lời gọi đệ quy. Khi đó, số tiến 4 TẠP CHÍ KHOA HỌC QUẢN LÝ VÀ CÔNG NGHỆ trình được tạo ra có thể từ hàng trăm tới hàng dụng sinh các dữ liệu kiểm thử kế tiếp. Nếu nghìn. Kĩ thuật này thể hiện tính hiệu quả khi không thể sinh hệ phủ định nào khác, thuật tìm các lỗi tiềm ẩn trong chương trình bởi vì toán kết thúc. EGT xem xét mọi trường hợp có thể xảy ra. Tuy nhiên, kĩ thuật EGT không phù hợp với Bước 7: Giải hệ ràng buộc thu được ở bài toán sinh dữ liệu kiểm thử đạt độ phủ tối bước 6 để sinh dữ liệu kiểm thử kế tiếp. Nếu đa bởi vì chúng ta không cần xem xét hết mọi không có dữ liệu kiểm thử nào thỏa mãn, quay trường hợp khi sinh dữ liệu kiểm thử. về bước 6 để tìm hệ ràng buộc phủ định mới sao cho khác hệ ràng buộc hiện tại. Ngược Kĩ thuật kiểm thử tự động định hướng lại, quay lại bước 3 để chạy dữ liệu kiểm thử được đề xuất vào năm 2005 và cài đặt trong kế tiếp này. công cụ DART [3]. Tư tưởng của kĩ thuật kiểm thử tự động định hướng là sinh dữ liệu II. NHỮNG HƯỚNG NGHIÊN CỨU HIỆN kiểm thử kế tiếp từ các dữ liệu kiểm thử trước NAY đó. Sau này, kĩ thuật kiểm thử tự động định 2.1. Phân tích chương trình, tiền xử lý mã hướng liên tục được cải tiến trong các công nguồn cụ PathCrawler [10], CUTE [4], CAUT [8][9], và CREST [1]. Quy trình kiểm thử tự động Trước khi thực thi chương trình để sinh dữ định hướng do Koushik Sen cùng các cộng liệu kiểm thử tự động từ mã nguồn, chương sự đề xuất DART [3] gồm các bước như sau: trình cần phải phân tích, tiền xử lý mã nguồn. Tuy nhiên, phân tích đầy đủ mã nguồn cho Bước 1: Chèn các câu lệnh đánh dấu vào một ngôn ngữ lập trình là điều rất khó khăn hàm cần kiểm thử (instrument function). Các nhất là khi ngôn ngữ lập trình thường xuyên câu lệnh đánh dấu giúp xác định được danh có sự nâng cấp thành phiên bản mới. Hiện sách câu lệnh được thực thi khi chạy chương nay, các ngôn ngữ lập trình được phân tích trình. nhiều là ngôn ngữ C/C++, Java, C#. Tuy Bước 2: Sinh ngẫu nhiên một bộ dữ liệu nhiên, việc phân tích mã nguồn chủ yếu tập kiểm thử đầu tiên dựa trên tham số truyền vào trung hỗ trợ cú pháp và các kiểu dữ liệu cơ hàm (kiểu cơ sở, con trỏ, mảng, dẫn xuất). bản, kiểu con trỏ, kiểu mảng, xử lý vòng lặp. Kỹ thuật thường được áp dụng là sử dụng thư Bước 3: Thực thi chương trình với dữ liệu viện phân tích mã nguồn, chẳng hạn Eclipse kiểm thử vừa tìm được. Nếu không thực thi CDT cho C/C++. Đầu vào của Eclipse CDT là được (lỗi xảy ra) thì quay lại bước 2 để sinh mã nguồn, đầu ra là cây cú pháp trừu tượng bộ giá trị khác. (Abstract Syntax Tree – AST) ứng với mã Bước 4: Tìm tập các câu lệnh đã được đi nguồn đó. Từ AST, người ta sẽ xây dựng đồ qua với dữ liệu kiểm thử ở bước 3 (đường thi thị CFG làm cơ sở cho việc thực thi các bước hành – test path) để xây dựng được hệ ràng tiếp theo của quá trình kiểm thử tự động. buộc tương ứng. Hiện nay đã có một số nghiên cứu quan Bước 5: Tính độ phủ đạt được với dữ liệu tâm đến giải quyết tính hướng đối tượng của kiểm thử mới nhất. Nếu độ phủ đạt được tối ngôn ngữ lập trình, chẳng hạn chương trình đa hoặc hết thời gian, quá trình sinh dữ liệu có tính đa hình động, khuôn hình lớp. kiểm thử kết thúc. Ngược lại sang bước 6 Vấn đề phân tích mã nguồn cần tiếp tục Bước 6: Phủ định hệ ràng buộc thu được cải tiến để có thể hỗ trợ phân tích đầy đủ cho ở bước 4 để sinh các hệ ràng buộc mới có tác các chương trình C/C++, Java… và nhiều TẠP CHÍ KHOA HỌC 5 QUẢN LÝ VÀ CÔNG NGHỆ ngôn ngữ khác. Các vấn đề còn đang được từ các câu lệnh/nhánh đã thăm tới khối lệnh nghiên cứu như vấn đề quản lý bộ nhớ, phân chưa được thăm; CAUT cố gắng tìm đường tích các chương trình có tính kế thừa, chồng thi hành tốt nhất từ câu lệnh đã được thăm toán tử, chồng hàm, khuôn hình v.v. Mặt khác, đến khối lệnh chưa được khám phá. tối ưu hóa quá trình phân tích mã nguồn là một vấn đề mở cần được nghiên cứu. Các tác giả Nguyễn Đức Anh và Phạm Ngọc Hùng đã đề xuất kĩ thuật xếp hạng đường 2.2. Chiến lược tìm đường thi hành thi hành theo độ ưu tiên trong [7]. Đường thi hành tăng độ phủ càng lớn thì độ ưu tiên càng Sau khi thực thi bộ dữ liệu kiểm thử, tập cao. Mức độ tăng độ phủ được đánh giá qua hợp các câu lệnh được thực thi sẽ tạo thành trạng thái đồ thị dòng điều khiển (CFG). Trong đường thi hành (test path). Hiện tại, nhiều trường hợp hai đường thi hành cùng tăng độ công trình nghiên cứu đưa ra nhiều chiến phủ bằng nhau thì đường thi hành ngắn hơn lược chọn đường thi hành khác nhau để sinh được ưu tiên hơn. Nguyên nhân bởi vì chi phí dữ liệu kiểm thử kế tiếp càng tăng độ phủ phân tích mã nguồn khá lớn, những đường thi càng tốt như [1], [8], [10]. Theo tư tưởng của hành ngắn hơn được ưu tiên hơn các đường kĩ thuật kiểm thử tự động định hướng, bộ dữ thi hành khác để giảm chi phí phân tích mã liệu kiểm thử kế tiếp được sinh ra từ nhánh/ nguồn. câu lệnh chưa được đi qua bởi các bộ dữ liệu kiểm thử trước đó. Có hai loại chiến lược tìm Ngoài các chiến lược ở trên, hai nhóm đường thi hành chính bao gồm chiến lược chiến lược sau đã được nghiên cứu và sử truyền thống và dựa trên đồ thị dòng điều dụng là nhóm chiến lược tìm kiếm heuristic khiển (CFG-based). Chiến lược truyền thống (Heuristic Search Strategy) và nhóm chiến được được Patrice Godefroid đề xuất vào lược loại bỏ dư thừa (Pruning Redundance năm 2005 và được áp dụng trong công cụ Strategy). Đây là các nghiên cứu có nhiều kết DART. Các kĩ thuật tìm kiếm trong chiến lược quả tốt và phù hợp. truyền thống gồm: tìm kiếm theo chiều sâu (DFS), tìm kiếm theo chiều rộng (BFS) và tìm 2.3. Tối ưu hóa và giải hệ ràng buộc kiếm ngẫu nhiên. Theo chiến lược này, điều Kích thước của hệ ràng buộc có thể khá kiện cuối cùng của đường thi hành mới nhất lớn, và cấu trúc khá phức tạp làm tăng thời được phủ định để sinh dữ liệu kiểm thử tiếp gian giải hệ ràng buộc. Điều đó dẫn đến bài theo mà không xét đến trạng thái của đồ thị toán tối ưu hệ ràng buộc trước khi sử dụng luồng điều khiển. Tuy nhiên, việc phủ định này SMT-Solver để giải hệ ràng buộc đó. có thể khiến quá trình sinh dữ liệu kiểm thử bị lặp vô hạn trong trường hợp hàm có vòng lặp. + Loại bỏ ràng buộc không liên quan: Sau này, các nghiên cứu trong PathCrawler Trước khi giải hệ ràng buộc cần xem xét [10] và CUTE [4] giải quyết vấn đề này bằng để loại bỏ các ràng buộc không liên quan, cách hạn chế số lần lặp tối đa của vòng lặp. nhằm tối ưu hóa hệ ràng buộc. Một vài kĩ thuật Tiếp nối với các nghiên cứu trước đó, số đơn giản để giảm độ phức tạp ràng buộc như lượng bộ dữ liệu kiểm thử được giảm thiểu hơn kĩ thuật đơn giản hóa biểu thức (ví dụ: x+0 > nữa bởi các nghiên cứu của nhóm CREST [1], 1 đơn giản hóa thành x >1), kĩ thuật suy biến nhóm CAUT [8] [9] do áp dụng chiến lược dựa nhanh giá trị biến (ví dụ: x+1=10 đơn giản hóa trên đồ thị dòng điều khiển để chọn nhánh phủ thành x=9), kĩ thuật loại bỏ hệ ràng buộc hiển định tốt nhất. Cụ thể là CREST sử dụng thuật nhiên (ví dụ: x0)^(z>0)^(y0)^(z>0)& ¬(y