intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu xây dựng hệ thống phân tích hoạt động đầu tư trong thị trường chứng khoán

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:25

161
lượt xem
41
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ứng dụng khai phá dữ liệu xây dựng hệ thống phân tích hoạt động đầu tư trong thị trường chứng khoán nhằm ứng dụng khai phá dữ liệu mang hiệu quả kinh tế từ thị trường chứng khoán.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu xây dựng hệ thống phân tích hoạt động đầu tư trong thị trường chứng khoán

  1. 1 B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG HUỲNH Đ C THU N NG D NG KHAI PHÁ D LI U XÂY D NG H TH NG PHÂN TÍCH HO T Đ NG Đ U TƯ TRONG TH TRƯ NG CH NG KHOÁN TÓM T T LU N VĂN TH C SĨ KĨ THU T Chuyên ngành: Khoa h c máy tính Mã s : 60.48.01 ĐÀ N NG, NĂM 2010
  2. 2 M Đ U 1. LÝ DO CH N Đ TÀI Khám phá tri th c (KPTT) hay khai phá d li u (KPDL) trTong cơ s d li u (CSDL) ñang là m t xu hư ng quan tr ng c a n n công ngh thông tin (CNTT) th gi i. KPTT có kh năng ng d ng vào r t nhi u l p bài toán th c t khác nhau. Lĩnh v c tài chính nói chung và th trư ng ch ng khoán (TTCK) nói riêng lưu tr m t kh i lư ng d li u kh ng l , bao g m thông tin các mã c phi u, thông tin giao d ch và kh i lư ng giao d ch ròng, và thông tin d li u v khách hàng… ng d ng sinh lu t k t h p t KPDL ñ phát hi n ra quy lu t n ch a trong kh i lư ng d li u kh ng l ñó s mang l i cho các nhà ñ u tư nhi u cơ h i ñ ch n l a lo i c phi u c n ñ u tư, có hình th c và quy mô giao d ch phù h p nh m ñ t ñư c giá tr gia tăng hi u qu . Tuy nhiên, trong b i c nh hi n nay vi c ñ u tư vào TTCK hi n nay Vi t Nam có r t nhi u khó khăn: lư ng thông tin nhi u và không h p nh t, s chuy n bi n khó ñoán trư c c a di n bi n TTCK, các ph n m m tr giúp hi n t i chưa phù h p v i môi trư ng TTCK t i Vi t Nam… Đó là nh ng khó khăn c n tr giúp cho nhà ñ u tư trong phân tích ho t ñ ng ñ u tư phù h p trong TTCK. 2. M C TIÊU NGHIÊN C U Xu t phát t lý do ñó tôi ñã th c hi n ñ tài: " ng d ng khai phá d li u xây d ng h th ng phân tích ho t ñ ng ñ u tư trong th trư ng ch ng khoán”. M c tiêu c a ñ tài là ñ xu t gi i pháp ng d ng KPDL ñ xây d ng h th ng tr giúp nhà ñ u tư trong công tác phân tích ho t ñ ng ñ u tư c phi u h p lí trong TTCK sao cho mang l i hi u qu kinh t trong ñi u ki n có th .
  3. 3 Nhi m v ñ u tiên c a ñ tài là ñánh giá ñư c tính kh thi c a ch c năng phân tích ch ng t r ng các c phi u trong TTCK thay ñ i theo qui lu t. Nhi m v th hai là xem xét các lí thuy t, thu t toán phù h p ñ áp d ng mô hình phân tích ho t ñ ng ñ u tư phù h p trong ñi u ki n có th . 3. Đ I TƯ NG NGHIÊN C U Phân tích ho t ñ ng ñ u tư trong TTCK là m t n i dung r t khó vì tính bi n ñ ng, không n ñ nh và kh i lư ng thông tin, d li u trên th trư ng ngày càng nhi u. Trư c ñây ñã có m t s lu n văn ñ c p ñ n KPDL nhưng ch ng d ng trên các ñ i tư ng ñơn gi n hơn như tr giúp kinh doanh, tr giúp phân lo i văn b n… V i ñ tài này vi c thu th p d li u cũng như x lí ñư c chúng ñ ñưa ra nh ng thông tin h u ích nh t mang tính ph c t p và nh p nh ng. 4. PHƯƠNG PHÁP NGHIÊN C U Đ th c hi n lu n văn tôi ti n hành nghiên c u lý thuy t v KPDL ??? và ng d ng th c t t i các sàn giao d ch ch ng khoán. 5. B C C LU N VĂN B c c c a lu n văn bao g m nh ng ph n như sau : ph n m ñ u trình bày lý do ch n ñ tài, m c ñích ý nghĩa và m c tiêu nhi m v trong ñ tài. Trong chương m t, lu n văn t p trung gi i thi u TTCK và nhi m v phân tích ho t ñ ng ñ u tư c phi u, trong chương này ta t p trung tìm hi u rõ v TTCK Vi t Nam, các thông tin c n ñư c s d ng trong TTCK ph c v cho m c ñích, nhi m v c a ñ tài. Chương hai t p trung vào các phương th c d báo cho TTCK: trong chương này ta tìm hi u v lu t k t h p và thu t toán Apriori nh m gi i quy t các v n ñ khi ti n hành phân tích trong TTCK ñã tìm hi u chương m t b ng KPDL.
  4. 4 V i nh ng th c ti n và khoa h c ñư c nêu ra trong chương m t và hai, tôi xây d ng h th ng ng d ng trong chương ba. Đó là h th ng phân tích và d ñoán b ng lu t k t h p c a KPDL: trong chương này ta ng d ng nh ng gi i quy t chương hai ñ xây d ng ph n m m tư v n cho nhà ñ u tư. T nh ng k t qu ñ t ñư c, ph n cu i c a lu n văn nêu ra nh ng phép ño tính hi u qu c a nghiên c u, ñưa ra ñánh giá trên các k t qu ñ t ñư c, nh ng h n ch và ñ xu t hư ng nghiên c u ti p theo.
  5. CHƯƠNG 1 : TÌM HI U TH TRƯ NG CH NG KHOÁN VÀ HO T Đ NG Đ U TƯ 1.1 TÌM HI U V TTCK 1.1.1 Đ c ñi m TTCK TTCK phong phú v lĩnh v c ñ u tư, ña d ng v ch ng lo i hàng hóa và ph c t p v các qui lu t ñ u tư; là nơi mua bán các ch ng khoán và thư ng ñư c th c hi n ch y u t i s giao d ch ch ng khoán, m t ph n các công ty môi gi i. 1.1.2 TTCK Vi t Nam TKCK Vi t Nam ra ñ i m i hơn 10 năm nhưng ñã có nh ng nh hư ng to l n ñ n n n kinh t qu c gia. Vi c nghiên c u và xây d ng m t h th ng phân tích và d ñoán (nhi m v tư v n) cho TTCK là quan tr ng và c p thi t cho các nhà ñ u tư và nhà ho ch ñ nh chính sách vĩ mô. TTCK Vi t Nam hi n t i g m hai sàn giao d ch: HOSE và HASTC. 1.1.3 Nh ng r i ro g p ph i c a nhà ñ u tư Các r i ro thư ng g p c a nhà ñ u tư: r i ro do tính thanh kho n th p, r i ro t thông tin, r i ro t các quy ñ nh và ch t lư ng d ch v c a sàn giao d ch, r i ro t các ch n ñ ng th trư ng. 1.2 TÌM HI U PHƯƠNG PHÁP VÀ MÔ HÌNH PHÂN TÍCH HO T Đ NG Đ U TƯ 1.2.1 Tìm hi u các phương pháp phân tích ho t ñ ng ñ u tư Các phương pháp phân tích hi n nay ch y u d a vào b n cách chính: d a vào các phân tích k thu t ñ ñưa ra tư v n, d a
  6. vào các phân tích cơ s ñ ñưa ra tư v n, d a vào phương pháp d báo chu i th i gian quá kh và d a vào phương pháp máy h c Trong ph m vi nghiên c u và ng d ng c a lu n văn s t p trung vào phương pháp s d ng t p d li u m u và xem xét s thay ñ i c a nó theo th i gian ñ ñưa ra các phân tích và d ñoán 1.2.2 Mô hình h th ng phân tích-d ñoán TTCK Thu th p d li u Đây là quá trình l y d li u t các ngu n internet, báo chí, thông cáo… Phân tích ý nghĩa ch s D li u sau khi ñư c thu th p và chuy n ñ i phù h p s ñư c ti n hành phân tích và ñưa ra các d ñoán. Cung c p thông tin tư v n cho nhà ñ u tư D li u sau khi ñư c phân tích d báo s ñươc cung c p cho nhà ñ u tư thông qua các giao di n thân thi n Tóm l i, m c ñích chính c a lu n văn có th ñư c tóm t t như sau: cho ti{i = 1, 2,…n} là giá tr c a c phi u S trong các ngày th 1, 2, …, n, chúng ta xác ñ nh ñư c di n bi n c phi u S trong các ngày n + 1, n + 2, n + 3
  7. Quá trinh trên ñư c mô t trong hình 1.1 dư i ñây. Internet: Các ngu n khác Quá trình thu nh p d li u Quá CSDL trình KPDL Kho d Nhà qu n tr li u Kho trith c ng d ng ngư i dùng (Web, n n PC, Mobile…) Nhà ñ u tư Hình 1.1. Mô hình h th ng phân tích và d ñoán TTCK
  8. 1.3 CÁC THÔNG TIN LIÊN QUAN Đ N TƯ V N TRONG TTCK 1.3.1 Lí thuy t ñ u tư Gi i ñ u tư d a vào hai lí thuy t chính: Firm Foundation và Castle in the Air. D theo nh ng lí thuy t này chúng ta s xác ñ nh ñư c các th trư ng ñ nh hình, hay nói cách khác là cách các nhà ñ u tư nghĩ và ph n ng trư c nh ng thay ñ i c a ch s và làn sóng ñ u tư. 1.3.2 D li u trong TTCK D li u bao g m các thông tin trên Web, thông tin niêm y t c a chính công ty tham gia TTCK. Ngoài ra nhà ñ u tư còn d a vào lo i d li u kĩ thu t, d li u sơ c p và d li u th c p. 1.4 PHÂN TÍCH TRONG TTCK 1.4.1 Xác ñ nh nhi m v phân tích ho t ñ ng ñ u tư Nhi m v tư v n có hai m c ñích chính. Đó là phân tích: d a trên t t c d li u quá kh , hi n t i ñ ñưa ra các phân tích trên nh ng ch s s n có, ch ng h n: giá tr c phi u ñang tăng, nhà ñ u tư ñã không còn ñ u tư vào c phi u này…nh ng phân tích này d a trên s li u th c t nêu l i hi n tr ng cho m t lo i c phi u cho trư c. T nh ng phân tích ñó, h th ng tư v n s ñưa ra các d ñoán nh ng c phi u nào có kh năng tăng trong l n giao d ch k ti p d a trên lu t k t h p và thu t toán kèm theo. 1.4.2 Kh năng phân tích ho t ñ ng ñ u tư trong TTCK Kh năng tư v n trong TTCK theo các h c thuy t là khó theo EMH.
  9. 1.4.3 Phương th c phân tích ho t ñ ng ñ u tư Chúng ta phân lo i nh ng k thu t này như sau: phương pháp phân tích k thu t, phương pháp phân tích cơ s , phương pháp d báo chu i th i gian quá kh và phương pháp máy h c. Tiêu chu n cho vi c phân lo i là lo i công c và lo i d li u mà m i phương pháp ñư c s d ng ñ d báo th trư ng. Các n i dung trong chương này t p trung gi i thi u v TTCK t i Vi t Nam, các ñ c ñi m v giao d ch cũng như nh ng thông tin cơ b n v TTCK, c phi u và giao d ch. T nh ng phân tích ban ñ u v TTCK, ta ñưa ra ñư c nhi m v chính c a lu n văn, nhi m v c a phân tích và d ñoán v xu hư ng c phi u b ng các k thu t KPDL.
  10. CHƯƠNG 2 : TÌM HI U KHAI PHÁ D LI U VÀ THU T TOÁN SINH LU T K T H P 2.1 M Đ U Trong chương hai, tôi ñi sâu vào các phương pháp, k thu t tư v n th c t trong th trư ng ch ng khóa, qua ñó s d ng các ki n th c c a KPDL vào ñ phân tích và d ñoán các k t qu c a TTCK. 2.2 KHAI PHÁ D LI U (KPDL) 2.2.1 Các khái ni m cơ b n Khi lưu tr các d li u kh ng l thì chúng ta th y r ng ch c ch n chúng ph i ch a nh ng giá tr nh t ñ nh nào ñó. Tuy nhiên, theo th ng kê thì ch có m t lư ng nh c a nh ng d li u này (kho ng t 5% ñ n 10%) là luôn ñư c phân tích, s còn l i h không bi t s ph i làm gì ho c có th làm gì v i chúng nhưng h v n ti p t c thu th p r t t n kém v i ý nghĩ lo s r ng s có cái gì ñó quan tr ng ñã b b qua sau này có lúc c n ñ n nó. M t khác, trong môi trư ng c nh tranh, ngư i ta ngày càng c n có nhi u thông tin v i t c ñ nhanh ñ tr giúp vi c ra quy t ñ nh và ngày càng có nhi u câu h i mang tính ch t ñ nh tính c n ph i tr l i d a trên m t kh i lư ng d li u kh ng l ñã có. T th c t ñó ñã làm phát tri n m t khuynh hư ng k thu t m i ñó là k thu t phát hi n tri th c và khai phá d li u. 2.2.2 M c tiêu c a khai phá d li u M c tiêu chính c a KPDL là l y ñư c nh ng thông tin h u ích t lư ng d li u kh ng l .
  11. 2.2.3 Các bư c chính c a khám phá tri th c Gom d li u (Gathering) T p h p d li u là bư c ñ u tiên trong quá trình KPDL. Đây là bư c ñư c khai thác trong m t CSDL, m t kho d li u và th m chí các d li u t các ngu n ng d ng Web. Trích l c d li u (Selection) giai ño n này d li u ñư c l a ch n ho c phân chia theo m t s tiêu chu n nào ñó, ví d ch n t t c nh ng ngư i có tu i ñ i t hai lăm ñ n ba lăm và có trình ñ ñ i h c. Làm s ch, ti n x lý và chu n b trư c d li u (Cleansing, Pre-processing and Preparation) Giai ñoan th ba này là giai ño n hay b sao lãng, nhưng th c t nó là m t bư c r t quan tr ng trong quá trình KPDL. M t s l i thư ng m c ph i trong khi gom d li u là tính không ñ ch t ch , logic. Vì v y, d li u thư ng ch a các giá tr vô nghĩa và không có kh năng k t n i d li u. Ví d : tu i = sáu trăm b y mươi ba. Giai ño n này s ti n hành x lý nh ng d ng d li u không ch t ch nói trên. Nh ng d li u d ng này ñư c xem như thông tin dư th a, không có giá tr . B i v y, ñây là m t quá trình r t quan tr ng vì d li u này n u không ñư c “làm s ch - ti n x lý - chu n b trư c” thì s gây nên nh ng k t qu sai l ch nghiêm tr ng. Chuy n ñ i d li u (Transformation) Ti p theo là giai ño n chuy n ñ i d li u, d li u ñưa ra có th s d ng và ñi u khi n ñư c b i vi c t ch c l i nó. D li u ñã ñư c chuy n ñ i phù h p v i m c ñích khai thác.
  12. Phát hi n và trích m u d li u (Pattern Extraction and Discovery) Đây là bư c mang tính tư duy trong KPDL. giai ño n này nhi u thu t toán khác nhau ñã ñư c s d ng ñ trích ra các m u t d li u. Thu t toán thư ng dùng là nguyên t c phân lo i, nguyên t c k t h p ho c các mô hình d li u tu n t ,. v.v. Đánh giá k t qu m u (Evaluation of Result) Đây là giai ño n cu i trong quá trình KPDL. giai ño n này, các m u d li u ñư c chi t xu t ra b i ph n m m KPDL. Không ph i b t c m u d li u nào cũng ñ u h u ích, ñôi khi nó còn b sai l ch. Vì v y, c n ph i ưu tiên nh ng tiêu chu n ñánh giá ñ chi t xu t ra các tri th c c n chi t xu t ra. Trên ñây là sáu giai ño n trong quá trình KPDL, trong ñó giai ño n 5 là giai ño n ñư c quan tâm nhi u nh t hay còn g i ñó là KPDL. 2.2.4 Phát hi n v n ñ trong KPDL Đây là m t quá trình mang tính ñ nh tính v i m c ñích xác ñ nh ñư c lĩnh v c yêu c u phát hi n tri th c và xây d ng bài toán t ng k t. 2.2.5 Các hư ng ti p c n KPDL Các hư ng ti p c n c a KPDL có th ñư c phân chia theo ch c năng hay l p các bài toán khác nhau. Sau ñây là m t s hư ng ti p c n chính. Hư ng ti p c n ph bi n là phân l p và d ñoán, M t trong nh ng hư ng ti p c n hi u qu là s d ng lu t k t h p, M t trong
  13. nh ng hư ng ti p c n d hình dung là khai phá chu i theo th i gian, M t hương ti p c n khó th c hi n là phân c m M t trong nh ng hư ng ti p c n hi u qu là s d ng lu t k t h p (association rules): là d ng lu t bi u di n tri th c d ng khá ñơn gi n Phương pháp này nh m phát hi n ra các lu t k t h p gi a các thành ph n d li u trong CSDL. M u ñ u ra c a gi i thu t KPDL là t p lu t k t h p tìm ñư c. 2.2.6 Nhi m v c a KPDL Nh ng nhi m v cơ b n nh t c a khai phá d li u là: phân c m, phân lo i, phân nhóm, phân l p ; khai phá lu t k t h p; l p mô hình d báo; phân tích ñ i tư ng ngoài cu c; phân tích s ti n hóa. 2.2.7 Các k thu t KPDL Quá trình KPDL là quá trình phát hi n m u trong ñó gi i thu t KPDL tìm ki m các m u ñáng quan tâm theo d ng xác ñ nh như các lu t, cây phân l p, h i quy, phân nhóm,… Các phương pháp ph bi n ñây thư ng là phương pháp quy n p, cây quy t ñ nh và lu t, khai phá lu t k t h p, các phương pháp phân l p và h i quy phi tuy n, phân nhóm và phân ño n, các phương pháp d a trên m u, KPDL văn b n và m ng neuron. 2.2.8 ng d ng c a KPDL KPDL là m t lĩnh v c ñư c quan tâm và ng d ng r ng rãi. M ts ng d ng ñi n hình trong KPDL có th li t kê: phân tích d li u và h tr ra quy t ñ nh; ñi u tr y h c; phát hi n văn b n; tin sinh h c; tài chính và TTCK; b o hi m...
  14. 2.2.9 Nh ng t n t i trong KPDL Các t n t i c n ph i gi i quy t trong KPDL: d li u l n; kích thư c l n; d li u ñ ng; các trư ng d li u không phù h p; các giá tr b thi u; các trư ng d li u b thi u; quá phù h p; kh năng bi u ñ t m u; s tương tác v i ngư i s d ng các tri th c s n có 2.3 KHAI PHÁ LU T K T H P 2.3.1 Tìm hi u lu t k t h p Lu t k t h p là d ng lu t khá ñơn gi n nhưng l i mang khá nhi u ý nghĩa. Thông tin mà d ng lu t này ñem l i là r t ñáng k và h tr không nh trong quá trình ra quy t ñ nh. Tìm ki m ñư c các lu t k t h p quý hi m và mang nhi u thông tin t CSDL tác nghi p là m t trong nh ng hư ng ti p c n chính c a lĩnh v c khai thác d li u. 2.3.2 Đ nh nghĩa Cho I={I1, I2, .., Im} là t p h p c a m tính ch t riêng bi t. Gi s D là CSDL, v i các b n ghi ch a m t t p con T các tính ch t (có th coi như T là t p con c a I), các b n ghi ñ u có ch s riêng. M t lu t k t h p là m t m nh ñ kéo theo có d ng X => Y, trong ñó X, Y cũng là t p con c a I, th a mãn ñi u ki n : X giao Y = tr ng. Các t p h p X và Y ñư c g i là các t p m c (theo ti ng Anh là itemset). 2.3.3 CSDL giao d ch CSDL GIAO D CH (Transaction DB) là m t h CSDL dùng cho m c ñích khai phá d li u, ñư c hình thành t các ngu n d li u g c ñư c chuy n ñ i theo m c ñích nào ñó c a ngư i s d ng
  15. ( ñây là ñư c chuy n ñ i t CSDL quan h các c phi u ñư c l y t nhi u ngu n khác nhau). 2.3.4 Gi i thu t chuy n ñ i CSDL Đ ñơn gi n hơn cho các gi i thu t khai phá lu t k t h p chúng ta có th xây d ng gi i thu t cho phép chuy n ñ i t m t CSDL d ng quan h truy n th ng sang CSDL giao d ch ñ tr giúp b ng lu t k t h p 2.3.5 M t s hư ng ti p c n trong khai phá lu t k t h p Lĩnh v c khai thác lu t k t h p cho ñ n nay ñã ñư c nghiên c u và phát tri n theo nhi u hư ng khác nhau: lu t k t h p nh phân là hư ng nghiên c u ñ u tiên c a lu t k t h p, lu t k t h p có thu c tính s và thu c tính h ng m c, lu t k t h p ti p c n theo hư ng t p thô, lu t k t h p nhi u m c, lu t k t h p m , lu t k t h p v i thu c tính ñư c ñánh tr ng s , lu t k t h p song song. Bên c nh nh ng nghiên c u v các bi n th c a lu t k t h p, các nhà nghiên c u còn chú tr ng ñ xu t nh ng thu t toán nh m tăng t c quá trình tìm ki m t p ph bi n t CSDL. 2.3.6 Bài toán lu t k t h p Khái ni m: Cho m t t p I = {I1, I2, ..., Im} các t p m m c, m t giao d ch T ñư c ñ nh nghĩa như m t t p con c a các kho n m c trong I (T⊆I). G i D là CSDL c a n giao d ch và m i giao d ch ñư c ñánh nhãn v i m t ñ nh danh duy nh t. M t giao d ch T ∈ D h tr m t t p X ⊆ I n u nó ch a t t c các item c a X.
  16. Bài toán 1: Tìm t t c các t p m c mà có ñ h tr l n hơn ñ h tr t i thi u do ngư i dùng xác ñ nh. Các t p m c tho mãn ñ h tr t i thi u ñư c g i là các t p m c ph bi n. Bài toán 2: Dùng các t p m c ph bi n ñ sinh ra các lu t mong mu n. Ý tư ng chung là n u g i ABCD và AB là các t p m c ph bi n, thì chúng ta có th xác ñ nh lu t n u AB. 2.3.7 Quy trình khai thác lu t k t h p Bư c m t: Tìm t t c các t p ph bi n ( theo ngư ng minsup) Bư c hai: T o ra các lu t t các t p ph bi n Đ i v i m i t p ph bi n S, t o ra t t c các t p con khác r ng c a S. Đ i v i m i t p con khác r ng A c a S thì lu t A => (S - A) là LKH c n tìm n u: conf (A => (S - A)) = supp(S) / supp(A) ≥ minconf 2.3.8 M t s tính ch t liên quan ñ n các h ng m c ph bi n: V i t p m c ph bi n, có 3 tính ch t sau: Tính ch t 1 (Đ h tr c a t p con): V i A và B là t p các m c, n u A ⊆ B thì sup(A) ≥ sup(B). Đi u này là rõ ràng vì t t c các giao tác c a D h tr B thì cũng h tr A. Tính ch t 2: M t t p ch a m t t p không ph bi n thì cũng là t p không ph bi n. N u m t m c trong B không có ñ h tr t i thi u trên D nghĩa là sup(B)< minsup thì m t t p con A c a B s không ph i là m t t p ph bi n vì support(B) ≤ support(A) < minsup (theo tính ch t 1) Tính ch t 3: Các t p con c a t p ph bi n cũng là t p ph bi n
  17. N u m c B là m c ph bi n trên D, nghĩa là support(B) ≥ minsup thì m i t p con A c a B là t p ph bi n trên D vì support(A) ≥ support(B) > minsup. 2.3.9 Phát hi n lu t k t h p trên h thông tin nh phân Đ h tr các vectơ ch báo nh phân Cho X1⊂ D, ñ h tr c a vB(X1) bi u di n supB(vB(X1)) ñư c ñ nh nghĩa: supB(vB(X1)) = {o ⊂ O| ∀d ∈ X1, χ(o, d) = 1} D th y r ng: card(supB(vB(X1))) = card(ρB(X1)) Tính card(ρB(S)) (l c lư ng c a t p h p): Cho S = {s1, s2, … , sk} là t p con c a D. Trong ñó sj là b ch báo c a SB, j = 1 ÷ k. M i sj tương ng v i vectơ ch báo nh phân vB({sj}). Các y u t c a ρB(S) ñư c tính b ng: card(ρB(S)) = card(supB(vB{s1}) Θ..supB(vB{sk})) 2.4 THU T TOÁN SINH LU T K T H P 2.4.1 Thu t toán AIS Thu t toán do Agrwal ñ ngh năm 1993. Thu t toán này chú tr ng khai phá lu t k t h p có d ng X Y, v i Y là t p h p ch bao g m 1 tính ch t (t p h p m t ph n t ). Thu t toán tìm cách xây d ng d n d n các t p ng c viên cho t p m c ph bi n. V i cách ñánh s th t t ñi n cho t ng tính ch t, vi c b sung ph n t cho t p ng c viên tránh ñư c trùng l p, do v y ti t ki m t i ña th i gian tính toán.
  18. 2.4.2 Thu t toán SETM Thu t toán do Houtsma ñ ngh năm 1995. Thu t toán này cũng s d ng k thu t b sung d n d n t ng ph n t (t t p h p 1 ph n t ) nh m tìm ki m các t p h p ng c viên. M t c i ti n ñáng k là Thu t toán ñ ngh lưu l i c ID c a giao d ch cùng v i t p h p ng c viên. Agrawal ñã ch ra, Thu t toán này không nh ng không có phương án qu n lý b nh mà nó còn gi ñ nh nhét toàn b t p h p ng c viên c a bư c trư c vào b nh ñ bư c sau ti n b s d ng. 2.4.3 Thu t toán Apriori-Tid Thu t toán ñư c t a b t nh ng t p ng c viên có t p con không ph bi n trư c khi tính ñ h tr . Thu t toán Apriori tính t t c các t p ng c c a t p k trong m t l n duy t CSDL. Apriori d a vào c u trúc cây băm. Tìm ki m ñi xu ng trên c u trúc cây m i khi ta ch m lá, ta tìm ñư c m t t p ng c viên có ti n t chung ñư c bao g m trong giao d ch. Sau ñó các t p ng c này ñư c tìm trong giao d ch ñã ñư c ánh x trư c ñó. Trong trư ng h p tìm th y bi n ñ m ñư c tăng lên 1. 2.4.4 Thu t toán Apriori m r ng ñ sinh ra lu t k t h p Sau khi các t p m c ph bi n t các tác v trong CSDL ñã ñư c tìm th y, nó có th sinh ra các lu t k t h p m nh, ñó lu t k t h p m nh (strong association rule) là lu t tho mãn c hai ñ h tr c c ti u và ñ tin c y c c ti u. Đi u ñó có th th c hi n b ng vi c s d ng tính ñ tin c y c a lu t, ta nh c l i: ñ tin c y c a lu t X → Y là: conf (X → Y) = P(Y/X) = sup(X∪Y)/sup(X),
  19. ñó sup(X∪Y) là ñ h tr c a X∪Y và sup(X) là ñ h tr c a X. Có th coi t s trên là t s gi a: s các tác v ch a X∪Y và s các tác v ch a X. D a trên bi u th c tính toán ñó, các lu t k t h p có th ñư c sinh như sau: v i m i t p m c ph bi n l, sinh ra t t c các t p con không r ng c a l, v i m i t p con không r ng a c a l, ta có lu t a → (l-a) N u sup(l ) ≥ minconf ñó minconf là ngư ng ñ tin c y c c ti u sup(a) Vì các lu t ñư c sinh ra t các t p m c ph bi n nên ñ h tr c a lu t ñã ñư c tho mãn, t c là ñ h tr c a lu t chính là sup(l).
  20. CHƯƠNG 3 : XÂY D NG H TH NG TR GIÚP PHÂN TÍCH HO T Đ NG Đ U TƯ 3.1 PHÁT BI U BÀI TOÁN V i s lư ng giao d ch hàng ngày tăng, bình quân 80,650,490 lư t/ ngày. CSDL c a giao d ch ngày càng tăng. V i m i ngày thay ñ i, m i lo i c phi u s tăng thêm 1 dòng trong CSDL, ngoài ra các thông tin khác cũng tăng thêm 1 dòng/1 ngày. Lư ng CSDL m i l n phân tích có th chia theo kho ng th i gian (1 tu n, 1 tháng, 3 tháng, 6 tháng, 12 tháng, 24 tháng, 36 tháng). T t c CSDL này hoàn toàn ñư c truy xu t. Các d li u ñư c thu th p v s ñư c phân tích, ñ nh d ng và ch a trong data warehouse, là lo i d li u ñư c s d ng ñ khai phá. Sau giai ño n khai phá, ta s d ng thu t toán Apriori ñ ñưa ra các m u phân tích dùng cho d ñoán. Các d li u d ñoán s bao g m ch s c phi u các ngày k t ti p (ngày T+1, T+2 và T+3), các kh năng mua/bán/chuy n như ng (g i chung là giao d ch) hàng ngày, d ñoán các kh năng s di n ra c a các c phi u. Phân tích cơ b n v chương trình Giai ño n ti n x lý: Giai ño n này nh m thi t l p các ñ i tư ng d li u t d li u trong CSDL. D li u ñư c ti n x lý ñưa v d ng text, các thu c tính (chính là các item) ñư c ánh x b i các s t nhiên (t c là ñánh s th t các thu c tính t 1 ñ n h t). M i dòng (b n ghi) ñư c mô t thành m t dòng. Tìm t p m c ph bi n và lu t k t h p d a trên các s th t này, k t qu ñư c ánh x ngư c tr l i tên các m c.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2