intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu dự toán khách hàng rời mạng viễn thông

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:26

319
lượt xem
71
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ứng dụng khai phá dữ liệu dự toán khách hàng rời mạng viễn thông nghiên cứu các kỹ thuật khai phá dữ liệu , lựa chọn mô hình, ứng dụng cho bài toán, tìm hiểu công cụ triển khai ứng dụng khai phá dữ liệu.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu dự toán khách hàng rời mạng viễn thông

  1. -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG NGUY N MINH TÂN NG D NG KHAI PHÁ D LI U D ĐOÁN KHÁCH HÀNG R I M NG VI N THÔNG Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: Ph n bi n 2: Lu n văn s ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày tháng năm 2011 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng.
  3. -3- M Đ U 1. Lý do ch n ñ tài V i s bùng n và phát tri n c a công ngh thông tin ñã mang l i nhi u hi u qu ñ i v i khoa h c cũng như các ho t ñ ng th c t , trong ñó khai phá d li u là m t lĩnh v c mang l i hi u qu thi t th c cho con ngư i. Khai phá d li u ñã giúp ngư i s d ng thu ñư c nh ng tri th c h u ích t nh ng cơ s d li u ho c các kho d li u kh ng l khác. Cơ s d li u trong các ñơn v , t ch c kinh doanh, qu n lý khoa h c ch a ñ ng nhi u thông tin ti m n, phong phú và ña d ng, ñòi h i ph i có nh ng phương pháp nhanh, phù h p, chính xác, hi u qu ñ l y ñư c nh ng thông tin b ích. Nh ng “ tri th c ” chi t su t t ngu n cơ s d li u trên s là ngu n thông tin h tr cho lãnh ñ o trong vi c lên k ho ch ho t ñ ng ho c trong vi c ra quy t ñ nh s n xu t kinh doanh. Ti n hành công vi c như v y chính là th c hi n quá trình phát hi n tri th c trong cơ s d li u (Knowledge Discovery in Database) mà trong ñó k thu t khai phá d li u (Data Mining) cho phép phát hi n nh ng tri th c ti m n. Đ l y ñư c thông tin mang tính tri th c trong kh i d li u kh ng l , c n thi t ph i phát tri n các k thu t có kh năng tích h p các d li u t các h th ng giao d ch khác nhau, chuy n chúng thành m t t p h p các cơ s d li u n ñ nh có ch t lư ng. M t trong các n i dung cơ b n nh t trong khai phá d li u và r t ph bi n là k thu t gom c m. Phương pháp này nh m tìm ra các t p thu c tính thư ng xu t hi n ñ ng th i trong cơ s d li u và rút ra các lu t v nh hư ng c a m t t p thu c tính d n ñ n s xu t hi n c a m t (ho c m t t p) thu c tính khác như th nào. ng d ng
  4. -4- khai phá d li u ñã mang l i nh ng l i ích to l n trong vi c t ng h p và cung c p nh ng thông tin trong các ngu n cơ s d li u l n. EVNTelecom là m t nhà cung c p d ch v vi n thông m i trên th trư ng Vi t Nam. Chính th c cung c p d ch v vi n thông công c ng t cu i năm 2005, ñ n cu i năm 2007 ñã phát tri n ñư c hai tri u khách hàng. Đ n tháng 6 năm 2008, s lư ng khách hàng phát ñư c con s b n tri u. Tuy nhiên tình hình tr nên x u ñi khi các nhà cung c p ào t khuy n mãi và có nhi u ñ t ñ i h giá. K t qu là có nhi u khách hàng r i m ng chuy n sang s d ng d ch v c a nhà cung c p khác, doanh thu ngày m t gi m, khó thu h i v n ñ u tư. Đ phát tri n ñư c khách hàng, EVNTelecom ph i ñ u tư g n ba tri u ñ ng bao g m chi phí phát tri n khách hàng, ñ u tư h th ng và thi t b ñ u cu i. Trong khi ñó ARPU là 80.000 ñ ng và vòng ñ i trung bình c a khách hành là 20 tháng. Như v y m i khách hàng r i m ng s m t ñi 1.4 tri u ñ ng. Con s thi t h i s r t l n khi có hàng trăm ngàn khách hàng r i m ng m i năm. Trong b i c nh ñó ñ ng th i ñư c s ñ ng ý c a Th y PGS.TS Võ Trung Hùng, tác gi ch n ñ tài “ ng d ng khai phá d li u d ñoán khách hàng r i m ng vi n thông” cho lu n văn t t nghi p c a mình. Bài toán t p trung tìm phương pháp s d ng công c khai phá d li u ñ d ñoán ñư c nh ng khách hàng nào nguy cơ r i m ng cao ñ có bi n pháp gi khách hàng l i. Vi c tri n khai bài toán có ý nghĩa th i s cao, nh t là ñ i v i EVNTelecom trong hoàn c nh này. 2. M c tiêu c a ñ tài M c tiêu c a ñ tài là nghiên c u ng d ng các k thu t khai phá d li u trong công tác d báo khách hàng r i m ng. D a trên kho d li u tích lu trong nh ng năm g n ñây ñ làm d li u hu n
  5. -5- luy n, tính toán d báo khách hàng r i m ng. Th c hi n ñánh giá k t qu d ñoán trên cơ s các m u d li u trích ra t d li u thu th p. 3. N i dung tri n khai Đ gi i quy t bài toán d báo khách hàng r i m ng, lu n văn ti n hành nghiên c u các k thu t khai phá d li u, l a ch n mô hình ng d ng cho bài toán, tìm hi u công c tri n khai ng d ng khai phá d li u. Bư c ti p theo s t ch c thu th p d li u t các b ph n: qu n lý khách hàng, b ph n tính cư c, b ph n qu n lý n và chăm sóc khách hàng. Th c hi n xây d ng cơ s d li u trên h qu n tr cơ s d li u SQL Server 2005. Ti n hành l c, phân tích và n p d li u chu n b khai khoáng. Bư c k ti p th c hi n nghiên c u xây d ng mô hình gi i quy t bài toán. Trư c h t s ti n hành xây d ng mô hình gom c m ñ phân khách hàng thành 5 c m d a theo các tiêu chí danh sách d ch v ñang s d ng, m c ñ trung thành, doanh thu hàng tháng, quá trình thanh toán cư c d ch v và quá trình chăm sóc khách hàng. Sau ñó xây d ng cây quy t ñ nh d ñoán khách hàng r i m ng cho t ng c m. Th c hi n ki m tra mô hình trên 15% lư ng khách hàng r i m ng. Đây là m t quá trình l p ñ l a ch n mô hình h u ích nh t. Bư c cu i cùng th c hi n d ñoán kh năng khách hàng r i m ng cho lư ng khách hàng ñang ho t ñ ng. Trong quá trình tri n khai lu n văn, tôi ti n hành tìm hi u cơ s lý thuy t c a thu t toán cây quy t ñ nh và thu t toán gom c m – hai thu t toán s ñư c s d ng trong mô hình ng d ng d ñoán. Đ ng th i cũng s ti n hành nghiên c u các công c khai phá d li u c a Microsoft SQL Server 2005 ñ làm công c tri n khai mô hình.
  6. -6- 4. B c c c a lu n văn Ngoài ph n m ñ u và k t lu n, trong lu n văn tôi ñ c p ñ n các n i dung chính sau: Chương 1: Nghiên c u t ng quan v kho d li u, mô hình t ng quát v k thu t khai phá d li u và k thu t d báo trong khai phá d li u. Chương 2: Phân tích thi t k h th ng, trong chương này các n i dung tôi ñ c p ñ n ñó là: Mô t ng d ng, ñ xu t gi i pháp ng d ng k thu t khai phá d li u và cu i cùng là phân tích thi t k h th ng. Chương 3: Phát tri n và Demo ng d ng, chương này ñ c p ñ n xây d ng mô hình, ki m tra và ñánh giá mô hình d ñoán.
  7. -7- CHƯƠNG 1. NGHIÊN C U T NG QUAN Trong chương này, chúng tôi trình bày m t s khái ni m v kho d li u, khai phá d li u và các ng d ng. 1.1. KHO D LI U 1.1.1. Khái ni m Ngày nay ñ nh nghĩa cho kho d li u bao g m các công c thông minh dùng ñ trích rút, bi n ñ i và n p d li u vào kho, cũng như ñ qu n lý và lưu tr siêu d li u (metadata), các ch c năng khác như thanh l c, thu n p, phân tích, trích rút, bi n ñ i (ETL) và qu n lý d li u ñư c coi là các thành ph n c t y u c a m t kho d li u. 1.1.2. Ki n trúc kho d li u Hình 1-1: Ki n trúc kho d li u. 1.1.3. Qui trình xây d ng Trong quá trình xây d ng kho d li u c n chú ý m t s v n ñ sau: - C n ư c lư ng kích thư c c n thi t c a kho d li u. - T i thi u hoá kích thư c c a b ng s ki n (fact table).
  8. -8- 1.1.4. ng d ng kho d li u - Chi t xu t, t ng h p và chuy n ñ i t các d li u thô sang d ng các d li u ch t lư ng cao và có tính n ñ nh, giúp cho vi c nâng cao các k thu t bi u di n thông tin truy n th ng. - Các kho d li u ñư c s d ng ñ h tr cho phân tích tr c tuy n (OLAP), xác ñ nh xem gi thuy t ñúng hay sai. - H tr cho công ngh khai phá d li u (data mining). 1.2. KHAI PHÁ D LI U 1.2.1. Khái ni m Khai phá d li u là quá trình tìm ki m các m u m i, nh ng thông tin ti m n mang tính d ñoán trong các kh i d li u l n. 1.2.2. Mô hình t ng quát Hình 1-2: Sơ ñ mô t quá trình khai phá d li u. 1.2.3. Các công c khai phá d li u Có hai nhóm công c khai phá d li u: Các công c mã ngu n m (open-source tools) và nhóm công c thương m i. Các công c mã ngu n m (open-source): R (www.r- project.org); Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/ ); Weka (www.cs.waikato.ac.nz/ml/weka); YALE (rapid-i.com); KNIME (www.knime.org); Orange (www.ailab.si/orange)
  9. -9- Các công c thương m i: Intelligent Miner (IBM); Microsoft data mining tools (MS SQL Server 2000/2005/2008); Oracle Data Mining; Enterprise Miner (SAS Institute) 1.3. D BÁO 1.3.1. Khái ni m: D báo là m t khoa h c và ngh thu t tiên ñoán nh ng s vi c s x y ra trong tương lai, trên cơ s phân tích khoa h c v các d li u ñó thu th p ñư c. Khi ti n hành d báo c n căn c vào vi c thu th p, x lý s li u trong quá kh và hi n t i ñ xác ñ nh xu hư ng v n ñ ng c a các hi n tư ng trong tương lai nh vào m t s mô hình toán h c (ñ nh lư ng). D báo cũng có th là m t d ñoán ch quan ho c tr c giác v tương lai (ñ nh tính) và ñ d báo ñ nh tính ñư c chính xác hơn, ngư i ta c lo i tr nh ng tính ch quan c a ngư i d báo. 1.3.2. Các phương pháp d báo: B ng 1-1: T ng h p m t s phương pháp d báo 1. Tiên ñoán (Genius forecasting) 2. Ngo i suy xu hư ng (Trend Extrapolation) 3. Phương pháp chuyên gia (Consensus method) 4. Phương pháp mô ph ng (Stimulation) 5. Phương pháp ma tr n tác ñ ng qua l i 6. Phương pháp k ch b n (Scenario) 7. Phương pháp cây quy t ñ nh (Decision Tree) 8. Phương pháp d báo t ng h p
  10. - 10 - 1.3.3. K thu t d báo d a vào khai phá d li u Có nhi u k thu t d báo vào khai phá d li u, ñây xin trình bày k thu t gom c m: Gom c m là vi c nhóm m t t p d li u l n thành m t s nhóm nh , m c ñích c a gom c m là tìm nh ng m u chung ho c gom các m u d li u tương t nhau thành nhóm theo m t tiêu chu n nào ñó. Các m u d li u trong nhóm thì tương t nhau hơn các m u d li u các nhóm khác nhau. Gom c m ñư c ng d ng nhi u trong các bài toán th ng kê phân tích, phân lo i ñ i tư ng. Là công c ñ c l p ñ xem xét phân b d li u và là bư c ti n x lý cho các thu t toán. Đ gi i bài toán gom c m, trư c h t ph i ch n ñư c phép ño kho ng cách và phương pháp gom c m. Trong ñó vi c l a ch n phép ño có ý nghĩa quy t ñ nh ch t lư ng gom c m. 1.4. M t s nghiên c u v khai phá d li u trong vi n thông Đ i v i các doanh nghi p vi n thông, trong quá trình s n xu t kinh doanh c a mình ñã thu th p ñư c kh i lư ng kh ng l các lo i d li u: + D li u chi ti t cu c g i. + Thông tin khách hàng như m c cư c s d ng, ngh nghi p, gi i tính khách hàng, các d ch v gia tăng ñã s d ng… + D li u liên quan ñ n v n hành h th ng. ng d ng khai phá d li u trong vi n thông áp d ng trong ba lĩnh v c ch y u: ng d ng trong marketing. ng d ng trong phát hi n gian l n. ng d ng trong qu n lý v n hành h th ng.
  11. - 11 - CHƯƠNG 2. PHÂN TÍCH THI T K H TH NG Trong chương này, chúng tôi trình bày các yêu c u c a H th ng khai phá d li u ng d ng cho vi c d báo khách hàng r i m ng vi n thông, ti n hành các bư c phân tích và thi t k c a H th ng d báo khách hàng r i m ng. 2.1. MÔ T NG D NG 2.1.1. Gi i thi u v EVNTelecom EVNTelecom là m t doanh nghi p tr c thu c T p ñoàn Đi n l c Vi t Nam, EVNTelecom ñư c phép cung c p ñ y ñ các d ch v vi n thông t i Viêt Nam. 2.1.2. Phân tích yêu c u Đ tài mang ý nghĩa kỳ v ng t o ra s khác bi t trong công tác chăm sóc khách hàng t i EVNTelecom. Vi c tri n khai thành công s ñem l i ý nghĩa thi t th c, giúp nhà cung c p EVNTelecom trong ho ch ñ nh chi n lư c phát tri n. M c tiêu c a bài toán là d ñoán kh năng r i m ng c a t ng khách hàng ñ có bi n pháp ng phó. 2.1.2.1. Xác ñ nh yêu c u H th ng th c hi n ñư c các ch c năng : - G p nhóm các ñ i tư ng có nguy cơ r i m ng cao ñ xây d ng chính sách cho nhóm ñ i tư ng. - D ñoán ñư c kh năng r i m ng c a t ng khách hàng ñ có bi n pháp ng phó t ng trư ng h p. - T l l i d ñoán m c cho phép.
  12. - 12 - 2.1.2.2. Ph m vi bài toán D li u bài toán là d li u kinh doanh c a EVNTelecom trên ñ a bàn Qu ng Nam t khi tri n khai kinh doanh t năm 2005 ñ n năm 2009. Mô hình ñư c xây d ng trên lư ng thông tin khách hàng tích lu t 2005 ñ n 2009. Các d li u phát sinh theo chu kỳ tháng l y t tháng 8 năm 2008 ñ n tháng 8 năm 2009. 2.1.2.3. Yêu c u v h th ng B x lý Intel Xeon 2GHz, 4GB b nh RAM, ñĩa c ng 320GB Raid m c 5. H ñi u hành s d ng h ñi u hành Microsoft Windows Server 2003 Service Pack 2. D li u ñư c t ch c trên h qu n tr cơ s d li u Microsoft SQL Server 2005. Công c khai phá d li u s d ng b công c Analysis Services tích h p cùng Microsoft SQL Server 2005. Công c l p trình s d ng Business Intelligence Development Studio. 2.2. THI T K H TH NG 2.2.1. Mô hình t ng quát. Mô hình t ng quát c a quá trình xây d ng h th ng như sau:
  13. - 13 - 2.2.2. Phân tích thi t k h th ng: 2.2.2.1. Danh sách các actor: Danh sách actor: STT Tên actor Di n gi i Chuyên viên Là các cán b , chuyên viên s d ng 1 khai thác h ph n m m ñ phân tích d li u và d th ng báo kh năng r i m ng c a khách hàng Qu n tr h Qu n tr d li u 2 th ng Danh sách use case: STT Tên use case Di n gi i M k t n i ñ n CSDL trên server, t o 1 T o CSDL các ñ i tư ng datasource, dataview T o c u trúc c a mô hình khai phá d li u d a trên các thu c tính ñ u vào 2 T o c u trúc (input) ñư c l a ch n và ñ u ra ñ d ñoán (predict) Áp d ng các thu t toán khai phá d li u như cây quy t ñ nh, gom c m, 3 T o mô hình ñi u ch nh các tham s thu t toán ñ hoàn ch nh mô hình. Hu n luy n mô S d ng d li u t CSDL ñã k t n i 4 hình ñưa vào hu n luy n mô hình ñư c t o Hi n th mô Hi n th k t qu hu n luy n c a mô 5 hình hình (xem cây, xem k t qu gom c m) Truy v n mô Đưa d li u ñ u vào và hi n th k t 6 hình (d ñoán) qu d ñoán.
  14. - 14 - 2.2.2.2. Sơ ñ use case: Sơ ñ use case c a h th ng như sau: 2.2.3. Các bư c xây d ng h th ng 2.2.3.1. Thu th p d li u Ti n hành kh o sát các các b ph n tác nghi p ñ thu th p d li u như: + B ph n qu n lý khách hàng + B ph n cư c + B ph n qu n lý n + B ph n chăng sóc khách hàng 2.2.3.2. Mô t d li u D li u khách hàng phát sinh khi có h p ñ ng ñư c ký k t v i khách hàng. B ng sau mô t tên, ki u giá tr và ý nghĩa c a các trư ng: S th Tên trư ng Ki u d Ý nghĩa t li u 01 Ma_KH Varchar Dùng làm khoá chính 02 Ten_KH Varchar Tên c a khách hàng 03 Gioitinh Bit Gi i tính c a khách hàng
  15. - 15 - 04 Diachi Varchar Đ a ch khách hàng 05 CMND Varchar S CMND c a khách hàng 06 So_HD Varchar S h p ñ ng 07 Ngay_HD Datetime Ngày ký h p ñ ng 08 So_thuebao Varchar S thuê bao 09 Ngayhoamang Datetime Ngày hoà m ng 10 Loai_KH Varchar Phân lo i khách hàng 11 Hinhthuc_tt Varchar Hình th c thanh toán 12 Trangthai Varchar Tr ng thái ho t ñ ng c a thuê bao Lo i thi t b ñ u cu i cung 13 Thietbi Varchar c p cho khách hàng 14 Nhanvien_BH Varchar Nhân viên bán hàng + B ng mô t d li u cư c d ch v + B ng mô t d li u khách hàng r i m ng + B ng mô t d li u n cư c d ch v + B ng mô t d li u chăm sóc khách hàng 2.2.3.3. Ch n d li u D li u cư c phát sinh theo chu kỳ tháng thu th p t tháng 8/2008 ñ n tháng 10/2009. + D li u khách hàng + D li u cư c s d ng d ch v + D li u khách hàng r i m ng + D li u chăm sóc khách hàng 2.2.3.4. Đánh giá ch t lư ng d li u và làm s ch d li u Đánh giá ch t lư ng d li u - D li u c n x lý là d li u thu th p t các b ph n qu n lý tác nghi p. Vì v y d li u có tính trung th c cao, h u h t ñ u ph n ánh ñúng ng nghĩa.
  16. - 16 - - D li u có b thi u m t vài trư ng do vi c c p nh p ban ñ u không ñ y ñ ho c chưa ñư c nh p li u. Ph n d li u b thi u ch n m thông tin khách hàng, m t s thông tin b sung nghi p v . Tuy nhiên các d li u b thi u không nh hư ng nhi u ñ n ch t lư ng c a mô hình. 2.2.3.5. N p d li u T o cơ s d li u Hình 2-1: Lư c ñ quan h cơ s d li u khai khoáng. N p d li u Th c hi n thu th p d li u tác nghi p t các cơ s d li u Oracle, SQL Server b ng các công c import và export. Đ ñ m b o tính nh t quán d li u, s d ng các câu l nh transact SQL ñ n p d li u t cơ s d li u t m vào cơ s d li u khai khoáng. 2.3. KHAI PHÁ D LI U V I Microsoft SQL Server 2005 2.3.1. Microsoft SQL server 2005 Analysis Services 2.3.1.1. Môi trư ng phát tri n ng d ng Microsoft cung c p các công c ñ phát tri n ng d ng khai phá d li u:
  17. - 17 - - Business Intelligence Development Studio (BI Dev Studio) là môi trư ng phát tri n ng d ng trong SSAS. - Giao di n l p trình ng d ng API giúp l p trình viên d dàng phát tri n ng d ng. 2.3.1.2. Các thu t toán data mining trong Microsoft SQL Server 2005 Danh sách và các ng d ng c a thu t toán tích h p v i Microsoft SQL Server 2005: B ng 2-1: ng d ng các thu t toán Nhi m v Thu t toán Microsoft s d ng Microsoft Decision Trees Algorithm D ñoán thu c tính r i Microsoft Naive Bayes Algorithm r c Microsoft Clustering Algorithm Microsoft Neural Network Algorithm D ñoán thuôc tính liên Microsoft Decision Trees Algorithm t c Microsoft Time Series Algorithm D ñoán 1 trình t Microsoft Sequence Clustering Algorithm Microsoft Association Algorithm Lu t k t h p Microsoft Decision Trees Algorithm Microsoft Clustering Algorithm Gom c m Microsoft Sequence Clustering Algorithm 2.3.2. OLE DB for Data Mining 2.3.2.1. Gi i thi u OLE DB for Data Mining 2.3.2.2. Các khái ni m cơ b n trong OLE DB for DM + Case + Case key + Nested key
  18. - 18 - + Mô hình data mining DMX Vi c xây d ng mô hình tr i qua ba bư c cơ b n: t o mô hình, hu n luy n mô hình và d ñoán. Ngoài câu l nh truy v n như trên, DMX ñ nh nghĩa thêm nhi u hàm có th s d ng k t h p v i câu truy v n ñ cho k t qu mong mu n. 2.4. M TS THU T TOÁN Đ C BI T Trong ph n này lu n văn ch trình bày chi ti t các thu t toán s ñư c s d ng cho mô hình ng d ng c a lu n văn. 2.4.1. Thu t toán gom c m Thu t toán Microsoft Clustering cho phép s d ng hai phương pháp ño kho ng cách c m : K-Means và Expectation Maximization (EM). Thu t toán K-Means xác ñ nh ñ i tư ng tr thành thành viên c a c m có kho ng cách t ñ i tư ng ñ n tâm c m nh nh t, s d ng phép ño kho ng cách Ơ Clit. K t thúc thu t toán, m i ñ i tư ng thu c v m t c m duy nh t. Thu t toán EM s d ng phép ño xác su t ñ xác ñ nh tư cách thành viên b ng cách xem xét m t ñư ng cong cho m i chi u v i ñi m trung tâm và ñ l ch chu n. N u m t ñi m n m bên trong ñư ng cong, nó thu c v m t c m v i xác su t ch c ch n. Microsoft Decision Trees Thu t toán cây quy t ñ nh c a Microsoft (Microsoft Decision Trees) là thu t toán cây quy t ñ nh lai, h tr phân l p và h i quy. Tuỳ thu c tham s , cây quy t ñ nh có th có s phân nhánh và hình d ng khác nhau. M t mô hình có th có nhi u cây, các cây này có liên k t v i nhau.
  19. - 19 - Microsoft Decision Trees s d ng cây phân l p theo xác su t, m c ñ nh dùng Bayesian score làm tiêu chu n r nhánh thay vì Entropy. Không th c hi n bư c t a cây, gi i h n các bi n nh p có ít hơn 100 tr ng thái. Khi làm vi c v i s li u liên t c, thư ng là d li u ki u s , ñ u ñư c r i r c hoá.
  20. - 20 - CHƯƠNG 3. PHÁT TRI N H TH NG Chương này chúng tôi trình bày các bư c phát tri n và th nghi m Mô hình khai phá d li u ph c v cho vi c d ñoán khách hàng r i m ng vi n thông. 3.1. XÂY D NG CƠ S D LI U Cơ s d li u ñư c xây d ng trên môi trư ng SQL Server 2005. Sau khi x lý và làm s ch d li u, d li u ñư c n p vào CSDL theo ñúng lư c ñ ñã thi t k trên, v i các thông tin như thông tin thuê bao, cư c, thông tin chăm sóc khách hàng. 3.2. XÂY D NG MODULE KHAI PHÁ D LI U 3.2.1. Xây d ng mô hình 3.2.1.1. Kh o sát d li u 3.2.1.2. Chu n b d li u 3.2.1.3. Xây d ng mô hình Mô hình gom c m Th c hi n gom khách hàng theo tiêu chí : m c ñ trung thành, khu v c ti m năng, m c cư c trung bình, tình hình tr n cư c ñ phân lo i khách hàng. Mô hình ñư c th c thi trên thu t toán Expectation Maximization (EM) trong h thu t toán Microsoft Clustering ñã trình bày chương 2. Đ s lư ng thành viên m i c m không quá l n và s lư ng các c m ñ ñ nh n th y ñư c s khác bi t, d ki n phân thành 4 ñ n 8 c m. Sau khi th l n lư c các trư ng h p l a ch n mô hình có 6 c m cho k t qu t t nh t. Hình sau th hi n s phân b c a các c m
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2