intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:14

16
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)" giới thiệu giải pháp tổ chức hình thành hệ thống Kho dữ liệu (Data Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)

  1. KHO DỮ LIỆU TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH TẠI CÁC CƠ QUAN - DOANH NGHIỆP (Enterprise Data Warehouse in Smart Data Analytics and Management) VÕ XUÂN THỂ Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email: vxthe@ufm.edu.vn Tóm tắt: Bài viết này giới thiệu giải pháp tổ chức hình thành hệ thống Kho dự liệu (Data Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu. Đây là một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science – cung cấp nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là Mô hình CSDL đa chiều (Dimensional Modeling) và luồng công việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực tuyến). Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP)và ngôn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View. Từ khóa: Kho dữ liệu – Data Warehouse, Phân tích dữ liệu thông minh – Smart Data analytics, Quản trị dữ liệu thông tin – Smart Data Management. 1. GIỚI THIỆU CHUNG Kho dự liệu (còn gọi là Nhà kho dữ liệu: Data Warehouse) là mô hình nền tảng tổ chức hình thành hệ thống dữ liệu lâu dài phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu tại các cơ quan, doanh nghiệp. Đây cũng là nền tảng hình thành BigData. Kho dự liệu cung cấp một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science – là nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). 1. Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là + Mô hình CSDL đa chiều (Dimensional Modeling) và 336
  2. + Luồng công việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực tuyến). 2. Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là + Hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP) và + ngôn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View. Bài viết này nhằm giới thiệu tổng quan và minh họa tổ chức cài đặt Kho dữ liệu trong thực tiễn nhằm giúp người đọc có cái nhìn tổng quan về Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh. Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiên cứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung. 2. GIỚI THIỆU VỀ KHO DỮ LIỆU 2.1. “Kho dữ liệu” (Data Warehouse: DWH) 1 “Kho dữ liệu” còn gọi là “Nhà kho dữ liệu” là một lĩnh vực Khoa học dữ liệu nghiên cứu và ứng dụng các mô hình tổ chức hệ thống dữ liệu tích hợp (Integrated) từ nhiều nguồn khác nhau từ các các Hệ quản trị Cơ sở dữ liệu khác nhau; trên cơ sở đó hình thành một cơ sở dữ liệu có cố lượng (nhiều table với lượng mẫu tin) rất lớn. Hệ thống dữ liệu này phục vụ cho cơ chế phân tích đánh giá các dữ liệu tích hợp (Factors) theo nhiều chiều (Dims) khác nhau phục vụ cho hoạch định chiến lược, chiến thuật hoạt động của các cơ quan – doanh nghiệp, như Hình 2. Như vậy có thể xem Data warehouse là cơ sở nền tảng cho Data Mining (Khai phá dữ liệu). Hình 2. Mô hình kho dữ liệu 1 Có nhiều khái niệm về DWH (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này. 337
  3. Theo khái niệm của wikipedia: Kho dữ liệu (tiếng Anh: data warehouse) là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo cáo. Định nghĩa cổ điển này về kho dữ liệu tập trung vào việc lưu trữ dữ liệu. Tuy nhiên, các phương tiện cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản lý dữ liệu từ điển cũng được coi là các thành phần cốt yếu của một hệ thống kho dữ liệu. Nhiều người sử dụng thuật ngữ "kho dữ liệu" với ngữ cảnh rộng hơn. Một định nghĩa mở rộng cho kho dữ liệu bao gồm cả các công cụ thông minh, các công cụ để trích, biến đổi và nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data). Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau: 1. Dữ liệu tích hợp (Atomicity): Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu. 2. Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những dữ liệu có ích. 3. Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc tác động lên nhau. 4. Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay sửa đổi. 2.2. Kiến trúc cơ bản của kho dữ liệu Mô hình data warehouse 3 tầng (lớp) như Hình 3: 1. Tầng đáy (hình thành DWH): Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn khác sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập trung 2. Tầng giữa (duy trì hoạt động DWH = xử lý khai thác sử dụng): Cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là dịch vụ OLAP (OLAP server). 338
  4. Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả hai mô hình trên Hybrid OLAP 3. Tầng trên cùng (hỗ trợ người sử dụng khai thác sử dụng DWH): nơi chứa các câu truy vấn, báo cáo, phân tích Hình 3. Kiến trúc 3 tầng của Kho dữ liệu 2.3. Lý do phải sử dụng Kho dữ liệu? Kho dữ liệu là công cụ hiệu quả không thế thiếu trong các cơ quan – doanh nghiệp hiện nay. Có nhiều lý do mà các cơ quan – doanh nghiệp hiện nay phải tổ chức Kho dữ liệu, như Hình 4: 1. Đối với các tổ chức có lượng dữ liệu ngày càng lớn thì càng khó truy cập và sử dụng dữ liệu. 2. Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau, và lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát triển bởi các nhà cung cấp khác nhau. 3. Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp nhất dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và báo cáo. 4. Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu. 5. Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn. Quá trình này rất tốn kém, không hiệu quả và tốn thời gian. Data warehouse cung cấp một phương pháp tiếp cận tốt hơn. 6. Kho dữ liệu thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng nhất; làm sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng truy cập, hiểu rõ và sử dụng. 339
  5. 7. Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu. 8. Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu cầu phân tích dữ liệu mang tính lịch sử. 9. Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, có thể dẫn đến kết quả không tốt cho các ứng dụng hoạt động. 10. Do đó có một yêu cầu tách riêng hai môi trường để giảm thiểu xung đột và sự xuống cấp của hiệu suất trong môi trường hoạt động. Hình 4. Mục đích sử dụng Kho dữ liệu trong các cơ quan - đaonh nghiệp 2.4. Công cụ và Ngôn ngữ hỗ trợ kho dữ liệu • Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Processing), rất phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung vào các câu lệnh sau: 1. Thu nhỏ (roll-up): ví dụ: nhóm dữ liệu theo năm thay vì theo quý. 2. Mở rộng (drill-down): ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý. 3. Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1. 4. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (tương ứng thêm điều kiện vào câu lệnh WHERE trong SQL). So sánh giữa OLAP với OLTP như Hình 5 340
  6. Hình 5. So sánh OLAP với OLTP • Công cụ ETL(Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu): hỗi trợ tầng đáy trong nạp dữ liệu từ nhiều nguồn vào kho dữ liệu và tiền xử lý (Preprocessing), như Hình 6 Hình 6. Công cụ ETL nạp dữ liệu và tiền xử lý Kho dữ liệu 2.5. Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu Cả hai đều có thể sử dụng độc lập với nhau, tuy nhiên khi kết hợp được kho dữ liệu với khai phá dữ liệu thì lợi ích rất lớn lý do như: 1. Dữ liệu của kho dữ liệu rất phù hợp cho việc khai phá dữ liệu do đã được tập hợp và làm sạch. 2. Cơ sở hạ tầng của kho dữ liệu hỗ trợ rất tốt cho các việc như xuất, nhập cũng như các thao tác cơ bản trên dữ liệu 3. OLAP về cung cấp các tập lệnh rất hữu hiệu trong phân tích 2.6. Các lĩnh vực ứng dụng Kho dữ liệu có rất nhiều ứng dụng trong thực tiễn phân tích dữ liệu và hoạch định chiến lược – chiến thuật hoạt động hoặc kinh doanh của các cơ quan – doanh nghiệm và có thể chia thành ba nhóm ứng dụng chính: 1. Xử lý thông tin như tạo ra các báo cáo và trả lời các câu hỏi định trước. 2. Phân tích và tổng hợp dữ liệu, kết quả được thể hiện bằng các báo cáo và bảng biểu. 3. Dùng trong các mục đích kế hoạch như khai phá (còn gọi là khai khoáng) dữ liệu. 341
  7. Các lĩnh vực hiện tại có ứng dụng kho dữ liệu bao gồm: 1. Phân tích hoạch định kinh doanh 2. Thương mại điện tử 3. Quản lý quan hệ khách hàng (CRM - Customer Relationship Management) 4. Chăm sóc sức khỏe 5. Viễn thông 2.7. Các mô hình thiết kế Kho dữ liệu Có nhiều mô hình thiết kế Kho dữ liệu 1. Subject Oriented – Hướng chủ đề - Kho dữ liệu được thiết kế để hỗ trợ trong việc phân tích dữ liệu - Được tổ chức xung quanh các chủ đề chính như: khách hàng, sản phẩm, bán hàng,… - Loại bỏ những dữ liệu không hữu ích cho trình ra quyết định Mô hình này giúp cho người dùng hướng theo một chủ đề nhất định giúp xác định được những thông tin cần thiết trong hoạt động của mình. 2. Integrated – Hướng tích hợp - Dữ liệu của kho dữ liệu rất đa dạng - Dữ liệu được tập hợp từ nhiều nguồn khác nhau: Mô hình này dựa trên Cở sở dữ liệu quan hệ (Relational Databases), flat files, các bảng ghi toàn tác trực tuyến. Điều này sẽ dấn đến việc trong quá trình tập hợp dữ liệu phải thực hiện việc tiền xử lý, tức là: làm sạch, sắp xếp, rút gọn dữ liệu. 3. Non Volatile – Hướng ổn định - Dữ liệu được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn - Kho dữ liệu tách rời với vật lý, trực tiếp từ môi trường tác nghiệp, nên dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới được. 4. Time Variant – Hướng biến đổi theo thời gian - Dữ liệu bao gồm quá khứ và hiện tại - Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian và có tính lịch sử Dữ liệu trong kho dữ liệu rất lớn và không được thêm, xóa, sửa dữ liệu. 2.8. Các bước cơ bản trong tiến trình tích hợp dữ liệu Từ các nguồn không đồng nhất, ta tiến hành các bước tích hợp kho dữ liệu như sau: 342
  8. Bước 1. Trích xuất dữ liệu: thu thập dữ liệu lớn từ nhiều nguồn từ đa nền tảng Bước 2. Làm sạch: tìm lỗi và sửa sai Data Base nguồn Bước 3. So khớp mẫu: Lọc và chuyển đổi dữ liệu = chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho (DWH) Bước 4. Lưu trữ dữ liệu theo cấu trúc: sắp xếp, hợp nhất và tổng hợp,... nhằm dễ truy cập, dễ hiểu và dễ sử dụng. 2.9. Khai thác sử dụng Kho dữ liệu Một số cấu trúc khai thác sử dụng kho dữ liệu thông dụng: Vấn tin với các phép toán tổng hợp của SQL trên kho dữ liệu: SQL Subtotal, bao gồm: + Mệnh đề GROUP BY + Các mở rộng của các hệ quản trị cơ sở dữ liệu để hỗ trợ cho kho dữ liệu, gồm: Mệnh đề SQL CUBE Mệnh đề SQL ROLLUP Mệnh đề SQL GROUPING SETS Kết hợp các phép toán SUBTOTAL Vấn tin với các hàm phân tích của SQL trên kho dữ liệu: SQL Analytic, gồm: Mô hình xử lý và cú pháp cơ bản Cú pháp mở rộng và các hàm xếp hạng (rank) So sánh cửa sổ (Window Comparisons) Các hàm so sánh tỷ lệ Vấn tin dùng Materialized View để phân tích trên kho dữ liệu, gồm: Truy vấn dùng Materialized View với khung nhìn (views) Hệ thống OLAP (On-Line Analytical Processing: công cụ xử lý phân tích trực tuyến), gồm: + Cube (khối) Khối dữ liệu + Tạo khối (cube) cho dữ liệu với . Các bảng đa chiều(dimension table) và . Bảng sự kiện (fact table) + Một số thao tác (lệnh) cơ bản của OLAP: . Thu nhỏ (roll-up): VD: nhóm dữ liệu theo năm thay vì theo quý. 343
  9. . Mở rộng (drill-down): VD: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý. . Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1. . Rút ngắn (dice): bỏ bớt một phần của dữ liệu (thêm điều kiện WHERE vào câu lệnh trong SQL). 3. MINH HỌA MỘT MÔ HÌNH KHO DỮ LIỆU 3.1. Giới thiệu mô hình Data nguồn Xét mô hình phân tích kho dữ liệu: Quản lý khám chữa bệnh bằng Thể bảo hiểm y tế: Gồm 2 Data Base [1] Data Base: Quản lý Thẻ BHYT như Hình 7: QLBHYT Hình 7. Cơ sở dữ liệu ngồm: Quản lý thẻ Bảo hiểm y tế [2] Data Base: Quản lý Khám chữa bệnh dùng Thẻ Bảo hiểm Y Tế như Hình 8: QLKCB Hình 8. Cơ sở dữ liệu nguồn: Quản lý khám chữa bệnh bằng bảo hiểm y tế Một số giải thích: + Nếu DOTKHAM có MATHE_BHYT NULL = Bệnh nhân sử dụng Thẻ BHYT + Chi phí thuốc = SL * GIA (thuốc) + Chi phí dịch vụ = SL * GIA (Dịch vụ) + Nếu không dùng dịch vụ thì Chi phí dịch vụ = 0, Nếu không cấp thuốc thì Chi phí thuốc = 0 344
  10. 3.2. Các yêu cầu đặt ra Phân tích tổng chi phí Khám chữa bệnh (Fact: Factor) dùng BHYT theo các Dim (Dimension) + Theo Loại Đơn vị + Theo Ngày + Theo Cơ sở y tế + Theo Quận 3.3. Phân tích Kho dữ liệu Xuất phát từ Factor TongChiPhiDichVu, TongChiPhiThuoc, TongSoLuotKham, ta thấy: TongChiPhiThuoc = được tính theo trình tự DOTKHAM.STT: Tiền (chi phí) thuốc [Tien]= CAPTHUOC.SL * DMTHUOC.GIA / MSTHUOC, STT Tổng Tiền (chi phí) thuốc theo từng lượt khám [TienSTT] = SUM(Tien) / STT Tông Tiền (chi phí) thuốc theo từng KV làm cơ sở nạp vào BIDS phân tích số liệu nhà kho. TongChiPhiDichVu = tính theo trình tự tương tự trên CÀI ĐẶT Views TÍNH TIỀN THUỐC CHO TỪNG ĐỢT KHÁM (STT) w_TienThuocMsThuoc: Tính tiền thuốc theo từng loại thuốc (MSTHUOC) của mỗi đợt khám (STT) = dùng 3 Tables[k, c, t] SELECT k.STT, t.MSTHUOC, c.SL, t.GIA, c.SL * t.GIA AS Tien FROM dbo.DOTKHAM AS k INNER JOIN dbo.CAPTHUOC AS c ON k.STT = c.STT INNER JOIN dbo.DMTHUOC AS t ON c.MSTHUOC = t.MSTHUOC GROUP BY k.STT, t.MSTHUOC, c.SL, t.GIA w_TienThuocSTT: Tính tiền thuốc theo từng đợt khám (STT) = dùng 1 Table + View nêu trên [k, t] SELECT k.STT, SUM(t.Tien) AS TienThuocSTT FROM dbo.DOTKHAM AS k INNER JOIN dbo.w_TienThuocMsThuoc AS t ON k.STT = t.STT GROUP BY k.STT 345
  11. TÍNH TIỀN DỊCH VỤ CHO TỪNG ĐỢT KHÁM (STT) w_TienDVMsDV: Tính tiền Dịch vụ theo từng loại dịch vụ (MADV) của mỗi đợt khám (STT) = dùng 3 Tables[k, s, d] SELECT k.STT, d.MADV, s.SL, d.GIA, s.SL * d.GIA AS Tien FROM dbo.DOTKHAM AS k INNER JOIN dbo.SDDV AS s ON k.STT = s.STT INNER JOIN dbo.DICHVU AS d ON s.MADV = d.MADV GROUP BY k.STT, d.MADV, s.SL, d.GIA w_TienDVSTT: Tính tiền Dịch vụ theo từng đợt khám (STT) = dùng 1 Table + 1 View nêu trên [k, d] SELECT k.STT, SUM(d.Tien) AS TienDVSTT FROM dbo.DOTKHAM AS k INNER JOIN dbo.w_TienDVMsDV AS d ON k.STT = d.STT GROUP BY k.STT TÍNH TỔNG TIỀN CHI PHÍ [Thuốc + Dịch vụ] CHO TỪNG ĐỢT KHÁM (STT) w_TongTienSTT SELECT k.STT, t.TienThuocSTT AS 'TienThuoc', d.TienDVSTT AS 'TienDV', t.TienThuocSTT + d.TienDVSTT AS TongTien FROM dbo.DOTKHAM AS k INNER JOIN dbo.w_TienDVSTT AS d ON k.STT = d.STT INNER JOIN dbo.w_TienThuocSTT AS t ON k.STT = t.STT GROUP BY k.STT, t.TienThuocSTT, d.TienDVSTT ===XỬ LÝ KHI CHỈ DÙNG Thuốc OR CHỈ Dịch vụ cũng Tính Các nội dung khác tương tự 3.4. Thiết kế Kho dữ liệu đế phân tích dữ liệu theo yêu cầu trên Mô hình Kho dữ liệu phân tích được thiết kế như Hình 9 + Dùng ETL (Extract - Transform – Load: Trích xuất - Biến đổi – Nạp dữ liệu trên SQL Server: Chuyển DB từ OLTP (On-Line Transaction Processing = Xử lý giao dịch trực tuyến) => DW Nguồn: QLBHYT, QLKCB => Đích: QLKCBBHYT_DWH 346
  12. Hình 9. Mô hình Kho dữ liệu quản lý khám chữa bệnh bằng Bảo hiểm y tế Có thể load Data Base theo phương pháp Copy Data Base Dùng SQL Server Integrated Services (SSIS) để phục vụ việc nạp Data Base từ OLTP vào các Dim (tức là các chiều phần tích số liệu trong Kho dữ liệu Nhiệm vụ của việc dùng ETL thông qua các Views là phục vụ cho việc tính toán các số liệu thông kê Factor phục vụ phân tich số liệu nhà kho. Trong đó: + Factor là các số liệu thống kế được hình thành thông qua các vấn tin có sử dụng các mệnh đề mở rộng, như: Compute với các hàm tính toán thông kế, như: SUM, AVERAGE, MIN, MAX, COUNT trên các fields tính toán của các Data Base nguồn. + Dim là các tiêu chí phân tích (đáng giá) các Facter trên Bảng (Tables) đã có hoặc được lập mới, như: DimNgay. 3.5. Dùng BIDS đề phân tích số liệu Kho dữ liệu theo yêu cầu trên Dùng công cụ phân tích nhà kho dữ liệu của Microsoft là BIDS để phân tích kho dữ liệu đã cài đặt nêu trên như Hình 10 347
  13. Hình 10. Phân tích kho dữ liệu dùng BIDS của Microsoft 4. KẾT LUẬN Với mô hình kho dữ liệu sẽ giúp các cơ quan – doanh nghiệp hiện nay tổ chức quản lý, duy trình hoạt động và khai thác sử dụng một cách hiệu quả trong việc hoạch định chiến lược, chiến thuật hoạt động và vận hành thông qua phân tích các Factors theo các Dim. Vì vậy kho dữ liệu là mô hình không thể thiếu trong các cơ quan – doanh nghiệp hiện này, phục vục việc phân tích và quản lý dự liệu thông minh. Các giải pháp kho dữ liệu trong khoa học dữ liệu mở ra nhiều hướng ứng dụng trong thực tiễn tại các cơ quan – doanh nghiệp, như: dự đoán thị trường kinh tế, dự báo khuynh hướng xã hội và nhiều bài toán hữu ích khác. 348
  14. DANH MỤC MỘT SỐ TỪ VIẾT TẮT được dùng trong bài viết Tiếng Việt: 1. CMCN 4.0: Cách mạng công nghiệp lần thứ 4. Tiếng Anh: 2. BIDS: SQL Server Business Intelligence Development Studio: Công cụ phân tích nhà kho dữ liệu của Microsoft. 3. DWH:Data Warehouse: Kho dự liệu còn gọi là Nhà kho dữ liệu. 4. ETL: Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu 5. OLAP: On-Line Analytical Processing: công cụ xử lý phân tích trực tuyến 6. SQL: Structured Query Language: Ngôn ngữ vấn tin có cấu trúc. TÀI LIỆU THAM KHẢO: [1]. Võ Xuân Thể (2021), Bài giảng: Kho dữ liệu, Trường Đại học Sư phạm Kỹ thuật Tp.HCM. [2]. Alejandro Vaisman and Esteban Zimányi, Data Warehouse Systems: Design and Implementation, Springer, 2014. [3]. Christian S. Jensen et al., Multidimensional Databases and Data Warehousing, Morgan & Claypool, 2010. [4]. Paul Lane et al., Oracle Database Data Warehousing Guide, 12cRelease 1 (12.1), Oracle, 2014. [5]. Ralph Kimball and Margy Ross, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, 3rd Edition, Wiley, 2013. [6]. Matt Casters et al., Pentaho Kettle, Solutions: Building Open Source ETL Solutions with Pentaho Data Integration, Wiley, 2010. [7]. Microsoft, SQL Server 2012 Tutorials: Analysis Services - Multidimensional Modeling, SQL Server 2012 Books Online, 2012. [8]. Ramez Elmasri and Shamkant Navathe, Fundamental of Database Systems, 6th Edition, Addison-Wesley, 2011. Websites [9]. http://inda.vn/ [10]. https://erps.vn/phan-biet-data-warehouse-va-database/ [11]. https://vietnambiz.vn 349
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1