intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Xu hướng quản lý dữ liệu

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:11

15
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Xu hướng quản lý dữ liệu" bàn về tầm quan trọng và sự quan tâm rất lớn đối với công tác Quản lý dữ liệu và là công việc cần phải làm của tất cả các cơ quan, tổ chức nào. Quản lý dữ liệu luôn là một việc làm quan trọng cần được tiến hành một cách cẩn thận để có thể đảm bảo tính hiệu quả và phù hợp với xu hướng phát triển của công nghệ ngày nay. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Xu hướng quản lý dữ liệu

  1. XU HƯỚNG QUẢN LÝ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Cuộc cách mạng dữ liệu có tiềm năng kinh tế lớn, thậm chí, dữ liệu còn được coi là “dầu mỏ mới”. Quản lý dữ liệu là cần thiết để bảo đảm tính bảo mật, tính toàn vẹn, khả năng truy cập, tính sẵn sàng và chất lượng của dữ liệu. Quản lý dữ liệu là một nhiệm vụ quan trọng đối với bất kỳ tổ chức nào. Dữ liệu là một tài sản lớn của tất cả các tổ chức và doanh nghiệp, nó giúp đưa ra những quyết định chính xác trong tất cả các hoạt động tại tất cả các cấp quản lý, cải thiện chiến dịch tiếp thị và tối ưu hóa hiệu quả của các hoạt động kinh doanh. Điều này đặt ra tầm quan trọng và sự quan tâm rất lớn đối với công tác Quản lý dữ liệu và là công việc cần phải làm của tất cả các cơ quan, tổ chức nào. Quản lý dữ liệu luôn là một việc làm quan trọng cần được tiến hành một cách cẩn thận để có thể đảm bảo tính hiệu quả và phù hợp với xu hướng phát triển của công nghệ ngày nay. Từ khóa: Dữ liệu, Quản lý dữ liệu, Điện toán đám mây, Hệ quản trị cơ sở dữ liệu 1. ĐẶT VẤN ĐỀ Quản lý dữ liệu là quá trình thu thập, tổ chức, lưu trữ và duy trì dữ liệu trong tổ chức. Trong đó, dữ liệu có thể hiểu một cách đơn giản là tập hơn các thông tin. Việc quản lý dữ liệu hiệu quả vô cùng quan trọng để có thể triển khai hệ thống công nghệ thông tin (CNTT) thông qua các ứng dụng kinh doanh, thu thập thông tin khách hàng để phân tích nhằm thúc đẩy quá trình đưa ra quyết định vận hành và vạch ra chiến lược rõ ràng cho doanh nghiệp. Quy trình quản lý dữ liệu là kết hợp giữa nhiều chức năng khác nhau. Qua đó, đảm bảo dữ liệu trong hệ thống của doanh nghiệp có được sự chính xác, luôn có sẵn cũng như có thể truy cập được. Quản lý dữ liệu không phù hợp sẽ có thể khiến cho các silo dữ liệu của tổ chức không tương thích. Nếu bộ dữ liệu không có được sự nhất quán sẽ làm hạn chế khả năng hoạt động của các ứng dụng phân tích thông minh, chí tệ hơn có thể dẫn đến những kết quả bị lỗi, sai lệch. Thời đại làm chủ dữ liệu nên các tổ chức, doanh nghiệp luôn được chào hàng các giải pháp về thu thập, phân tích dữ liệu, các giải pháp về Máy học (ML - Machine Learning), các giải pháp mới về xây dựng công tác quản lý dữ liệu từ những doanh nghiệp khởi nghiệp. Một số giải pháp quản lý dữ liệu phổ biến hiện nay gồm : 156
  2. Amazon Web Services (AWS) Bắt đầu với Dịch vụ lưu trữ đơn lẻ (Simple Storage Service - S3), quản lý dữ liệu AWS bao gồm Elastic MapReduce, Athena, một công cụ truy vấn có đồng hồ đo cho dữ liệu cư trú trong S3. Để cung cấp môi trường đám mây, AWS CloudFormation cho phép người dùng sử dụng một tệp văn bản đơn giản để mô hình hóa và cung cấp tất cả các tài nguyên cần thiết cho các ứng dụng của mình. Amazon CloudWatch theo dõi và thu thập các số liệu trên tất cả các tài nguyên của người dùng. AWS Systems Manager cho phép người dùng giám sát tất cả các tài nguyên của mình và tự động hóa các tác vụ vận hành phổ biến. Cuối cùng, có AWS OpsWorks để quản lý cấu hình. IBM IBM cung cấp DBMS độc lập, bao gồm các phiên bản khác nhau của DB2, Hệ thống PureData của IBM cho trình phân tích, trình tăng tốc phân tích của DB2, Hadoop thông qua IBM BigInsights, Phương pháp dữ liệu đầu tiên và Nền tảng dữ liệu IBM Watson. Hệ thống quản trị chính là máy chủ thông tin IBM, cung cấp quản trị thống nhất dữ liệu của người dùng, giúp người dùng tìm và tìm kiếm thông qua các tài sản, khám phá mối quan hệ giữa các tài sản, tìm kiếm các nguồn dữ liệu phi cấu trúc cũng như cơ sở dữ liệu có cấu trúc và cho phép tự động phát hiện dữ liệu mới. Microsoft Quản trị dữ liệu của Microsoft bắt đầu với bộ năng suất hàng đầu của mình, Office 365, cho phép khách hàng quản lý vòng đời nội dung đầy đủ, từ tạo hoặc nhập dữ liệu đến lưu trữ và tạo chính sách để giữ và xóa vĩnh viễn nội dung. Office 365 hoạt động bằng một loạt các sản phẩm của Microsoft được tái sử dụng cho đám mây, bắt đầu với SQL Server, cả tại chỗ và trong Azure. Nó cung cấp một thiết bị kho dữ liệu có tên Azure SQL Data Warehouse, một bản phân phối Hadoop dựa trên Hortonworks có tên Azure HDInsight và Azure Data Lake để thu thập dữ liệu. Kho dữ liệu Azure SQL cũng dành cho sự quan tâm ngày càng tăng trong lưu trữ dữ liệu đám mây. Oracle Oracle bắt đầu với sản phẩm chủ lực của mình, Cơ sở dữ liệu Oracle 12c cùng với Hệ thống quản lý dữ liệu lớn của Oracle, SQL Big Data SQL và Big Data Connector. Đối với quản trị dữ liệu cụ thể là Trình quản lý siêu dữ liệu doanh nghiệp Oracle (OEMM) và chất 157
  3. lượng dữ liệu doanh nghiệp của Oracle (EDQ). Hệ thống cũng cung cấp các hệ thống phần cứng chìa khóa trao tay cho ngăn xếp phần mềm của mình thông qua Máy cơ sở dữ liệu Oracle Exadata và công cụ dữ liệu lớn của Oracle cùng các dịch vụ đám mây như Cơ sở dữ liệu Oracle như một dịch vụ, Dịch vụ đám mây siêu dữ liệu và Dịch vụ đám mây dữ liệu lớn. SAP Đối thủ cạnh tranh cuối cùng của Oracle còn lại, SAP cung cấp IQ DBMS và Hana cho DBMS trong bộ nhớ và phân tích. Hana đã được cập nhật để bao gồm các tính năng như sao lưu và phục hồi thảm họa, phân tích, tích hợp với Apache Spark và đa nhiệm. SAP Hana là một thành phần của Nền tảng SAP. Sau đó, có Quản trị dữ liệu gốc SAP, hợp nhất và quản lý dữ liệu từ một vị trí để bảo đảm chất lượng và tính nhất quán của dữ liệu. Teradata Teradata được biết đến với các nền tảng phân tích, bao gồm DBMS, thiết bị kho dữ liệu và kho dữ liệu đám mây. Teradata có kết nối thông qua Hadoop bằng Aster Analytics và truyền dữ liệu qua Teradata Listener, tất cả đều được thiết kế để biểu diễn thông tin qua một giao diện hợp nhất duy nhất. Chức năng Quản lý dữ liệu gốc của Teradata là một khung vòng đời hoàn chỉnh để quản trị dữ liệu. Cloudera Cloudera là một trong ba công ty phân phối lớn của Hadoop và rất thành công. Cloudera cung cấp Cloudera Enterprise, một bản phân phối Hadoop với cả Hadoop cho các phân tích hàng loạt và Spark cho các phân tích thời gian thực, cộng với Cloudera Navigator để quản trị, Cloudera Manager và Cloudera Director cho quản trị cụm cả tại chỗ, trên đám mây; hỗ trợ AWS, Azure và nền tảng đám mây của Google. Dell Boomi Boomi là một công ty con thuộc Dell được mua lại vào năm 2010, chuyên về quản lý dữ liệu gốc cả tại chỗ và trên đám mây. Boomi có ít hoặc không phát triển mã hóa thông qua Thư viện quy trình Boomi, nơi cung cấp các ví dụ để xây dựng các ứng dụng quản trị. Boomi cũng hỗ trợ các nhà cung cấp và trình kết nối PaaS cho Azure, AWS và Google, cung cấp các trình kết nối EDI để kết nối với các đối tác và hỗ trợ các Docker cho các phương thức phát triển DevOps. 158
  4. SAS Toàn bộ nghiệp vụ của SAS được xây dựng trên các phân tích. SAS cung cấp một giải pháp quản lý dữ liệu gốc gọi là Quản trị dữ liệu SAS để giúp các tổ chức chuẩn bị và quản lý cả nguồn dữ liệu lớn và dữ liệu truyền thống. SAS cho phép người dùng duy trì và quản lý các thuộc tính dữ liệu thông qua một mô hình dữ liệu chung, gắn cờ thay đổi siêu dữ liệu, tạo ảnh chụp nhanh, lưu trữ và quản lý danh sách, phân cấp và tạo báo cáo về tình trạng dữ liệu và mọi khắc phục cần thiết. Phần mềm TIBCO TIBCO MDM chuyên cung cấp một khung nhìn thống nhất về dữ liệu của tổ chức được lưu trữ trong các silo khác nhau, cho phép các tổ chức có được cái nhìn rõ ràng về dữ liệu nghiệp vụ của họ và hành động nhanh chóng. TIBCO MDM cung cấp trực quan hóa quy trình công việc dữ liệu trong toàn tổ chức, cho phép các tổ chức quan sát các quy trình và cải thiện khi cần thiết. TIBCO hoạt động cả tại chỗ và trên đám mây thông qua TIBCO Clarity Cloud Edition. Quản lý dữ liệu là mọt lĩnh vực rộng lớn bao gồm các giải pháp cho những khối lượng công việc khác nhau, các kiểu dữ liệu khác nhau cho các tình huống cụ thể khác nhau. Tuy nhiên, các giải pháp mới mà các doanh nghiệp khởi nghiệp đề xuất luôn là những ý tưởng mà tính tối ưu còn hạn chế, bao gồm : 1.1 Còn tập trung vào nền tảng tại chỗ (On-premise) Vẫn còn nhiều doanh nghiệp khởi nghiệp chào hàng giải pháp quản lý dữ liệu ở giai đoạn đầu vốn tập trung vào phân khúc thị trường quản lý dữ liệu tại chỗ nơi mà đã có đông đảo những nhà cung cấp phần mềm doanh nghiệp lâu đời nên sẽ rất khó khăn để cạnh tranh thành công. Trong khi những doanh nghiệp lâu đời này đang nhanh chóng triển khai ứng dụng công nghệ điện toán đám mây (cloud computing), điều này đòi hỏi các doanh nghiệp khởi nghiệp cần phải tập trung vào các giải pháp dành riêng cho công nghệ điện toán đám mây nhằm tăng cường tỷ lệ học tập và lợi nhuận cho khách hàng. 1.2 Hệ thống dùng chung Từ lâu, các nhà nghiên cứu và chuyên gia đã chỉ ra rằng có sự khác biệt rất lớn trong kết quả thực hiện công việc giữa các hệ thống chuyên biệt và các hệ quản trị cơ sở dữ liệu tổng quát (DBMSs-DataBase Management Systems), các doanh nghiệp khởi nghiệp giai 159
  5. đoạn đầu thường tập trung vào việc xây dựng một nền tảng duy nhất được thiết kế để thay thế các hệ thống đang vận hành rất mạnh mẽ cả trong các ứng dụng xử lý giao dịch và trong các ứng dụng phân tích dữ liệu. 1.3 Các nền tảng tích hợp Trong thời gian đầu của kỷ nguyên dữ liệu lớn (Big Data) như Hadoop…, đội ngũ kỹ sư dữ liệu và nền tảng phải cài đặt thủ công phần mềm, cấu hình thủ công các cụm mạng máy tính và liên tục quản lý, điều chỉnh nhiều hệ thống phần mềm phức tạp khác nhau. Trong khi đó đã có sẵn nhiều công cụ giúp đơn giản hóa và tự động hóa nhiều tác vụ này được chào mời mua hàng từ những doanh nghiệp chuyên tập trung vào việc tích hợp và hợp nhất các thành phần cấu thành phần mềm khác nhau. Những công cụ này đã được phát triển trong thời gian dài nên các doanh nghiệp khởi nghiệp cần tận dụng để phát huy sức mạnh của những công cụ này thay vì chỉ đơn giản tích hợp các nền tảng phần mềm riêng lẻ. Gạt qua bên những hạn chế kể trên, ta vẫn nhận thấy rằng công việc quản lý dữ liệu thực sự là một lĩnh vực sôi động với minh chứng là sự tồn tại của các doanh nghiệp khởi nghiệp kỳ lân ngày nay. Bài viết này sẽ liệt kê các lý do và các xu hướng chủ đạo nằm sau sự lạc quan và chi tiết những việc mà các đội ngũ dữ liệu cùng các kiến trúc nền tảng cần phải nhớ khi đánh giá, định lượng các giải pháp quản lý dữ liệu trong thời gian tới. Sau đây là một số công ty quản lý dữ liệu đã huy động được hơn 100 triệu USD, trong số đó một số đã niêm yết trên thị trường chứng khoán Mỹ, điều này chứng minh được uy tín, sự lớn manh, xu hướng của thị trường cũng như sự quan tâm và xu hướng của nhu cầu quản lý dữ liệu của các tổ chức, doanh nghiệp trên thế giới hiện nay. Hình 1 : Quản lý dữ liệu của lĩnh vực sôi động nhất (Nguồn : Khảo sát thị trường của Gradient Flow) 160
  6. 2. THỊ TRƯỜNG CƠ SỞ DỮ LIỆU NỀN TẢNG ĐÁM MÂY (Cloud DB) Thị trường cơ sở dữ liệu nền tảng đám mây đang phát triển nhanh hơn toàn bộ thị trường cơ sở dữ liệu nói chung. Theo đánh giá của công ty Expert Market Research [1], kết quả cho thấy rằng thị trường Hệ quản trị cơ sở dữ liệu toàn cầu sẽ phát triển đều đặn hàng năm (chỉ số CAGR) khoảng 12,4% đạt 125,6 tỷ USD vào năm 2026. Theo báo cáo của tạp chí Bloomberg [2], thị trường cơ sở dữ liệu đám mây sẽ đạt 68,7 tỷ USD vào năm 2026 với chỉ số CAGR khoảng 38,2%. Các số liệu đánh giá này hoàn toàn phù hợp với kết quả của khảo sát các kỹ sư dữ liệu của công ty Gradient Flow [3], hầu hết người được phỏng vấn đều tiết lộ kế hoạch triển khai ứng dụng Cloud DB trong vòng 12 – 24 tháng tiếp theo. 2.1. Sự phát triển của giải pháp Dịch vụ cơ sở dữ liệu (DBaaS – DataBase as a Service) Cùng sự nổi lên của nền tảng Kho dữ liệu đám mây và kiến trúc quản lý dữ liệu mở lakehouses, các doanh nghiệp cần giải pháp DBaaS trong các tác vụ của ứng dụng kinh doanh thông minh (BI-Business Intelligent) và trong các hoạt động phân tích dữ liệu. DBaaS hiện được rất nhiều nền tảng đa dạng hỗ trợ như Google BigQuery, Databricks, Amazon Redshift, Snowflake và Azure Synapse. Đã và đang diễn ra sự dịch chuyển cơ sở dữ liệu của hoạt động sản xuất kinh doanh hàng ngày lên đám mây với các nền tảng được lựa chọn như MongoDB Atlas, Datastax AstraDB, Redis, CockroachDB … Theo một nghiên cứu thị trường của Stack Overflow [3] cho thấy lưu lượng các trang web thảo luận về dịch vụ cơ sở dữ liệu quan hệ Amazon (RDS – Relational Database Service) tăng 40% hàng năm. Lưu lượng tới các trang của website Stack Overflow có nội dung trao đổi về cơ sở dữ liệu chuyên biệt dành cho nền tảng đám mây là Amazon Aurora có tương thích với MySQL và PostgreSQL tăng 200% hàng năm. Các hệ thống chuyên dụng như cơ sở dữ liệu đồ họa, cơ sở dữ liệu chuỗi thời gian và cơ sở dữ liệu vector cũng luôn được các doanh nghiệp mời chào sử dụng. 2.2 Hệ thống mã nguồn mở Tạp chí DB-Engines xếp hạng các DBMSs bằng việc sử dụng các yếu tố và nguồn dữ liệu như dịch vụ cơ chế tìm kiếm Google Trends, thông báo tuyển dụng, hội nhóm công việc và mang lưới trang web nghề nghiệp cũng như các mạng xã hội. Đầu năm 2021, hệ thống mã nguồn mở đã vượt qua DBMSs dựa trên chỉ số so sánh của tạp chí DM-Engines. Trong số 10 hệ thống hàng đầu của DB-Engines xếp hạng, phần lớn là các hệ thống mã 161
  7. nguồn mở như PostgreSQL, Redis, Mongodb và Elasticsearch thuộc nhóm các hệ thống phát triển nhanh nhất. Giấy phép bản Điẻm số xếp Giấy phép mã Hình 2 : Lịch sử xu hướng về độ phổ biến của hệ thống mã nguồn mở và DBMSs thương mại (Nguồn : Bảng xếp hạng của tạp chí DB-Engines) Một phép đo lường khác về số lượng quan tâm một chủ đề nào đó được r/Database thu thập và công bố gần đây cho thấy, một lần nữa các hệ thống mã nguồn mở chiếm đa số trong danh sách 10 hệ thống được quan tâm nhất. Hình 3 : Số lượng quan tâm về hệ thống cơ sở dữ liệu năm 2021 (Nguồn : Tổng kết số liệu của Andy Pavlo và tạp chí GradientFlow) Cuối cùng, một dấu hiệu chắc chắn về độ phổ biến của hệ thống chính là quy mô của hệ sinh thấy và độ phổ biến về giao diện sử dụng. theo những thông tin thu thập được, Postgre trở thành phương thức trung gian kết nối (API-Application Programming Interface) cho các cơ sở dữ liệu vận hành và nhiều hệ thống khác chấp nhận giao diện sử dụng của Postgre. 162
  8. 2.3 Sự nổi lên của dịch vụ truy vấn phi máy chủ đối với dữ liệu object store Trong khảo sát của tạp chí Data Engineering [4] gần đây cho thấy AWS Athena và Google BigQuery là một trong những dịch vụ được sử dụng phổ biến nhất. Athena và BigQuery cung cấp dịch vụ truy vấn tương tác sử dụng SQL tiêu chuẩn để phân tích dữ liệu được lưu trữ trong object store. Số lượng sản phẩm phi máy chủ tương tự đang phát triển và xuất hiện ngày càng nhiều trên thị trường hiện nay. Các doanh nghiệp cung cấp dịch vụ truy vấn phi máy chỉ bao gồm Databrick với sản phẩm Serverless SQL, Rockset, MinIO với sản phẩm MC SQL và Microsoft có sản phẩm Azure Data Lake Analytics. 2.4 Việc thúc đẩy phát triển các nền tảng dữ liệu hiện đại sẽ tiếp tục mạnh mẽ hơn Trong một báo cáo gần đây về xu hướng trong lĩnh vực dữ liệu và Trí tuệ nhân tạo [5] (AI-Artificial Intelligence) có đề cập tới kiến trúc Nền tảng dữ liệu hiện đại (MDP – Modern Data Platforms), đây là một Kho dữ liệu và lakehouses đã tạo ra một hệ sinh thái mạnh mẽ cho các doanh nghiệp khởi nghiệp và các nhà cung cấp công cụ lưu trữ và xử lý dữ liệu. Nhiều doanh nghiệp khởi nghiệp về sản phẩm dữ liệu đang tích hợp với các nền tảng dữ liệu hiện đại này và một số đang đặc biệt quan tâm tới các công ty có sử dụng nền tảng dữ liệu hiện đại. Hệ sinh thái các công cụ tích hợp với nền tảng dữ liệu hiện đại bao gồm các công cụ dùng để khám phá dữ liệu, đánh giá và nâng cao chất lượng dữ liệu, tích hợp dữ liệu … Hệ sinh thái này còn được gọi là Ngăn xếp dữ liệu hiện đại (Modern Data Stack). Giống như các nền tảng cơ sở dữ liệu khác có những động lực tồn tại và phát triển, nền tảng dữ liệu hiện đại cũng tự tìm các động lực tồn tại và phát triển trong vòng xoáy tăng trưởng dựa trên các yếu tố sau : 1. MDPs có nhiều người sử dụng. 2. MDPs tạo ra sự mới mẻ, hiệu quả với thực tiễn nên hấp dẫn với bộ phận người người, nhà nhà, công ty xây dựng công cụ và phát triển các ứng dụng. 3. Là hệ sinh thái có các công cụ và ứng dụng dành cho MDPs khiến cho MDPs mạnh mẽ hơn, điều này khiến cho người dùng lựa chọn MDPs như một tất yếu của sự phát triển. 4. Vòng xoáy tăng trưởng luôn lặp lại. 2.5 Có nhiều phương pháp để đánh giá các hệ cơ sở dữ liệu Cơ sở dữ liệu từ ban đầu chỉ là một khối duy nhất (monolith) bao gồm các thành phần được tích hợp chặt chẽ với nhau như cơ chế lưu trữ, cơ chế tính toán và ngôn ngữ đặc tả 163
  9. chuyên biệt. Mỗi cơ chế lưu trữ dữ liệu có phần mở rộng SQL riêng, Oracle có PL/SQL, Microsoft có T-SQL và người sử dụng sẽ tự mình học cách sử dụng các phần mở rộng cụ thể để nhanh chóng sử dụng cơ chế tính toán. Gần đây, các công cụ ETL (Extract – Transform - Load) và ELT (Extract – Load - Transform) chuyên biệt cho nền tảng đám mây như Matillion, dbt, Rivery, Fivetran, Airbyte cùng các công cụ được xây dựng trên các ngôn ngữ trực quan như Tableu, Looker đã tung ra thị trường một API duy nhất hoạt động như những trình phiên dịch cho các cơ sở dữ liệu và cơ chế tính toán. Việc tách rời API khỏi máy tính nhằm giúp người dùng cần phải học hỏi chỉ duy nhất một API để vận hành dòng dữ liệu liên tục cùng các chương trình trên các cơ chế tính toán mới hoặc một cơ sở dữ liệu mới. Giai đoạn tiếp theo của quá trình phát triển là sự xuất hiện các lớp đại diện trung gian nhằm giúp nâng cao cấp độ mềm dẻo. Các công cụ như Modin, Substrait và Weld giúp người dung truy cập cơ sở dữ liệu quen với Python, SQL truy cập dữ liệu dễ hơn… ví dụ, người dùng đã quen thuộc với các công cụ như Pandas có thể sử dụng nhiều hệ thống cơ sở dữ liệu khác nhau một cách nhịp nhàng. Sau đây là sự phân chia các giai đoạn phát triển của công việc quản lý dữ liệu đến thời điểm hiện tại và xu hướng trong tương lai. Hình 4 : Độ mềm dẻo tăng khi sử dụng và truy cập DBMSs (Nguồn : Tạp chí GradientFlow). 164
  10. 3. KẾT LUẬN Trên đây là những xu hướng của công tác lưu trữ, quản lý và xử lý dữ liệu hiện nay và trong tương lai gần, cũng là định hướng phát triển cho các doanh nghiệp khởi nghiệp lựa chọn công nghệ phù hơp hoặc có hướng đi riêng phù hợp với điều kiện của mình, ví dụ như: 3.1 Xây dựng Hệ thống xử lý giao dịch trực tuyến (OLTP-OnLine Transaction Processing) DBaaS tự chủ Chắc chắn sẽ không bao giờ có đủ nhân lực Quản trị hệ cơ sở dữ liệu và chuyên gia cơ sở dữ liệu vì theo báo cáo gần đây, nguồn lực Công nghệ thông tin (CNTT) chỉ tằng 1% trong 02 năm gần đây. Nếu đúng tiêu chuẩn thì mỗi một tổ chức sẽ cần hàng trăm, thâm chí hàng nghìn DBMSs cho các tác vụ, trong đó chỉ một số nhỏ được nhân lực quản trị hệ cơ sở dữ liệu giám sát và hỗ trợ. Việc gia tăng ứng dụng DBaaS trên nền tảng đám mây sẽ khiến cho nguồn nhân lực ít ỏi ngày nay sẽ càng thêm thiếu hụt nghiêm trọng. Một mặt, MDPs gồm Kho dữ liệu đám mây và lakehouses giúp cho các doanh nghiệp dễ dàng hơn khi triển khai và quản lý Hệ quản trị cơ sở dữ liệu trong các tác vụ phân tích dữ liệu và các ứng dụng Máy học (ML - Machine Learning) nhưng DBaaS OLTP sẽ đòi hỏi các doanh nghiệp lưu tâm và xây dựng nguồn nhân lực có chất lượng cao cấp chuyên gia. Các nhà phát triển không muốn chỉ cung cấp và bảo trì, các Giám đốc Công nghệ (Chief Technology Officier) cũng không muốn thuê ngoài các công ty tư vấn để tối ưu và quản lý các hệ cơ sở dữ liệu OLTP. Rất may hiện nay trên thị trường đã xuất hiện các dự án và những hệ thống sử dụng ML để tối ưu và quản lý các hệ cơ sở dữ liệu như các giải pháp OtterTune, Oracle AD … nhắm tới việc xây dựng các hệ cơ sở dữ liệu tự chủ và tự đính hướng. 3.2 Hệ cơ sở dữ liệu cho lĩnh vực Thị giác máy tính Sự trỗi dậy của ngành Học sâu (Deep Learning) trong lĩnh vực Thị giác máy tính khiến cho việc sử dụng dữ liệu thị giác (gồm hình ảnh, phim) phát triển bùng nổ. Tuy nhiên, tiến bộ trong cơ sở hạ tầng dữ liệu lại bị chậm trễ, phần lớn các doanh nghiệp tham gia vào lĩnh vực thị giác máy tính vẫn tiếp tục tự xây dựng các giải pháp quản lý dữ liệu của riêng mình và lưu trữ hình ảnh dưới dạng tập tin phẳng (flat file). Khi tầm quan trọng của dữ liệu thị giác tăng lên, các doanh nghiệp cần các hệ quản trị cơ sở dữ liệu có cơ chế lưu trữ, hiển thị dữ liệu, biên dịch truy vấn, cơ chế tối ưu truy vấn và giao tiếp bằng các ngôn ngữ đặc tả 165
  11. chuyên biệt. Đây là lĩnh vực năng động và đã được đặt nền tảng ban đầu cùng các hệ thống như TileDB, Scanner, ApertureData, ActiveLoop… Các doanh nghiệp có năng lực thu thập dữ liệu và giải phóng nguồn lực dữ liệu sẽ có đủ năng lực cải tiến và vận hành hiệu quả hơn các đối thủ cùng ngành. Nhìn xa hơn BI và hướng tới các ứng dụng phức tạp hơn, sự quan tâm về các công cụ trong lĩnh vực AI với dữ liệu làm trung tâm ngày càng tăng là điểm sáng đúng trọng tâm đối với các hệ quản trị cơ sở dữ liệu và DataOps. Việc kết hợp mô hình DataOps vào tổ chức, doanh nghiệp sẽ tăng khả năng hoạt động bằng cách tích hợp dữ liệu vào phương pháp Agile của DevOps và DevSecOps. Điều đó sẽ tạo ra một mô hình liền mạch đi qua các bộ phận tổ chức, doanh nghiệp, bao gồm cả việc quản lý dữ liệu, sản xuất và bảo mật. DataOps cho phép người dùng có khả năng tương tác đầy đủ với các nguồn dữ liệu, hợp lý hóa hiệu quả việc quản lý và phân tích dữ liệu. Cuối cùng thì DataOps giúp cải thiện việc phân phối và triển khai sản phẩm với giá trị dữ liệu an toàn và luôn được cập nhật. TÀI LIỆU THAM KHẢO [1]. Database Management System (DBMS) Market Size, Share, Trends 2022-2027 (expertmarketresearch.com). [2]. Cloud Database Market to Reach USD 68720 Million by 2026 at a CAGR of 38.2% | Valuates Reports - Bloomberg. [3]. Gradient Flow, 2022 Data Engineering Survey Report, 2022 [4]. StackOverflow, The incredible growth of Amazon RDS, 2022. [5]. Gradient Flow, 2022 Trends report : Data, Machine Learning, and AI. 2022. 166
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2