intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thư viện số - Quách Tuấn Ngọc, Đỗ Quang Vinh

Chia sẻ: Bin Bin | Ngày: | Loại File: PPT | Số trang:44

165
lượt xem
15
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Thư viện số" do Quách Tuấn Ngọc, Đỗ Quang Vinh biên soạn đưa ra một số những nghiên cứu chi tiết về cấu tạo và phương thức hoạt động của thư viện số với kết cấu nội dung trình bày một mô hình hình thức cho thư viện số dựa vào đại số hiện đại, phân tích chi tiết các phương pháp chỉ mục tài liệu văn bản trong DL, phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ, phân tích chi tiết các giải thuật kinh điển. Mời các bạn tham khảo tài liệu.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thư viện số - Quách Tuấn Ngọc, Đỗ Quang Vinh

  1.   1
  2. THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008 2
  3.  Tính cấp thiết  World Wide Web đã xâm nhập vào cuộc sống hàng ngày  Giao diện cho Web tiến triển từ duyệt đến tìm kiếm  DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới  Tổng quan hoạt động nghiên cứu DL  Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới  Trọng tâm của các dự án DL  Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin 3
  4. (tiếp)  Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL  Hoạt động nghiên cứu DL ở Mỹ  Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh  2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế  Dự án thư viện số DLI:  Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU 4
  5. (tiếp)  Dự án dịch vụ thông tin số của Đại học California ở Berkeley  Dự án Alexandria của Đại học California ở Santa Barbara  Dự án Interspace của Đại học Illinois ở Urbana- Champaign  Dự án UMDL của Đại học Michigan  Dự án InfoBus của Đại học Stanford  Các dự án DL chủ yếu khác ở Mỹ:  Thư viện quốc hội (Library of Congress)  Dự án công nghệ thư viện số DLT của NASA  Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 5
  6. (tiếp)  Dự án thư viện số của IBM  Dự án thư viện số California CDL  Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)  Dự án MOA của hai Đại học Cornel và Michigan  Dự án Open Book của Đại học Yale  Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag  Dự án TULIP của nhà xuất bản Elsevier Science Publisher 6
  7. (tiếp)  Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand 7
  8. (tiếp)  Việt Nam  Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin  Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi  Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam 8
  9. (tiếp)  Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin  Hiện nay, một số phần mềm được cài đặt:  Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam  Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia  Hệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh 9
  10. I. TỔNG QUAN VỀ THƯ VIỆN SỐ 1. ĐỊNH NGHĨA  Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.  Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu.  Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai. 10
  11. (tiếp)  Định nghĩa 1.4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống.  Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.  Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng.  LÝ DO CHÍNH XÂY DỰNG DL Thư viện số phân phát thông tin tốt hơn thư viện truyền thống 11
  12. (tiếp)  LỢI ÍCH CỦA DL 1. Thư viện số mang thư viện đến người sử dụng 2. Máy tính được sử dụng để tìm kiếm và duyệt 3. Thông tin có thể được chia sẻ 4. Thông tin dễ dàng cập nhật hơn 5. Thông tin luôn sẵn có 6. Các dạng thông tin mới trở thành thực hiện được 7. Giá của DL  4 lĩnh vực kỹ thuật nổi bật đối với DL 1. Lưu trữ điện tử trở nên rẻ hơn giấy 2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3. Mạng tốc độ cao trở nên phổ biến 12
  13. (tiếp)  NGHIÊN CỨU TIN HỌC TRONG DL 1. Mô hình đối tượng 2. Giao diện NSD 3. Chỉ mục và Tìm kiếm thông tin 4. Quản trị và bảo trì CSDL 5. Tính liên tác  CHỈ MỤC & TÌM KIẾM THÔNG TIN 1. Siêu dữ liệu mô tả 2. Chỉ mục tự động 3. Xử lý ngôn ngữ tự nhiên 4. Tài liệu phi văn bản 13
  14. (tiếp) Hình - Máy tính trong thư viện số (W.Y.Arms) Kho lưu trữ NSD Hệ thống định Hệ thống tìm vị kiếm 14
  15. (tiếp) 2. Mô hình hình thức cho DL 1. Cơ sở toán học 2. Dòng Định nghĩa 1.14: Một dòng là một dãy có miền giá trị là một tập không rỗng. 3. Cấu trúc Định nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một dồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V ∪ E) → L 4. Không gian Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo 15
  16. (tiếp) 5. Kịch bản Định nghĩa 1.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1≤ k≤ n 6. Cộng đồng Định nghĩa 1.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x ... x cknj , 1 ≤ k1 < k2 < ... < knj ≤ n, định rõ các cộng đồng bị dính vào 16 quan hệ và i là một hoạt động mô tả tương tác
  17. (tiếp) 7. Định nghĩa hình thức thư viện số Định nghĩa 1.41: Một thư viện số là một bộ bốn (R, MC, DV, XH) trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng dồng NSD thư viện số. 17
  18. II. CHỈ MỤC TÀI LIỆU VĂN BẢN 2.1 MỞ ĐẦU  Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số  Bảng 2.1 - CSDL TREC Số tài liệu N 741856 Số thuật ngữ F 333338738 Số thuật ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 18
  19. (tiếp) 2.2 CHỈ MỤC TỆP ĐẢO IFID  Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó  Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin  Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản  Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục  Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống 19
  20. (tiếp) Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu TÀI LIỆU VĂN BẢN 1 Information retrieval is searching and indexing 2 Indexing is building an index 3 An inverted file is an index 4 Building an inverted file is indexing 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2