Bài giảng cung cấp cho người học các kiến thức: Văn bản (text), đồ họa và ảnh động (vector graphics and animation), âm thanh (digital audio), ảnh số (digital image), video số (digital video). Mời các bạn cùng tham khảo.
AMBIENT/
Chủ đề:
Nội dung Text: Bài giảng Cơ sở dữ liệu đa phương tiện: Chương 1b - Nguyễn Thị Oanh
- Chương 1: Các khái niệm cơ bản
Nguyễn Thị Oanh
Bộ môn HTTT – Viện CNTT & TT
oanhnt@soict.hut.edu.vn
1
- Nội dung
1. Văn bản (text)
2. Đồ họa và ảnh động (vector graphics and
animation)
3. Âm thanh (Digital Audio)
4. Ảnh số (Digital Image)
5. Video số (Digital Video)
2
- 1. Văn bản
3
- DL văn bản
– Chứa thông tin chủ đạo
– Input: bàn phím, các chương trình nhận dạng âm thanh và ký tự,
dữ liệu lưu trên đĩa, phụ đề phim, …
4
- DL văn bản
Kích thước lưu trữ: không đáng kể so với các dữ liệu
đa phương tiện khác
Định dạng: đa dạng:
– Văn bản thường (file ASCII)
– Văn bản có cấu trúc, được định dạng (màu sắc, độ bóng,
...) (html, xml, RTF, Word, mã nguồn của chương trình C,
latex, PDF, …)
5
- DL văn bản - Nén
Nén không làm mất mát thông tin
Dự trên thực tế:
– tần suất xuất hiện của các ký tự khác nhau
Một số kỹ thuật:
– Huffman coding
– Run-length Coding
– Lempel Zip -Welch Coding (LZW)
6
- Huffman Coding
Dựa trên tần suất xuất hiện của item (ký tự)
Từ nào xuất hiện nhiều thì dùng ít bít để mã hóa và
ngược lại
Mã cho mỗi ký tự được lưu trong Code book tương
ứng cho mỗi tài liệu. VD:
Ký tự Tần suất Mã
F 0.8 1
T 0.16 01
X 0.02 001
Z 0.02 000
Xác định code book ?
7
- Run-length Coding
Dựa trên số lần lặp liên tục của các ký tự
eeeeeeeebtnnnnnnn
1 run, Ký tự đăc biệt để chỉ rằng
length = 8 đang mã hóa
@ 8 e
Kết quả: @8ebt@7n
8
- LZW
Dựa trên tần suất lặp của các cụm ký tự
Xây dựng từ điển cho các cụm ký tự Token Chuỗi ký tự
Ví dụ:
… ……..
Giả sử tài liệu có 10.000 ký tự
Chia thành 2000 các cụm ký tự
Trong đó có 500 cụm khác nhau
– Không nén: 10.000 x 8 bit = 80.000 bit
– LZW: 2000 x 9 bit = 18.000 bit
(để biểu diễn được 500 token, cần 9 bit)
9
- 2. Đồ họa và ảnh động
10
- Đồ họa và ảnh động
Đồ họa
– Pixel-based graphic: xử lý giống ảnh số
– Vector-based graphic:
Mô hình được định nghĩa trước
Không gian lưu trữ: thấp
Dễ lấy nội dung
Ảnh động:
– Pixel-based: giống video
– Vector-based: giống vector-based graphic nhưng có thêm
thông số về thời gian
11
- 3. Âm thanh
12
- DL âm thanh
Tiếng động, tiếng nói (văn bản đi kèm), nhạc,
phim, các chương trình dịch tự động từ văn bản,
…
13
- DL âm thanh
– Tín hiệu âm thanh là tín hiệu tương tự và liên tục
– Input : microphone số hóa và lưu trữ
– Không gian lưu trữ lớn :
CD Quality Audio : 16-bit sampling at 44.1 KHz
1 phút của 1 Mono CD (chưa nén): 5Mb
1 phút của Stereo CD (chưa nén) : 10Mb
– Thường được nén lại để giảm kích thước (mp3, aac,
Flac, Ogg Vorbis, …)
14
- ADC (Analog-to-Digital Converter)
– Lấy mẫu (Sampling)
– Lượng tử hóa (Quantization)
– Mã hóa (Encoding)
15
- Một số kỹ thuật nén
– Lượng tử phi tuyến
– Predictive Coding
– Chuẩn nén audio : MPEG – Audio
16
- 4. Ảnh số
17
- Ảnh số
– Ảnh số là một chuỗi các điểm ảnh để biểu diễn 1 vùng
sẽ được hiển thị trên màn hình của người sử dụng
– Input : caméra, scan, sinh ra từ các chương trình mô
phỏng hay các phần mềm tạo và xử lý ảnh
– Định dạng : jpg, png, bmp, tiff, …
– Kích thước lưu trữ : phụ thuộc vào kích thước ảnh, độ
phân giải, kỹ thuật nén (nếu có).
1 bit / 1 pixel (ảnh nhị phân)
8 bits/ 1pixel (ảnh đa mức xám)
24 bits / 1pixel (ảnh màu)
– Ảnh thường được nén để giảm không gian lưu trữ
18
- Ảnh xám
Mức xám - 8 bits:
0 - đen
255 - trắng
64 60 69 100 149 151 176 182 179
65 62 68 97 145 148 175 183 181
65 66 70 95 142 146 176 185 184
66 66 68 90 135 140 172 184 184
66 64 64 84 129 134 168 181 182
59 63 62 88 130 128 166 185 180
60 62 60 85 127 125 163 183 178
62 62 58 81 122 120 160 181 176
63 64 58 78 118 117 159 180 176
19
Source : Tal Hassner. Computer Vision. Weizmann Institute of Science (Israel).
- Ảnh màu
-Mỗi điểm ảnh có 3
thành phần màu: R,
G, B
-1 ảnh số = 3 ma
trận giá trị số để biểu
diễn cường độ R, G, B
tương ứng
20 - Ngoài RGB còn có các hệ tọa độ màu khác: YUV, HSV