intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Xây dựng kho dữ liệu từ vựng song ngữ Việt - BHNong

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:26

81
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xây dựng kho dữ liệu từ vựng song ngữ Việt - BHNong nhằm tạo ra ra bộ từ điển song ngữ Việt Bhnong giúp cho việc tra cứu dễ dàng,. Xây dựng một chương trình giúp cán bộ vùng nông thôn.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Xây dựng kho dữ liệu từ vựng song ngữ Việt - BHNong

  1. 1 B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG NGUY N VĂN TOÀN XÂY D NG KHO D LI U T V NG SONG NG VI T - BHNONG Chuyên ngành: KHOA H C MÁY TÍNH , Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. 2 Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: PGS.TSKH. TR N QU C CHI N Ph n bi n 2: PGS.TS. ĐOÀN VĂN BAN Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 16 tháng 10 năm 2011 * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
  3. 3 M Đ U 1. Lý do ch n ñ tài Vi t Nam là m t qu c gia ña dân t c. Theo tài li u c a T ng c c Th ng kê năm 1999, thay m t Nhà nư c Vi t Nam công b , nư c ta có 54 thành ph n dân t c anh em. M i thành ph n dân t c có ngu n g c hình thành nh ng ñi bàn khác nhau. Hi n nay, ngư i Bhnong chưa có ch vi t. Vì v y, th y giáo Nguy n Văn Thanh, phó ch t ch H i ñ ng Nhân dân huy n Phư c Sơn ñã và ñang h p tác v i các chuyên gia c a Vi n Ngôn Ng H c Vi t Nam và các già làng trư ng b n c a huy n Phư c Sơn xây d ng ñ tài “Nghiên c u xây d ng, hoàn ch nh ch vi t và ti n hành biên so n b sách công c ti ng Gi - Triêng (Bhnong)”. B sách này g m có b n quy n, bao g m: ch vi t Bhnong, ng pháp ti ng Bhnong, sách h c ti ng Bhnong và cu n t ñi n Vi t - Bhnong, cu n t ñi n Vi t - Bhnong hi n ch có kho ng 5.000 t thông thư ng trong cu c s ng. Hi n t i, y ban nhân dân t nh Qu ng Nam và y ban nhân dân huy n Phư c Sơn ñang có ch trương b t bu c các cán b , công nhân, viên ch c trong huy n ph i bi t ñư c ti ng nói c a ngư i Bhnong ñ ti p xúc và tuyên truy n các ch trương, ñư ng l i, chính sách c a Đ ng và Nhà nư c, ho c trong vi c d y ngư i Bhnong làm kinh t , v.v… Đ c bi t là ñ i ngũ giáo viên, nh ng ngư i tr c ti p d y các em h c sinh ngư i Bhnong các xã vùng sâu, vùng xa trên ñ a bàn t nh Qu ng Nam ñ d dàng hi u ñư c các tâm tư, nguy n v ng c a các em và trong vi c v n ñ ng các em ñ n trư ng ñúng ñ tu i.
  4. 4 Do h n ch v giáo trình h c t p, cũng như các tài li u tham kh o h c t p ti ng Bhnong, nên ngư i h c không có môi trư ng ñ rèn luy n kh năng ñ c hi u và vi t ti ng Bhnong. Xu t phát t th c t trên tôi m nh d ng ch n ñ tài “XÂY D NG KHO D LI U T V NG SONG NG VI T - BHNONG” ñ góp m t ph n công s c nh bé vào vi c qu n bá ch vi t cũng như m t s ñ c ñi m v văn hóa, tín ngư ng c a ngư i Bhnong và sau này có th t n d ng kho ng li u này ñ ña ng hóa website c a huy n Phư c Sơn. 2. M c ñích nghiên c u - T o ra b t ñi n song ng Vi t - Bhnong giúp cho vi c tra c u d dàng. - Xây d ng m t chương trình ti n ích tr giúp trong quá trình s d ng, giúp cho nh ng cán b công tác vùng dân t c thi u s và mi n núi có ñi u ki n g n gũi hơn n a v ti ng nói, ch vi t, phong t c t p quán c a ñ ng bào dân t c, nh m ti p c n, ph c v và làm t t công vi c ñư c giao. 3. Đ i tư ng và ph m vi nghiên c u - Các phương pháp xây d ng kho ng v ng t ñi n song ng . - Nghiên c u t v ng, ng pháp c a ti ng Bhnong. - Các phương pháp thi t k chương trình cơ s d li u t v ng song ng . 4. Phương pháp nghiên c u - Nghiên c u các phương pháp thi t k cơ s d li u t ñi n ñơn ng , ña ng . - Nghiên c u c u trúc ng pháp, t v ng ti ng Gi Triêng(Bhnong).
  5. 5 - Tìm hi u c u trúc t p tin văn b n RTF c a Winword và c u trúc tài li u XML. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài V m t khoa h c B n thân n m ñư c cơ s lý thuy t t ng quan v các lo i t ñi n gi y và t ñi n máy tính. Cách t ch c và xây d ng m t cơ s d li u t v ng song ng . V th c ti n T o ra ph n m m t ñi n song ng góp ph n c ng c s ñoàn k t dân t c, am hi u nhau gi a dân t c Bhnong v i các dân t c khác. Đ i v i giáo d c, t ñi n là công c h u ích giúp cho cán b , công ch c, viên ch c, các nhà khoa h c và nhân dân có th h c, tra c u, nghiên c u, tìm hi u v ngôn ng cũng như văn hóa Bhnong m t cách d dàng và ti t ki m. 6. B c c c a lu n văn B c c c a lu n văn bao g m: ph n m ñ u, tài li u tham kh o, ph l c và các chương sau: Chương 1 Trình bày cơ s lý thuy t c a ñ tài. Chương 2 Trình bày nh ng ki n th c v xây d ng kho d li u t v ng song ng Vi t - Bhnong. Chương 3 Nêu m t s n i dung v thi t k giao di n t ñi n. Chương 4 Trình bày thu t toán; tri n khai chương trình và k t qu Demo
  6. 6 CHƯƠNG 1. CƠ S LÝ THUY T 1.1 V n ñ t ñi n h c 1.1.1 Khái ni m t ñi n Theo cu n “T ñi n Ti ng Vi t” c a Vi n Ngôn ng h c; Hoàng Phê ch biên; Nhà xu t b n Đà N ng và Trung tâm T ñi n h c xu t b n năm 2000 ñ nh nghĩa: “T ñi n sách tra c u t p h p các ñơn v ngôn ng (thư ng là ñơn v t v ng) và s p x p theo m t tr t t d tra tìm, cung c p m t s ki n th c c n thi t ñ i v i t ng ñơn v ”. Còn cu n T ñi n thu t ng ngôn ng h c c a Nguy n Như Ý; Nhà xu t b n Giáo d c xu t b n năm 2001 thì vi t: Sách tra c u bao g m các t , ng ñư c s p x p theo m t tr t t nh t ñ nh, gi i thích ý nghĩa các ñơn v ñư c miêu t , cung c p nh ng thông tin khác nhau v chúng ho c d ch chúng ra m t ngôn ng khác, ho c thông báo nh ng ki n th c v các ñ i tư ng do chúng bi u th [5]. Như v y, theo nh ng ñ nh nghĩa như trên ngư i ta mu n mô t trư c h t t ñi n là sách. V y ta k t lu n t ñi n ñây ñư c hi u là t ñi n gi y. Vì v y mu n tra c u thì c n ph i có cu n sách mình c n, r i l t gi các trang sách tìm ñ n m c t c n tra và c như th . Tóm l i, m t t ñi n, còn ñư c g i là m t t v ng, ng v ng, ho c t v ng, là m t t p h p các t trong m t ho c nhi u ngôn ng c th , thư ng ñư c li t kê theo b ng ch cái , v i thông tin s d ng, ñ nh nghĩa , tên g i, ng âm, cách phát âm, và các thông tin khác. 1.1.2 M t s t ñi n thông d ng 1.1.2.1 T ñi n gi y T ñi n gi y g m nhi u lo i khác nhau. Ch ng h n [14]:
  7. 7 T ñi n Anh - Vi t/T ñi n Vi t/Anh: ph c v tra c u t v ng ti ng Anh/Vi t, t lo i, nghĩa ti ng Vi t/Anh tương ñương... T ñi n Pháp - Vi t/T ñi n Vi t/Pháp: ph c v tra c u t v ng ti ng Pháp/Vi t, t lo i, nghĩa ti ng Vi t/Pháp tương ñương... T ñi n ti ng Vi t: ph c v vi c gi i nghĩa ti ng Vi t. T ñi n ñ ng nghĩa/ph n nghĩa: ph c v tìm hi u t ñ ng nghĩa/ ph n nghĩa. T ñi n gi i thích thành ng ti ng Vi t: ph c v tìm hi u ý nghĩa các câu thành ng ph bi n c a ti ng Vi t. Ngoài ra, còn có nhi u lo i t ñi n khác như: T ñi n Thương m i; T ñi n Tin h c; T ñi n du l ch, t ñi n sinh h c, T ñi n khoa h c K thu t ... là nh ng lo i t ñi n ph c v chuyên v m t ngành ngh riêng bi t. Các lo i t ñi n này thư ng s d ng ñơn ng ho c song ng . 1.1.2.2 M t s t ñi n máy tính thông d ng Hi n nay, trên máy tính có r t nhi u t ñi n ñư c s d ng, ch ng h n như LACVIET MTD2004-FVP, L c Viet mtd9-EVA, Just Click and See, EVtrans, Babylon, ... trong s nh ng t ñi n ñư c nhi u ngư i bi t ñ n nh t là ph n m m t ñi n Lac Viet mtd9. 1.1.3 S khác nhau gi a t ñi n gi y và t ñi n máy T ñi n gi y D bào qu n, khóa x y ra hư h ng, m t mát d li u D s d ng, không ñòi h i các thi t b ph n c ng và trình ñ c a ngư i s d ng Nh g n, d dàng ñem ñi m i nơi m i lúc T n nhi u th i gian và công s c cho vi c tra c u nhi u t T ñi n máy Giúp tra c u nhanh chóng và hi u qu
  8. 8 D dàng t o ra nhi u b n ñ lưu tr , có th thêm b t t vào t ñi n Có nhi u hình th c tra c u và n i dung phong phú như cách th hi n, giao di n, nghe ñư c âm thanh c a t c n tra Tuy nhiên ñ tra ñư c t ñi n máy tính thì NSD c n có m t s hi u bi t nh t ñ nh v trình ñ máy vi tính, v l i không ph i lúc nào cũng ph i tra t ñi n máy tính ñư c vì c n ph i có thi t b ph n c ng như máy vi tính, các thi t b c m tay như ñi n tho i, nettop, PDA,v.v… 1.1.4 Phương pháp xây d ng t ñi n máy Quy trình xây d ng t ñi n g m nhi u công ño n tương ng v i ba phương di n như sau: Phương di n t v ng cung c p n i dung, d ng c a t ñi n và tiêu chu n v ñơn v t v ng. Phương di n tin h c cung c p phương pháp lu n công c ñ xây d ng t ñi n và giao di n tương tác gi a h th ng và ngư i s d ng. Phương di n v biên so n t ñi n ñ c p nh t: b sung hay s a ñ i trên các ñơn v t v ng ñã có. Như v y vi c t o ra các công c tin h c cho t ñi n ph i gi i quy t nhi u v n ñ liên quan[9]. 1.2 T ng quan v cơ s d li u t v ng 1.2.1 Tìm hi u v CSDL Cơ s d li u t v ng (ti ng Anh là Lexical database) ñư c hi u theo cách ñ nh nghĩa ki u kĩ thu t thì nó là m t t p h p thông tin có c u trúc. Tuy nhiên, thu t ng này thư ng dùng trong công ngh thông tin và nó thư ng ñư c hi u rõ hơn dư i d ng m t t p h p liên k t các d li u, thư ng ñ l n ñ lưu trên m t thi t b
  9. 9 lưu tr như ñĩa hay băng. D li u này ñư c duy trì dư i d ng m t t p h p các t p tin trong h ñi u hành hay ñư c lưu tr trong các h qu n tr cơ s d li u. Sau ñây là m t s ưu ñi m mà CSDL mang l i: - Gi m s trùng l p thông tin xu ng m c th p nh t. Do ñó ñ m b o thông tin có tính nh t quán và toàn v n d li u. - Đ m b o d li u có th ñư c truy su t theo nhi u cách khác nhau. - Nhi u ngư i có th s d ng m t cơ s d li u. 1.2.2 CSDL t v ng ña ng M t CSDL ñư c g i là ña ng n u chúng có th làm vi c trên CSDL ñó v i hai hay nhi u ngôn ng khác nhau [4]. T i sao chúng ta ph i ña ng hóa các CSDL? Có nhi u nguyên nhân khác nhau ñ chúng ta th c hi n ña ng các CSDL và các ng d ng. Chúng tôi xin trình bày m t s nguyên nhân chính mà chúng ta ph i ña ng hóa các CSDL và các ng d ng…[4]. Nguyên nhân ñ u tiên là m i dân t c trên th gi i ñ u nói và vi t b ng ngôn ng c a riêng mình. Nhưng hi n nay, các ph n m m ñi u dùng ngôn ng chính là ti ng Anh. Vì v y gây không ít khó khăn cho hâu h t ngư i s d ng máy tính không bi t ti ng Anh…[4]. Nguyên nhân th hai là các nhà s n xu t ph n m m mu n bán ñư c ngày càng nhi u s n ph m hơn nư c ngoài…[4]. Nguyên nhân th ba là các công ngh m i cho phép phát tri n các ng d ng ña ng m t cách d dàng [4]. 1.2.3 Nh ng v n ñ c n x lý khi xây d ng CSDL t v ng ña ng Khi xây d ng m t CSDL t v ng ña ng ta c n ph i gi i quy t các v n ñ sau ñây:
  10. 10 V n ñ th nh t là ph i tìm cách t ch c logic cho CSDL t v ng ña ng , th hi n ch chu n b d li u trên nhi u ngôn ng khác nhau. L a ch n các b gõ phím, h th ng mã hóa và các h th ng phông ch phù h p cho t ng ngôn ng c n th hi n[4]. L a ch n công c ñ lưu tr d li u ña ng . Theo khuy n cáo c a các nhà tin h c và các công ty ph n m m hàng ñ u hi n nay thì XML ñư c xem là m t chu n r t t t dành cho các d li u ña ng . Đ c ñi m c a XML là có c u trúc khá m m d o, d s d ng và khai thác trên nhi u h th ng máy tính khác nhau…[4]. Cu i cùng là khai thác các CSDL t v ng ña ng . tùy theo m c ñích mà chúng ta có th khai thác CSDL t v ng ña ng theo các h ng và b ng nhi u công c khai thác d li u khác nhau…[4]. 1.3 Tìm hi u các ngôn ng CSDL t v ng ña ng Vi t - Bhnong 1.3.1 T c ngư i Bhnong các huy n Phư c Sơn, Trà My và Hi p Đ c c a t nh Qu ng Nam Vi t Nam có m t t c ngư i t g i mình là bno . Tên g i này ñã xu t hi n trong m t s tài li u, nhưng ñã ñư c ghi b ng nhi u hình kí hi u ch vi t khác nhau: Ba Noong, Pa Noong, Pơ Noong, Bhnoong, Bh'noong,v.v... Theo cách phát âm b ng gi ng Kañhoăt M ng (thôn 2, xã Phư c M , huy n Phư c Sơn, t nh Qu ng Nam), tên g i này ñư c phát âm là bnoη. Và t ñây tr ñi, trong ñ tài này g i ngư i Bhnong. 1.3.2 Ti ng Bhnong 1.3.2.1 V n t ti ng Bhnong xét dư i góc ñ c i ngu n Chúng ta có th xem xét v n t c a ti ng Bhnong ñ xác ñ nh v trí c a ngôn ng này trong chi Bana, trong nhóm Môn - Khme và trong h Nam Á nói chong ho c có th xem xét xa hơn n a. Hi n nay trong ñ t nư c Vi t Nam, khu v c cư trú c a ngư i
  11. 11 Bhnong li n k v i dân t c nói ngôn ng Vi t - Mư ng c phía Đông và phía Nam; v i dân t c nói ti ng Nam Đ o phía Tây và phía B c. Vì v y, b c tranh t v ng c a ti ng Bhnong tr nên khá ph c t p. Ti ng Bhnong v n là m t ngôn ng v n n m trong h Nam Á, trong h này có ti ng Vi t - ngôn ng qu c gia, ti ng ph thông c a c c ng ñ ng các dân t c Vi t Nam. 1.3.2.2 Ti ng Bhnong trong nhóm Môn - Khome 1.3.2.3 Quan h gi a các ngôn ng thu c h Nam Đ o và ti ng Bhnong 1.3.2.4 Bhnong m t phương ng c a ti ng Gi Triêng 1.3.2.5 H th ng ng âm và b ng ch cái ti ng Bhnong Theo các chuyên gia nghiên c u v ch vi t Bhnong, ñã ch n cách phát âm c a ti ng Kañhoăt M ng (thôn 2 xã Phư c M , huy n Phư c Sơn, t nh Qu ng Nam) làm h th ng ng âm tiêu chu n c a ti ng Bhnong d a trên cơ s tiêu chí bên trong c a ngôn ng và các tiêu chí bên ngoài ngôn ng [18]. a) Tên g i ch cái Tên g i hay khái ni m CH CÁI (thu t ng ti ng Anh tương ng: Letter) cho ñ n nay v n chưa hi u m t cách th ng nh t. Tra m c t này trong T ñi n Ti ng Vi t c a Trung tâm T ñi n h c (VIETLEX), tác gi Hoàng Phê, Hoàng Th Tuy n Linh, Vũ Xuân Lương, Ph m Th Th y, Đào Th Minh Thu, Đ ng Thanh Hòa, NXB Đà N ng, 2007, ch cái ñư c gi i thích như sau: (1) Ký hi u dùng ñ ghi âm v trong ch vi t ghi âm, ví d : h c thu c ch cái, ch cái ti ng Vi t,. (2) B ng ch cái [nói t t], ví d : ch qu c ng dùng ch cái Latin. [tr. 305].
  12. 12 Theo nghĩa th nh t, hoàn toàn có th hi u ñư c là s lư ng các ch cái trong m t b ch vi t ghi âm b ng s lư ng các âm v (phoneme) c a ngôn ng ñó, hay nói cách khác, ngôn ng ñó có bao nhiêu âm v thì có b y nhiêu ch cái. b) B ng ch cái ti ng Bhnong Nhóm nghiên c u v ti ng Bhnong ñã xác ñ nh Phương án ch vi t ti ng Bhnong có 39 ch cái. Bao g m 19 nguyên âm và 20 ph âm. Nguyên âm trong ch vi t Bhnong g m 19 nguyên âm ñơn, 12 nguyên âm ñôi, 32 ph âm ñơn - ñ u, 16 t h p ph âm ñ u và 16 ph âm cu i. Như v y, v cơ b n các ch cái ti ng Bhnong g n gi ng như b ng ch cái ti ng Vi t, các ch cái ti ng Anh. Nhưng có 8 nguyên âm ñ c bi t: , , , , , , , . 1.3.2.6 Chính t và cách vi t các t ti ng Bhnong Chính t ñây là m t h th ng các quy t c vi t các âm, các v n và các t c a ti ng Bhnong. Ti ng Bhnong t o t b ng cách ph i h p các ph âm v i nguyên âm, không s d ng d u thanh gi ng như trong ti ng Vi t. Do v y, ñ thu n l i cho vi t ñưa tám ký t ñ c bi t c a ti ng Bhnong vào trong cơ s d li u t v ng Vi t - Bhnong. Tôi ñã xây d ng thêm 8 (các nguyên âm ñ c bi t) d ng hình ch cái x 2 (d ng hoa và d ng thư ng) = 16 d ng hình ch cái dành cho ti ng Bhnong, c th m c 2.5.5. 1.3.2.7 S khác nhau gi a chính t ti ng Bhnong và ti ng Vi t a) V âm ti t Âm ti t là ñơn v phát âm t nhiên nh nh t trong ngôn ng . Trong ti ng Vi t, m t âm ti t bao gi cũng ñư c phát ra v i m t thanh ñi u, và tách r i v i âm ti t khác b ng m t kho ng tr ng. Trên ch vi t, m i âm ti t ti ng Vi t ñư c ghi thành m t "ch " và ñ c
  13. 13 thành m t "ti ng". Ví d : t "hoa h ng b ch" g m 3 ch , 3 ti ng ho c 3 âm ti t. Trong ti ng Bhnong, không s d ng các d u thanh như trong ti ng Vi t, m i ch có m t ho c nhi u âm ti t c u t o thành. b) Nguyên âm Các nguyên âm trong ti ng Vi t là a, ă, â, e, ê, i, o, ô, ơ, u, ư và y. Trong ñó, các nguyên âm có d u ph là ă, â, ê, ô, ơ và ư. Ch có 3 trư ng h p c a oa, oe, uy thì có o và u là bán nguyên âm, ñóng vai trò ñ m cho nguyên âm. Có nghĩa là o và u không ñư c xem là nguyên âm trong t h p 3 âm ti t trên. Các nguyên âm trong ti ng Bhnong bao g m các nguyên âm trong ti ng Vi t và có thêm tám nguyên âm ñ c bi t là , , , , , , , . Trong ti ng Bhnong còn có mư i hai nguyên âm ñôi là iê, êi, êe, eê, ea, âơ, uô, ôu, ôo, oô, oă, ăo. c) Ph âm Trong ti ng Vi t có các ph âm là b, c, d, ñ, g, h, k, l, m, n, p, q, r, s, t, v, x. Ti ng Bhnong bao g m các ph âm trong ti ng Vi t và thêm các ph âm là j, w, z. CHƯƠNG 2. XÂY D NG KHO D LI U T V NG VI T - BHNONG 2.1 Sơ ñ c u trúc cơ s d li u(CSDL) t v ng song ng Vi t - Bhnong Cơ s d li u là ph n quan tr ng nh t c a m t ñ i v i m t ng d ng t ñi n. Vi c xây d ng CSDL cho t ñi n ph i ñ m b o truy c p nhanh b i d li u c a t ñi n thư ng khá l n và ngày càng l n hơn do quá trình c p nh t thư ng xuyên vào kho CSDL. Do ñó ta ñưa ra các tiêu chí sau ñ t ch c lưu tr CSDL như: kích thư ng các
  14. 14 t p lưu tr CSDL càng bé càng t t, t c ñ tra c u nhanh, d c p nh t, d xây d ng ng, có tính k th a, d tương thích v i các môi trư ng, v.v… 2.2 Mô hình th c th - k t h p c a CSDL t v ng song ng Vi t - Bhnong 2.3 Mô hình logic Mô hình ý ni m d li u ñư c xây d ng như hình 2.2, là mô hình nh nguyên, vì v y ta có th chuy n ñ i sang mô hình logic thông qua các t p tin MDB c a Access, các t p tinh DBF c a Foxpro, các t p tin RTF c a Word ho c các t p tin XML, v.v… 2.4 Mã hóa Vi t c p nh t d li u ti ng Vi t và ti ng Bhnong khó khăn hơn r t nhi u so v i ti ng Anh. Vì t t c các m u t ti ng Anh ñ u có trên bàn phím chu n. Còn ti ng Vi t và Bhnong ngoài nh ng m u t Latin gi ng như ti ng Anh, còn có nh ng m u t ñ c bi t khác nhau, không có trên bàn phím chu n. Do v y c n ph i có gi i pháp x lý nh ng ký t ñ c bi t này. 2.5 X lý ti ng Vi t 2.5.1 Đ t v n ñ Các ngôn ng s d ng ch cái Latinh ñ u ñư c mã hóa theo nhi u b mã tiêu chu n ISO khác nhau, ch ng h n ISO-8859/x. Ti ng Vi t cũng ph i ñư c x lý tương t ñ có th tương thích và giao ti p ñư c v i nhi u ngôn ng khác nhau. Trên cơ s v n d ng nh ng ch cái Latin chu n s n có, xây d ng thêm nh ng ch cái chưa có trong b ng mã ñ cho vi c x lý ti ng Vi t trong máy tính ñư c thu n l i hơn.
  15. 15 2.5.2 Các b gõ ti ng Vi t Đã có nhi u nghiên c u v m t lý thuy t và m t s ph n m m ñã ñư c xây d ng ñ ph c v cho vi c x lý ti ng Vi t trên máy vi tính. Các nghiên c u và ph n m m này nh m m c ñích quy ñ nh b mã, cung c p b gõ ñ t o d u và b phông ch ñ hi n th ti ng Vi t. Tuy nhiên, trong th i gian qua có quá nhi u các ph n m m s d ng nhi u b gõ và phong ch khác nhau như: VIETWARE, VNI, ANC, v.v… gây nên nhi u khó khăn cho vi c s d ng, trao ñ i thông tin trên máy tính. Hi n nay, v i s ra ñ i và ng d ng r ng rãi c a Unicode thì vi c th ng nh t s d ng m t h th ng mã hóa và h th ng phông ch xem như cơ b n ñã ñư c gi i quy t và t o ra m t thu n l i to l n cho ngư i s d ng. 2.5.3 V n ñ chu n mã ti ng Vi t Đã có nhi u gi i pháp v th ng nh t mã ti ng Vi t trên máy vi tính ñư c ñưa ra, nhưng cho ñ n nay ch còn gi i pháp duy nh t h p lý và ñang ñư c ng h r ng rãi nh t ñó là áp d ng mã Unicode. Xu hư ng toàn c u hóa ñang di n ra m nh m , ñ m t ph n m m ñư c áp d ng r ng rãi trên th gi i, nó ph i x lý ñư c m i t p ký t c a m i qu c gia trên th gi i. M c dù m i t p ký t c a các qu c gia riêng l thì không l n l m nhưng h i các t p ký t c a các qu c gia trên th gi i thì r t l n. 2.5.4 Kh năng s d ng Unicode Theo quy t ñ nh c a Chính ph , t 1/1/2003 m i thông tin ñi n t ch Vi t trong và gi a các cơ quan hành chính, gi a chính ph và ngư i dân ch ñư c dùng b mã TCVN 6909, tương h p Unicode. Ưu ñi m chính c a Unicode là cho phép ti ng Vi t h i nh p v i các ngôn ng khác trên th gi i. Chúng ta có th gõ ti ng Vi t,
  16. 16 Nga, Pháp, Đ c, v.v… và nhi u th c ti ng khác trong cùng m t phông. Ưu ñi m ti p theo là c a Unicode là có không gian mã r ng nên nó ch a ñ y ñ t t c các ký t ti ng Vi t và các ngôn ng khác. 2.5.5 X lý ti ng Bhnong Đ có th s d ng b ng mã Unicode, cùng b gõ Vietkey hay Unikey và ki u gõ Telex, sao cho hi n th ñư c 2 th ti ng: Vi t và Bhnong, tôi ñã xây d ng m t b phông riêng có tên là Bhn Time New Roman. V i b phông này, vi c gõ ti ng Vi t thì bình thư ng như các phông Unicode khác, nhưng ñ i b ng ch cái Bhnong có thêm 8 nguyên âm ñ c bi t, chúng tôi xây d ng gi i pháp là k t h p phím Ctrl, Shift và các s t 1 ñ n 8 ñ th hi n các ký t ñ c bi t ñó như sau: n t h p phím Ctrl và 1 2 3 4 5 6 7 8 Cho k t qu Và n t h p Ctrl+shift và 1 2 3 4 5 6 7 8 Cho k t qu 2.6 Xây d ng CSDL song ng Vi t - Bhnong d ng WinWord 2.7 T ch c cơ s d li u t v ng song ng 2.7.1 Cơ s d li u d ng Winword 2.7.1.1 T ch c CSDL Cơ s d li u t ñi n ña ng g m các kh i d li u là các t p văn b n Winword ñư c ñ nh nghĩa nh t quán theo m t m u văn b n xác ñ nh. M u văn b n là m t t p h p các ph n t là các d ng th c (style). M i d ng th c th hi n cách ñ nh d ng (Format) m t ño n văn b n (paragrap) ñư c ñ nh nghĩa b i l nh ñơn như ñ nh d ng Font ch s d ng (Format_Font), v.v , ki u trình bày ño n (Format_Paragraph), v.v. M i d ng th c dùng ñ bi u di n m t
  17. 17 thành ph n c a t ñi n ña ng . Chính s khác nhau v cách trình bày ño n cho phép phân bi t các thành ph n c a t ñi n như m c t và n i dung c a m c t , hình lo i ng pháp, các nghĩa tương ñương, v.v… D li u t ñi n dư i d ng Word ñư c t ch c thành các t p văn b n, m i t p ñư c ñ t tên theo v n ch cái ti ng Vi t tương ng là ch cái ñ u c a m c t c a t ñi n. C u trúc t p ng v ng g m hai ph n: ph n ñ u là ph n ñ nh d ng, ph n th hai là ph n hi n th n i dung. Các y u t thu c m c t trong t p RTF là các Style trong Microsoft Word, m t Style bao g m các thành ph n: tên ki u (Stylename), tên Font(Fontname), kích c ch (Fontsize), v.v. 2.7.1.2 C u trúc m c t Khái ni m m t “m c t ” ñây ñư c hi u như là m t ño n văn b n thu c CSDL t v ng RTF có ñ y ñ các ph n nghĩa (t v ng) Vi t, Bhnong và các y u t như t lo i, ví d , v.v… T c là, ño n văn b n ñó ñư c b t ñ u b i m t t v ng ti ng Vi t cho ñ n trư c m t t v ng ti ng Vi t ti p theo. C u trúc các y u t thu c m t m c t trong CSDL t v ng RTF ñư c t ch c dư i d ng các Style trong Microsoft Word. Trong ñó, m i Style ñư c ñ nh d ng bao g m các thành ph n: tên ki u (StykeName), tên font (FontName), kích thư c (Fontize), kho ng cách l (TextIndent), Màu (Color), in ñ m (Bold),g ch dư i (Underline), v.v… nh m xác ñ nh y u t c a m t ngôn ng nào ñó. 2.7.1.3 Ưu như c ñi m c a CSDL d ng Winword a/ Ưu ñi m Có th b sung, c p nh t d li u ngay m i th i ñi m mà không c n xây d ng ng d ng.
  18. 18 Do không c n ph i xây d ng ph n m m ng d ng, nên không c n ph i t n th i gian tìm hi u c u trúc và các thành ph n, y u t khác liên quan ñ n t ch c d li u. b/ Như c ñi m Kích thư c t p tin RTF thư ng khá l n so v i t p ñ nh d ng khác, c th là HTML, MDB, XML, v.v khi bi u di n trên cùng m t lư ng thô tin. Khó khăn trong vi c tra c u., t c ñ ch m. Gi a các m c t không có m i liên h logic v i nhau 2.7.2 Chuy n ñ i sang XML 2.7.2.1 Gi i thi u XML XML, ho c Extensible Markup Language (ngôn ng ñánh d u m r ng), là m t ngôn ng ñánh d u mà ta có th s d ng ñ t o ra th riêng c a mình. Nó ñư c t o nên b i Liên minh m ng toàn c u nh m kh c ph c nh ng h n ch c a HTML - ngôn ng ñánh d u siêu văn b n, là cơ s c a m i trang Web. Gi ng như HTML, XML cũng ñư c d a trên SGML – Standard Generalized Markup Language. M c dù SGML ñư c s d ng trong ngành công nghi p xu t b n trong nhi u th p k , nhưng s ph c t p c a nó ñ u khi n nh ng ai t ng s d ng nó mà không có cách nào khác ph i th y m t m i (m t cách nói vui, SGML cũng là "Sounds great, maybe later"). 2.7.2.2 T ch c CSDL Vi t Bhnong dư i d ng XML Đ u tiên ta xây d ng ph n t g c có tên là dictionary, trong dictionary có nhi u ph n t con như word ch a các th d li u tương ng v i các style ñư c ñ nh nghĩa trong t p RTF, ñó là các ph n t con VietEntry. M i ph n t con VietEntry ch a các th d li u EntryName; VietCat; BhnongEqu; BhnongPron; VietPhr; BhnongPhr; VietExp; BhnongExp; VietIdi; BhnongIdi.
  19. 19 Vi c ñ nh nghĩa các th ñư c th hi n qua cú pháp t ng quát như sau: [d li u c n hi n th ] B ng 2.2 Mô t các th trong t p XML Tên th N i dung hi n th Word M ct EntryName Tên m c t VietCat T lo i BhnongEqua Nghĩa ti ng Bhnong tương ñương BhnongPron Phiên âm ti ng Bhnong VietPhr C m t ti ng Vi t BhnongPhr C m t ti ng Bhnong tương ñương VietExp Câu ví d ti ng Vi t BhnongExp Câu ví d ti ng Bhnong tương ñương VietIdi Câu thành ng ti ng Vi t BhnongIdi Câu thành ng ti ng Bhnong tương ñương 2.7.2.3 Ví d minh h a Ví d m t m c t trong t p tin a.XML dư i ñây th hi n m t ph n CSDL t v ng song ng Vi t - Bhnong v i các m c t b t ñ u b ng ch cái A, Ă, Â: ai Đ i t
  20. 20 bhơo Ai ñ y? bhơo ki? Ai cũng có b m bhơo w y eê m m bheaq ăn Đ ng t cha Ăn cơm cha pŏư Nó là k ăn chơi Kon êi cha . . .
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2