intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3

Chia sẻ: Le Nhu | Ngày: | Loại File: PDF | Số trang:43

325
lượt xem
24
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Lời cảm ơn Chúng em xin chân thành cảm ơn Ban giám hiệu, quý Thầy Cô của trường Đại học Khoa Học Tự Nhiên Tp.Hồ Chí Minh, đặc biệt là các Thầy Cô trong khoa Công Nghệ Thông Tin đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết trong suốt những năm học tập tại trường.

Chủ đề:
Lưu

Nội dung Text: Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3

  1. CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ • Thanh h i đư c bi u di n b ng ký t ‘3’. • Thanh ngã đư c bi u di n b ng ký t ‘4’. • Thanh n ng đư c bi u di n b ng ký t ‘5’. TN Theo quy t c trên, “hoà” s đư c bi n đ i thành “2hoa”; “hòa” s đư c bi n đ i thành “2hoa”. Như v y ta có th coi “hòa” và “hoà” là tương đương H nhau khi so sánh d ng bi n đ i “2hoa” c a chúng. M t s ví d khác: “h ng” đư c bi n đ i thành “2hông”, “hoa” đư c bi n đ i thành “0hoa”. K Các ti ng nư c ngoài, các ký hi u . . . không có d u, s đư c xem như có thanh ngang. Như v y, “USA” s đư c bi n đ i thành “0USA”. H Do vi c bi n đ i làm m t thông tin v cách b d u. Ta c n ph i gi l i Đ ch g c bên c nh ch bi n đ i (“ch chu n hoá”) đ có th dùng l i sau này. Ta cũng có th ph c h i ch t ch chu n hoá b ng cách phân tích c u trúc – âm ti t và b d u thích h p theo quy t c b d u cho trư c. Vi c này s giúp TT chu n hoá cách b d u cho toàn văn b n. Chu n hoá ‘y’ và ‘i’ N Ngoài vi c chu n hoá cách b d u, m t s ch trong ti ng Vi t k t thúc b ng C ‘y’ có th đư c đ i thành ‘i’. Ví d , “quý” và “quí” đ u h p l . Tuy nhiên, A không ph i ch nào k t thúc b ng ‘y’ cũng có th chuy n thành ‘i’, ví d “thuý” và “thúi”. Nguyên nhân là do khi chuy n thành ‘i’, ch cái này k t O h p v i ‘u’ t o ra âm chính ‘ui’ thay vì âm chính ‘i’. M t s ch k t thúc H b ng ‘i’ cũng không th chuy n sang ‘y’, ví d “bí”, “chí” . . . Vi c cho phép vi t m t t hai cách s làm gi m hi u su t c a chương trình do chương K trình coi “quý” và “quí” là hai ch hoàn toàn khác nhau. Gi i pháp là l p danh sách nh ng t có âm chính là y/i và là âm ti t m , sau đó chuy n t t c nh ng t k t thúc b ng ‘i’ có trong danh sách trên sang ‘y’. Trong quá trình 86
  2. CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ b t l i chính t , n u ngư i dùng yêu c u chu n hoá thì ta có th xem vi c vi t ‘y’ ho c ‘i’ như là sai chính t . N u không, ta s b qua khác bi t ‘y’ và ‘i’ bư c báo l i chính t . G m các ch sau (không xét thanh đi u): “mi”, “ti”, “thi”, “qui”, “ki”, “hi”, “li” “si”, “vi”. TN 4.2.4 Ch vi t hoa H Ch vi t hoa dùng đ bi u di n tên riêng, t vi t t t ho c dùng cho ch đ ng đ u câu. Do đó c n phân bi t ch đ u câu có ph i là ch b t đ u tên riêng K hay không. Ngoài ra, c n xác đ nh tên riêng khi tìm đư c ch vi t hoa b t H đ u tên riêng. Các văn b n ti ng Vi t chưa hoàn toàn th ng nh t v quy t c vi t hoa. Ví d , có tài li u dùng “C ng hoà Xã h i Ch nghĩa Vi t Nam”, Đ nhưng có tài li u l i dùng “C ng Hoà Xã H i Ch Nghĩa Vi t Nam”. Do văn b n đ u vào có kh năng b sai chính t , kèm theo s không th ng – nh t trong quy cách vi t tên riêng, nên khó có th xác đ nh tên riêng ngay TT bư c ti n x lý. Vì v y ph n này s đư c th c hi n trong ph n tách t thay vì trong ph n ti n x lý. N 4.2.5 T nư c ngoài, t vi t t t, các ký hi u . . . C X lý ti ng nư c ngoài, các ký hi u chuyên ngành, các t vi t t t. Do trình A b t l i không có ki n th c v các lĩnh v c chuyên ngành, cũng như các th O ti ng trên th gi i, nên vi c áp d ng tri th c đ phân lo i là đi u h t s c khó khăn. Gi i pháp đư c dùng đây là xem các t nư c ngoài, t vi t t t, các H ký hi u . . . như là nh ng ch bình thư ng (và s đư c xem như là l i chính K t trong ph n b t l i chính t ). Ph n này s c g ng phân lo i m t s lo i thư ng g p như s , ngày tháng . . . nh m gi m b t các l i sai chính t không đáng có. Các con s 87
  3. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD đư c đánh d u riêng b ng mã N U M . “S ” đây đư c coi là b t c ch nào b t đ u b ng s . Ví d , “0lit”, “0.2”, “0-4” . . . đ u đư c coi là s . Ngày tháng đư c nh n d ng theo m u “ngày-tháng-năm” ho c “ngày/tháng/năm”. Nói cách khác, ngày tháng là các s liên ti p, cách nhau b ng d u ‘/’ ho c TN ‘–’. Ngày tháng cũng đư c đánh nhãn N U M . 4.3 B t l i non-word H K 4.3.1 Tìm l i chính t H Vi c tìm l i chính t đơn gi n là duy t qua t ng token, ki m tra xem token đó có trong t đi n hay không. N u token không có trong t đi n, token đó Đ b sai chính t . – N u th c hi n như trên, s có r t nhi u ch b cho là sai chính t , ví d như các con s , ngày tháng . . . Ta c n ph i nh n ra nh ng token lo i này và TT b qua chúng khi tìm l i chính t . Do ph n ti n x lý đã đánh d u các token ch a s b ng mã N U M nên khi th c hi n tìm l i chính t , ta s không xét N nh ng token lo i này. C 4.3.2 L p danh sách t đ ngh A Sau khi đã xác đ nh nh ng ch b sai chính t , ta c n đưa ra m t s g i ý đ O ngư i dùng ch n, thay vì bu c ngư i dùng t tìm ra ch đúng. Vi c l p ra H danh sách g i ý ch y u d a vào nguyên t c ph c h i l i: D a vào nguyên nhân phát sinh ra l i, th c hi n thao tác ngư c l i đ tìm ra ch đúng. K L i đư c x lý trong ph n này là l i non-word. L i này có th do nh ng nguyên nhân sau: • L i nh p li u sai. 88
  4. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD • L i OCR. • L i nh n d ng ti ng nói. • L i phát âm sai. TN L i nh p li u H L i nh p li u bao g m nh ng lo i l i sau: K • L i gõ sót phím. • L i gõ dư phím. H Đ • L i gõ sai phím (gõ nh m phím này b ng phím khác). • L i gõ sai th t (gõ đ o th t hai phím liên ti p nhau). – TT Ngoài ra, do phím spacebar phát sinh ký t kho ng tr ng dùng đ phân cách các ch v i nhau, nên c n ph i x lý đ c bi t v i phím này. D a vào các lo i l i trên, ta có thêm các l i b sung: N • L i gõ thi u phím spacebar, gom hai ch thành m t ch . C • L i gõ dư phím spacebar, tách m t ch thành hai ch . A • L i gõ sai phím spacebar, có th d n đ n vi c nhóm hai ch ho c tách O ch làm hai. H • L i gõ sai th t gi a m t phím và phím spacebar d n đ n vi c m t K ký t trong ch này b đ y sang ch khác. Gi i pháp kh c ph c l i là th c hi n ngư c l i quá trình t o ra l i. Đ i v i l i gõ sót phím, dư phím, ta có th thêm m t phím ho c b t m t phím đ 89
  5. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD t o ra ch m i. V i l i gõ sai th t , ta duy t qua ch , l n lư t hoán v hai ký t liên ti p đ t o ra ch m i. Đ i v i l i gõ nh m phím, ta d a vào b trí bàn phím đ phát sinh l i. Gi đ nh sơ đ b trí c a bàn phím EN-US đư c dùng. Do thông thư ng ch TN g p m t l i gõ nh m v i phím ngay bên c nh này m i t , nên chương trình ch lưu danh sách nh ng phím lân c n v i t ng phím, d a trên bàn phím EN-US. Ví d : A → {S, Q, W, X, Z }. H V i nh ng phím hai ký t như phím ‘2’ (‘2’ và ‘@’) thì @ s đư c thêm K vào t p các phím lân c n v i 2 và ngư c l i. Danh sách c th đư c nêu trong b ng 4.1 trang k ti p. H Do v i m i phím có kho ng 8 phím lân c n. M t ch dài trung bình 5 ký t s phát sinh ra m t t p 85 các chu i có kh năng. Trong s này ch có Đ m t s r t ít là ch th t s , đúng quy t c chính t . Tuy nhiên vi c x lý m t – kh i lư ng l n như v y là không th . Vì v y chương trình gi đ nh ch nh p gõ sai t i đa hai phím v i m i ch , nh m gi m thi u bùng n t h p. TT V i l i spacebar, ta cũng xét tương t . Tuy nhiên, v i nh ng l i có kh năng tách làm hai ch , ta s xét ch hi n th i và ch k ti p cùng lúc, xem N như là m t ch . L i gõ nh m spacebar v i m t phím khác là đi u khó có th x y ra vì phím spacebar tương đ i l n, d nh n di n khi gõ. C V i các ki u gõ như VNI, TELEX. Chương trình c g ng “ph c h i” t A nh ng ch gõ sai n u phát hi n đư c. Ví d , “nguyê4n” s t o ra “nguy n”. B gõ đư c VNI, TELEX cài đ t, sau đó nh n chu i các ký t c a ch đang O xét qua b gõ ph c h i các d u. Bư c này đư c th c hi n sau bư c trên, đ H n u gõ nh m phím d u k bên thì v n có th ph c h i l i. B gõ VNI và TELEX đư c s d ng như trong b ng 4.2 trang 92. K Nguyên t c c a các b gõ đư c cài đ t không quá c u kỳ, do yêu c u ch là đ ph c h i l i. Các phím d u c a m i b gõ s đư c duy t qua ch , t v trí c a phím d u v đ u ch . N u phím d u có th k t h p đư c v i ký t đang 90
  6. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD Phím Phím lân c n Phím Phím lân c n Phím Phím lân c n TN ‘ ~1! ~ ‘1! 1 !‘~q2@ @1!qw3# 21!qw3# ! 1‘~q2@ 2 @ #2@we4$ # $3#er5% 3 32@we4$ 4 H 43#er5% $ 5 %4$rt6^ % 54$rt6^ 6 ^5%ty7& ^ 65%ty7& 7 &6^yu8* K & 76^yu8* 8 *7&ui9( * 87&ui9( 9 (8*io0) ( 98*io0) 0 )9(op-_ H ) 09(op-_ - _0)p[=+ _ -0)p[=+ = +-_[{]}\\| + =-_[{]}\\| \ |=+]} Đ qase3#2@ | \=+]} q aw2@1! w wsdr4$3# e r edft5%4$ t rfgy6^5% – y tghu7&6^ u yhji8*7& i ujko9(8* o iklp0)9( p ol;:[{-_0) [ ]}=+-_ TT { ]}=+-_ ] [{=+\| } [{=+\| a qwsz s awedxz d erfcxs f rtgvcd g tyhbvf h yujnbg N j uikmnh k iol,,l : /?.>l ’ [{]}/?;: " ’[{]}/?;: z asx x zsdc c xdfv v cfgb b vghn A n bhjm m njk,< , O < ,mkl.> . >, .,;:’" ? /.>;:’" H B ng 4.1: Danh sách phím lân c n K 91
  7. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD đư c duy t, ta xem như đã ph c h i l i. L i VNI-TELEX đư c áp d ng l i, sau khi đã ph c h i l i theo phương pháp trên, vì khi gõ VNI-TELEX ngư i dùng v n có kh năng gõ nh m các phím d u. VNI TELEX TN Phím D u Phím Du 1 d us c s d us c 2 d u huy n f d u huy n H 3 d uh i r d uh i 4 d u ngã x d u ngã K 5 d u n ng j d u n ng 6 d u mũ aa,ee,oo â,ê,ô H u7,o7 ư,ơ uw,ow ư,ơ a8 ă aw ă Đ d9 đ dd đ – B ng 4.2: Ki u gõ VNI-TELEX TT Các ch đư c phát sinh s đư c so sánh v i t đi n ti ng. N u ch n m trong t đi n, ta cho ch vào danh sách đ ngh . Ngư c l i, ch b h y b . Tóm l i, thu t toán 4.1 trang k ti p đ ph c h i l i bàn phím. N C L i phát âm A L i phát âm ch y u gây ra l i real-word. Tuy nhiên l i phát âm đôi khi v n có l i non-word. Đây là nh ng t phát âm gi ng nhau, ch vi t bao g m các O thành ph n âm đ u, âm đ m, âm chính, âm cu i h p l . Tuy nhiên k t h p H các thành ph n l i không t o thành m t ch n m trong t đi n ti ng. Ví d , K “nghành”, “ng ”, “ka”. Do đ c đi m c a ch qu c ng , m t s âm t không th k t h p v i nhau. Đây là nguyên nhân ch y u c a l i lo i này. L i phát âm s đư c trình bày c th trong ph n 4.4.3 trang 100. Ph n này ch nêu ra nh ng đi m riêng c a l i phát âm — non-word. 92
  8. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD 1. Ph c h i l i VNI-TELEX. 2. Ph c h i l i gõ sót phím. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. TN 3. Ph c h i l i gõ dư phím. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. H 4. Ph c h i l i nh m phím. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. K 5. Ph c h i l i sai th t phím. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. H 6. Ph c h i l i gõ sót phím spacebar. Ph c h i l i VNI-TELEX d a trên Đ k t qu c a l n ph c h i trư c. – 7. Ph c h i l i gõ dư phím spacebar. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. TT 8. Ph c h i l i sai th t phím spacebar. Ph c h i l i VNI-TELEX d a trên k t qu c a l n ph c h i trư c. N 9. L c l i danh sách nh ng t đã có. N u t không n m trong t đi n ti ng thì lo i b . C Thu t toán 4.1: Ph c h i l i bàn phím A O 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. H 2. N u ký t đang xét là phím d u, duy t ngư c t v trí ký t đang xét v K đ u ch . N u có th ghép d u, th c hi n ghép d u, lưu ch vào danh sách. Thu t toán 4.2: Ph c h i l i VNI-TELEX 93
  9. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. 2. t ng v trí, chèn thêm m t ký t vào bên ph i ký t đang xét. Lưu ch vào danh sách. TN Thu t toán 4.3: Ph c h i l i gõ sót phím 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. H 2. t ng v trí, xóa ký t đang xét. Lưu ch vào danh sách. K Thu t toán 4.4: Ph c h i l i gõ dư phím H Đ 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. 2. t ng v trí, thay th ký t đang xét b ng ký t lân c n (như trong – b ng 4.1 trang 91). Lưu ch vào danh sách. TT Thu t toán 4.5: Ph c h i l i gõ nh m phím N 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. C 2. t ng v trí, hoán v ký t đang xét và ký t bên ph i ký t đang xét. Lưu ch vào danh sách. A Thu t toán 4.6: Ph c h i l i gõ sai th t phím O H 1. Duy t l n lư t t ng ký t trong ch , t trái sang ph i. K 2. t ng v trí, tách ch làm hai ch t i v trí ký t đang xét. Lưu hai ch vào danh sách. Thu t toán 4.7: Ph c h i l i gõ sót phím spacebar 94
  10. CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD 1. N i ch đang xét và ch bên ph i ch đang xét l i làm m t. 2. Lưu ch vào danh sách. Thu t toán 4.8: Ph c h i l i gõ dư phím spacebar TN 1. Chuy n m t ký t t ch bên ph i ch đang xét sang cu i ch đang xét. Lưu vào danh sách. H 2. Chuy n m t ký t t ch đang xét sang đ u ch bên ph i ch đang xét. K Lưu vào danh sách. H Thu t toán 4.9: Ph c h i l i gõ sai th t phím spacebar Đ V i lo i l i này, ta c n phân tích c u trúc âm ti t ti ng Vi t. Sau khi phân tích c u trúc âm ti t ti ng Vi t, ta s thay th t ng thành ph n c a âm ti t – b ng m t thành ph n khác có cách phát âm gi ng như thành ph n đư c thay TT th . Thu t toán l i phát âm như trong thu t toán 4.10. 1. Phân tích c u trúc âm ti t. N 2. T o danh sách âm ti t, bao g m các âm ti t có phát âm tương t v i C âm ti t ban đ u. A 3. L c l i danh sách, nh ng âm ti t không có trong t đi n ti ng b lo i b. O Thu t toán 4.10: Ph c h i l i phát âm (non-word) H K 95
  11. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD 4.3.3 S p x p danh sách t đ ngh Như đã nói trong ph n 3.3 trang 55, có nhi u cách đ s p x p danh sách t đ ngh . Do không th s d ng các thông tin cú pháp, ng nghĩa, gi i pháp đư c áp d ng là dùng mô hình ngôn ng (đư c dùng khi b t l i real-word TN — ph n 4.4.5 trang 103) s đư c dùng đ đánh giá các t đ ngh , cùng v i vi c lo i b các ch không cùng ch hoa/thư ng v i ch g c và áp d ng H th ng kê t n s s d ng c a m i t . Gi i pháp đư c áp d ng như sau trong thu t toán 4.11. K 1. Phát sinh lư i t . H 2. Thêm các ch đ ngh vào, c p nh t lư i t , thêm các t m i t nh ng Đ ch đư c thêm. 3. Áp d ng mô hình ngôn ng , d a vào đi m đ s p x p danh sách t . – TT Thu t toán 4.11: S p x p danh sách t đ ngh (non-word) N 4.4 B t l i real-word C 4.4.1 Lư i t A B t l i real-word đòi h i tách t và lư ng giá các cách tách t b ng mô hình O ngôn ng . Đ thu n ti n x lý, chương trình s d ng m t c u trúc d li u H d ng đ th đ th hi n các t — g i là lư i t 1 . Đây là m t đ th có hư ng K không chu trình, v i các nút là các t trong câu, c nh là đư ng n i gi a hai t k nhau, hư ng th hi n th t c a các t trong câu. Ngoài các nút là các t trong câu, lư i t có hai nút đ c bi t là nút “head” và nút “tail”. Nút 1 word lattice 96
  12. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD “head” n m đ u lư i t , n i v i nh ng nút tương ng v i nh ng t đ u tiên trong câu. Ngư c l i, nút “tail” n m cu i lư i t , đư c n i v i nh ng t cu i cùng trong câu. Lư i t ch a t t c các t có kh năng xu t hi n trong câu. Các t đư c liên k t v i nhau theo tr t t như trong câu. Khi duy t t TN nút g c đ n nút đích, ta s đư c m t cách tách t cho câu. Hình 4.2 th hi n m t lư i t . H K H Đ – Hình 4.2: Lư i t c a câu “H c sinh h c sinh h c” TT Ngoài lư i t cơ b n như mô t trên, ta có th m r ng lư i t đ ch a thêm nh ng t có kh năng, phát sinh t công đo n ph c h i l i, nh m xác N đ nh xem t nào là đúng nh t. Lư i t này g i là lư i t m r ng (hình 4.3 trang k ti p). C M t d ng khác c a lư i t , g i là lư i 2-t (xem hình 4.4 trang k ti p). Trong lo i lư i t này, m i nút không ph i là m t t mà là hai t đ ng li n A nhau. Hai nút n i li n nhau thì t bên ph i c a nút bên trái và t bên trái O c a nút bên ph i là m t. Nói cách khác, m t c p nút n i v i nhau b ng m t H c nh trong lư i t ch có ba t thay vì b n t . Lư i t lo i này dùng đ th hi n mô hình trigram (trong khi lư i t bình thư ng đư c dùng đ th hi n K bigram). Vi c t o ra lư i 3-t , lư i 4-t là có th . Tuy nhiên nh ng lư i t này thư ng không hi u qu . 97
  13. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD TN H K H Đ Hình 4.3: Lư i t m r ng c a câu “H c sinh h c sinh h c” – TT N C A O H K Hình 4.4: Lư i 2-t c a câu “H c sinh h c sinh h c” 98
  14. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD 4.4.2 T o lư i t Lư i t cơ b n đư c t o b ng thu t toán Viterbi. M i ti ng trong câu đư c duy t qua đ tìm ra t t c các t có th có trong đo n. Sau đó t p h p các t này l i t o nên lư i t . TN Cho câu S có n ti ng. State là đ nh, còn “nút i” là c nh. Ta duy t l n lư t qua các c nh đ tìm ra các t . Duy t i t 1 đ n n: H • T o state g c cho nút i. K • Xét các state, n u ti n thêm đư c m t bư c thì lưu l i state m i (i+1). H • N u không ti n đư c thì xóa state. Đ • N u hoàn t t m t t thì lưu l i. Thu t toán 4.12: T o lư i t (cơ b n) – TT Thu t toán t o lư i 2-t đư c nêu trong [Rav96]. Thu t toán s t o ra lư i n-t t lư i n − 1-t . Lư i t cơ b n nên trên đư c xem như là lư i 1-t . Thu t toán đư c tóm t t l i như trong thu t toán 4.13. N C 1. N u nút (w) có n t đ ng li n trư c nó (wi ), i = 1, 2, . . . , n trong lư i t g c, nó s đư c l p l i n l n trong lư i t m i, tên là (wi w), tương ng v i i = 1, 2, . . . , n. A 2. N u (wi ) n i v i (wj ) trong lư i t g c, n i t t c (wx wi ) v i (wi wj ) x O b t kỳ. H 3. Giá tr c a (wi wj ) là giá tr c a c nh (wi ) (wj ) trong lư i t cũ. K 4. Giá tr c a c nh (wi wj ) (wj wk ) là 3-gram c a wi , wj và wk . Thu t toán 4.13: T o lư i n-t t lư i (n − 1)-t 99
  15. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD 4.4.3 M r ng lư i t — Ph c h i l i Sau khi có lư i t cơ b n. Ta có th áp d ng mô hình ngôn ng đ tìm ra cách tách t t t nh t n u bài toán là tách t . Tuy nhiên, do câu không hoàn toàn chính xác, ta c n ph i ti n hành ph c h i l i — thêm vào nh ng t có TN kh năng đúng, sau đó m i có th tách t . Ph n ph c h i l i, thêm t vào lư i t đ t o lư i t m r ng là n i dung c a công đo n này. H Như đã xét ph n 4.3.2 trang 88, có 4 lo i l i ch y u là l i bàn phím, l i OCR, l i nh n d ng ti ng nói, l i phát âm (và các lo i l i còn l i). C K b n lo i l i này đ u có th gây ra l i real-word. Tuy nhiên, l i real-word ch y u là l i phát âm, l i bàn phím chi m r t ít, ph n còn l i là l i OCR và l i H nh n d ng ti ng nói. Ph n này ch y u t p trung vào l i phát âm. L i bàn Đ phím đư c trình bày trong ph n 4.3.2 trang 89. – L i phát âm TT L i phát âm ph thu c vào cách phát âm c a t ng vùng. [Hoa02] li t kê các trư ng h p l i thông d ng nh t. Nh ng quy t c này đư c áp d ng đ t o ra N nh ng t g n gi ng phát âm. Theo [Hoa02], l i bao g m các lo i sau: C • L i thanh đi u. Ch y u là l i nh m l n hai thanh h i, ngã. A • L i v âm đ u. Thư ng l n l n các âm đ u sau: C/K, G/Gh, Ng/Ngh, Ch/Tr, S/X, V/D/Gi/R, W/Hw/Ngw/Qu. O • L i v âm chính. Thư ng l n l n các âm chính sau: ai/ay/ây, ao/au/âu, H ăm/âm, ăp/âp, iu/iêu/êu, im/iêm/em, ip/iêp/êp/ep, oi/ôi/ơi, om/ôm/ơm, K op/ôp/ơp, ong/ông, oc/ôc, ui/uôi, um/uôm, up/(uôp), ưi/ươi, ưu/ươu, ưm/ươm, (ưp)/ươp. 100
  16. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD • L i v âm cu i. Thư ng l n l n ch ghi các âm cu i trong các v n sau: an/ang, at/ac, ăn/ăng, ăt/ăc, ân/âng, ât/âc, en/eng, et/ec, ên/ênh, êt/êch, in/inh, it/ich, iên/iêng, iêt/iêc, ơn/(ơng), ơt/(ơc), un/ung, ut/uc, uôn/uông, uôt/uôc, ưn/ưng, ưt/ưc, ươn/ương, ươt/ươc. TN • Sai quy cách vi t hoa H Phân tích âm ti t K Đ phát sinh t d a trên l i phát âm, c n phân tích c u trúc c a t ng ti ng. M t ti ng bao g m âm đ u, v n và thanh. V n g m âm đ m, âm chính và H âm cu i. Trong các thành ph n c a ti ng, âm chính là b t bu c ph i có. Các thành ph n còn l i có th không có. Ta có th bi u di n c u trúc âm ti ng Đ theo sơ đ tr ng thái như hình 4.5. – TT N C Hình 4.5: Sơ đ tr ng thái phân tích c u trúc ti ng A O Ta có th phân tích ti ng dùng FST. Tuy nhiên, qua hình 4.5 có th th y ch có tám cách đ hình thành ti ng. Cài đ t theo tám cách này đơn gi n và H hi u qu hơn dùng FST t ng quát. K Khi phân tích ti ng, có th có m t s nh p nh ng gi a các thành ph n c a ti ng. Ví d , “lúa” bao g m âm đôi “ua” hay âm đ m “u” và âm chính “a”? Nh ng âm có th gây nh p nh ng xu t phát t vi c âm ‘u’ và ‘o’ có th v a là âm đ m, v a là âm chính, bao g m các âm “uô”, “ua”. Ngoài ra còn 101
  17. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD TN Ki m tra m u A, bao g m vi c phân tích âm ti t theo m u A. N u âm ti t có H th phân tích theo m u A và không vi ph m các quy lu t phân b thì ch p nh n âm ti t, d ng thu t toán. K 1. Ki m tra m u “Âm đ u, âm chính, âm cu i”. H 2. Ki m tra m u “Âm chính, âm cu i”. Đ 3. Ki m tra m u “Âm đ u, âm chính”. – 4. Ki m tra m u “Âm chính”. 5. Ki m tra m u “Âm đ u, âm đ m, âm chính, âm cu i”. TT 6. Ki m tra m u “Âm đ m, âm chính, âm cu i”. N 7. Ki m tra m u “Âm đ u, âm đ m, âm chính”. C 8. Ki m tra m u “Âm đ m, âm chính”. 9. Không th phân tích âm ti t. D ng. A O Thu t toán 4.14: Phân tích c u trúc âm ti t H K 102
  18. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD có nh p nh ng gi a âm chính và âm cu i, bao g m “ui”, “uy”, “oi”. Cu i cùng là trư ng h p “qu”. H u h t các nh p nh ng này đư c lo i b b ng th t áp d ng các m u âm ti t (ưu tiên xét các trư ng h p không có âm đ m trư c). Hai trư ng h p c n đư c x lý đ c bi t là “uy” và “qu”. TN N u ch s d ng nh ng lu t này, s có nhi u ti ng phân tích đư c, nhưng th c t không t n t i. Ví d , “cỳ”, “kông” . . . Tuy nhiên cách phân tích này v n ch p nh n đư c. Nh ng ti ng sai như v y s đư c phát hi n và s a ch a H trong ph n b t l i non-word. K 4.4.4 Hoàn ch nh lư i t H Sau khi t o lư i t m r ng, c n b o đ m có th tìm đư c m t cách tách t Đ t t đ u tiên cho đ n t cu i cùng và m i cách tách t đ u k t thúc t cu i cùng trong câu. Nói cách khác, ph i đ m b o luôn tìm đư c đư ng đi t b t – kỳ đ nh nào trên đ th đ n đ nh c a các t k t thúc câu. Do t đi n b gi i TT h n, có kh năng lư i t thi u m t vài c nh làm đ th không còn liên thông. Bư c này thêm vào các đ nh đ b o đ m đ th liên thông. Lư i t s đư c duy t l i, tìm nh ng nơi không liên thông, thêm vào các đ nh (mã “UNK”) N đ đ m b o tính liên thông. C 4.4.5 Áp d ng mô hình ngôn ng — Tách t A O Ph n này s d ng mô hình ngôn ng ngram đ đánh giá các cách tách t , t đó đưa ra cách tách t t t nh t. D a theo c u trúc lư i t , m t cách tách t H chính là đư ng đi t nút head đ n nút tail. Ta có th ti n hành vi c lư ng giá K b ng cách duy t đ th theo chi u sâu, tìm m i cách tách t . V i m i cách tách t tìm đư c, mô hình ngôn ng s đư c áp d ng đ tính giá tr c a cách tách t đó. 103
  19. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD Cách trên đơn gi n, nhưng không hi u qu . V i bài toán tách t bình thư ng (không tách t m ), s phân nhánh trong đ th không nhi u, mô hình này có th áp d ng đư c. Tuy nhiên, v i các câu dài phương pháp này tr nên không hi u qu vì s lư ng các cách tách t tăng r t nhanh. Hãy xét TN m t trư ng h p c c đoan, m t câu dài 86 ch : “Đó là tr l i c a B Ngo i giao nư c ta t i cu c h p báo thư ng kỳ ngày hôm qua trư c câu h i c a m t s phóng viên nư c ngoài v ph n ng c a Vi t Nam đ i v i vi c y H ban v T do Tôn giáo Qu c t c a Hoa Kỳ t ch c đi u tr n v n đ tôn giáo K Vi t Nam và vi c m t s t ch c tôn giáo h i ngo i kêu g i trì hoãn vi c phê chu n Hi p đ nh Thương m i song phương v i Vi t Nam”. Đây là m t câu H trích t m t tin t c th i s . Khi đ c lư t qua câu này, ta không c m nh n đư c đ dài c a nó. Nh ng câu lo i này không ph i hi m g p trong các văn Đ b n hành chính. Câu này có 76101451776 ≈ 76 · 109 cách tách t khác nhau (842851528992620544 ≈ 842 · 1015 n u tách t m ), d n đ n vi c tính giá – tr c a t ng cách tách t m t là đi u không th c t . TT Th t ra, đ i v i bài toán tách t thông thư ng, ta có th phân tách câu trên thành t ng đo n ng n hơn, do có m t s t trong câu hoàn toàn không N nh p nh ng trong tách t . Nh ng t như th đư c bi u di n trên lư i t là nh ng đi m th t nút. Nh nh ng đi m này, ta có th tách câu ra thành t ng C đo n ng n hơn và x lý t ng đo n đ c l p. Cách này tùy thu c vào lo i mô A hình ngôn ng đư c áp d ng. V i mô hình unigram, có th áp d ng cách này. V i mô hình bigram ho c cao hơn, ta c n tìm nh ng nút có đi u ki n kh t O khe hơn. C th v i bigram, ta c n tìm ra m t c p nút th t thì vì ch c n m t H nút. Như v y, vi c s d ng mô hình bigram hay trigram, đ có đư c mô hình ngôn ng hi u qu hơn, s làm gi m đi s phân đo n trong câu, làm tăng K th i gian x lý. Bài toán tách t m l i càng khó khăn hơn. Do k t qu c a vi c ph c h i l i, s nút trong lư i t tăng r t nhi u, h u qu là các nút có th dùng đ 104
  20. CHƯƠNG 4. MÔ HÌNH 4.4. B T L I REAL-WORD phân đo n gi m đáng k , h u như không còn. Do v y c i ti n trên coi nhưng không th phát huy tác d ng. C i ti n trên dùng nguyên t c quy ho ch đ ng đ c i ti n. Đi u đó d n đ n suy nghĩ t i sao không t n d ng quy ho ch đ ng tri t đ hơn? Th t s , TN ta có th áp d ng thu t toán Viterbi đ gi i quy t bài toán này. Thu t toán Viterbi đã đư c áp d ng thành công trong nh ng bài toán tìm ki m tương t trong lĩnh v c nh n d ng ti ng nói. H Thu t toán Viterbi có th ho t đ ng, nhưng không t n d ng tri t đ ưu K đi m c a lư i t . Do mô hình ngôn ng đư c s d ng là ngram, ta s dùng mô hình bigram. Do m i nút đ i di n cho m t t , c nh n i gi a hai t có th H đ i di n cho xác su t bigram logP (w2 |w1 ), vi c tính mô hình ngôn ng cho m t cách tách t : Đ n – P (w1 . . . wn ) = P (w1 |head) P (wi |wi−1 )P (tail|wn ) i=2 TT n logP (w1 . . . wn ) = log (P (w1 |head) P (wi |wi−1 )P (tail|wn ) i=2 n N = P (w1 |head) + P (wi |wi−1 ) + P (tail|wn ) C i=2 V i cách tính này, vi c tính logP (w1 . . . wn ) tương đương v i giá tr A đư ng đi t head đ n tail (c nh head đ n nút c a t đ u tiên là P (w1 |head), O còn c nh t nút c a t cu i cùng đ n tail là P (tail|wn )). Vi c tính maxP H tương đương v i minlogP , cũng là tìm đư ng đi ng n nh t t head đ n tail. Bài toán cu i cùng quy v bài toán tìm đư ng đi ng n nh t trong đ th có K hư ng, có tr ng s . Thu t toán tìm đư ng đi ng n nh t đư c dùng đây là thu t toán tìm 105
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1