intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chia sẻ: Dien_vi10 Dien_vi10 | Ngày: | Loại File: PDF | Số trang:5

79
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 8: Trích rút thông tin" cung cấp cho người học các kiến thức: Trích rút thuật ngữ, trích rút quan hệ, phương pháp Snowball, phương pháp hướng dẫn từ xa. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Trích rút quan hệ<br /> Phương pháp Snowball<br /> <br /> IT4772 Xử lý ngôn ngữ tự nhiên<br /> Viện CNTT-TT, ĐHBKHN<br /> <br /> Phương pháp hướng dẫn từ xa<br /> <br /> 2<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> INFORMATION EXTRACTION<br /> ●<br /> <br /> NATURAL LANGUAGE UNDERSTANDING<br /> <br /> END-TO-END<br /> APPLICATIONS<br /> <br /> ●<br /> <br /> Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữ<br /> trong lĩnh vực CNTT?<br /> Làm sao trích rút các thuật ngữ từ một tập văn<br /> bản trong lĩnh vực CNTT?<br /> <br /> NATURAL LANGUAGE GENERATION<br /> <br /> DATA + LINGUISTICS + MACHINE LEARNING<br /> <br /> 3<br /> <br /> 4<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Tạo ứng cử viên<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> ●<br /> <br /> B1: Tạo các tập ứng cử viên<br /> <br /> ●<br /> <br /> B2: Xếp hạng các ứng cử viên<br /> <br /> ●<br /> <br /> ●<br /> <br /> Tiền xử lý:<br /> –<br /> <br /> Tách từ<br /> <br /> –<br /> <br /> Loại bỏ từ dừng<br /> <br /> Tạo ứng cử viên<br /> –<br /> <br /> Cách 1: sử dụng n-gram (n = 2, 3, 4)<br /> <br /> –<br /> <br /> Cách 2: Sử dụng thông tin cú pháp<br /> ●<br /> ●<br /> ●<br /> <br /> Từ loại<br /> Cụm danh từ<br /> Mẫu ngôn ngữ (vd N A, N N)<br /> <br /> 5<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Xếp hạng ứng cử viên<br /> ●<br /> <br /> PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))<br /> <br /> ●<br /> <br /> p(w1, w2) = count(w1,w2) / D<br /> <br /> ●<br /> <br /> p(w1) = count(w1) / N<br /> <br /> 6<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Nam châm<br /> <br /> phát-hành<br /> <br /> bao-gồm<br /> <br /> Bức tường<br /> thành-viên<br /> <br /> Người mộng-du<br /> <br /> giáo-dục<br /> Trần Lập<br /> <br /> ĐHXD<br /> <br /> nơi sinh<br /> <br /> địa-điểm<br /> <br /> Hà Nội<br /> 7<br /> <br /> quốc-tịch<br /> <br /> thủ-đô<br /> <br /> 8<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> ●<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> <br /> Thực thể có tên<br /> <br /> ●<br /> <br /> Quan hệ (arg1, relation, arg2)<br /> <br /> PERSON: POLITICIAN, SCIENTIST, MUSICIAN<br /> <br /> (Bức Tường, phát hành, Nam châm)<br /> <br /> PRODUCT: MOVIE, SONG, BRAND<br /> <br /> (Hà Nội, thủ đô của, Việt Nam)<br /> <br /> ORG: CORP, PARTY, GPE<br /> <br /> 9<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> 10<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> <br /> B1: Cung cấp các ví dụ khởi đầu<br /> <br /> ●<br /> <br /> B2: Tìm sự xuất hiện trong văn b ản<br /> “computer servers at Microsoft’s headquarters in Redmond”<br /> <br /> 11<br /> <br /> 12<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> <br /> B3: Xây dựng pattern<br /> <br /> ●<br /> <br /> “computer servers at Microsoft’s headquarters in Redmond”<br /> <br /> B2*: Tìm ví dụ mới<br /> “Baidu’s headquarters in Beijing”<br /> <br /> ’s headquarters in <br /> <br /> ’s headquarters in <br /> <br /> 13<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> 14<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Distant supervision<br /> <br /> B3*: Xây dựng pattern<br /> <br /> ●<br /> <br /> Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức<br /> (Freebase/Wikipedia)<br /> <br /> “Beijing-based Baidu”<br /> <br /> -based <br /> <br /> 15<br /> <br /> 16<br /> <br /> Q&A<br /> <br /> hieunk@soict.hust.edu.vn<br /> 17<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2