NEU-Chatbot: Chatbot hỗ trợ tư vấn tuyển sinh đại học chính quy tại Trường Đại học Kinh tế Quốc dân

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:13

Thêm vào BST

Báo xấu

10
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "NEU-Chatbot: Chatbot hỗ trợ tư vấn tuyển sinh đại học chính quy tại Trường Đại học Kinh tế Quốc dân" hướng dẫn chi tiết các kỹ thuật để xây dựng một AI Chatbot và có thể được áp dụng cho hầu hết ngôn ngữ trên thế giới.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: NEU-Chatbot: Chatbot hỗ trợ tư vấn tuyển sinh đại học chính quy tại Trường Đại học Kinh tế Quốc dân

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 15. NEU-CHATBOT: CHATBOT HỖ TRỢ TƯ VẤN TUYỂN SINH ĐẠI HỌC CHÍNH QUY TẠI TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN ThS. Tuấn Nguyễn* TS. Lê Anh Đức* ThS. Hoàng Thanh Hà* Nguyễn Sơn Tùng** Nguyễn Thành Trung*** Tóm tắt Trong vài năm trở lại đây, các hệ thống Chatbot thông minh đã dần trở nên phổ biến và được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong giáo dục. Tính đến thời điểm hiện tại, hầu hết việc trao đổi thông tin giữa học sinh và các trường đại học đang được thực hiện một cách thủ công, quy trình này thường rất tốn thời gian và đặt gánh nặng cho bộ phận tuyển sinh. Chính vì vậy, trong bài viết này, chúng tôi xin giới thiệu NEU-Chatbot, một Chatbot dựa trên công nghệ Trí tuệ nhân tạo (AI), là một nền tảng giúp học sinh nhận được những cập nhật hàng ngày về chương trình đào tạo, thủ tục nhập học, học phí, hay điểm bài viết IELTS Writing task II... Chatbot của chúng tôi được phát triển dựa trên các mô hình học sâu được tích hợp trên nền tảng Rasa. NEU-Chatbot có thể phân biệt hơn 50 loại câu hỏi với độ chính xác lên đến 97,1% trên bộ dữ liệu thử nghiệm. Chatbot đã được áp dụng cho Fanpage tuyển sinh chính thức của Trường Đại học Kinh tế Quốc dân trên nền tảng Facebook - mạng xã hội lớn nhất tại Việt Nam. Trong bài viết này, chúng tôi sẽ hướng dẫn chi tiết các kỹ thuật để xây dựng một AI Chatbot và có thể được áp dụng cho hầu hết ngôn ngữ trên thế giới. Chúng tôi cũng xin chân thành cảm ơn tất cả các thành viên của Data Science Lab tại Trường Đại học Kinh tế Quốc dân vì sự hỗ trợ nhiệt tình của họ trong nghiên cứu này. Từ khóa: Rasa; Chatbot tuyển sinh; RNN; BERT * Trường Đại học Kinh tế Quốc dân ** Sinh viên Khoa Toán kinh tế, Trường Đại học Kinh tế Quốc dân *** Sinh viên Viện Công nghệ thông tin, Trường Đại học Bách khoa Hà Nội 128
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ 1. GIỚI THIỆU Trợ lý ảo hay Chatbot là các phần mềm tương tác với người dùng thông qua hội thoại bằng ngôn ngữ tự nhiên (Følstad et al., 2017). Gần đây, Chatbot đã được ứng dụng và trở nên vô cùng hữu ích trong các lĩnh vực giáo dục, kinh doanh thương mại điện tử, y tế, hay giải trí (Shawar et al., 2007). Một số nghiên cứu cho rằng, Chatbot có thể đem lại sự giải trí cho người dùng, cung cấp phản hồi tức thì, nâng cao kỹ năng giao tiếp ngang hàng (Hill et al., 2015) và cải thiện hiệu quả học tập của học sinh (Wu et al., 2020). Ngày nay, có rất nhiều nền tảng có sẵn giúp xây dựng một AI-Chatbot như Rasa, Chatfuel, MobileMonkey... Trong nghiên cứu này, chúng tôi đã sử dụng nền tảng Rasa vì một số lý do sau: Thứ nhất, Rasa là một nền tảng mã nguồn mở xuất phát từ một dự án trên GitHub vào năm 2016. Do đó, việc tích hợp và tùy chỉnh các thành phần của Rasa sẽ rất đơn giản. Thứ hai, Rasa hỗ trợ kết nối với các ứng dụng nhắn tin khác và có thể triển khai trên nhiều môi trường khác nhau. Hơn nữa, việc triển khai học sâu trên Chatbot còn yêu cầu một vai trò quan trọng của các nền tảng Chatbot, đó là sự đồng nhất và cách sắp xếp các mô hình học sâu một cách phù hợp. Mục đích và triết lý của những người khởi xướng Chatbot Rasa là làm cho việc quản lý đối thoại dựa trên máy học có thể tiếp cận được với cả các nhà phát triển phần mềm không chuyên. Họ hướng tới sự đơn giản về mặt thực hiện cũng như là có thể bắt đầu huấn luyện từ lượng dữ liệu ban đầu tối thiểu (Bocklisch et al., 2017). Cuối cùng, Rasa được phát triển trên nền tảng ngôn ngữ lập trình python, đây là một sự lựa chọn thích hợp cho các dự án về NLP nhờ vào cú pháp đơn giản và ngữ nghĩa minh bạch. Mục tiêu chính trong bài viết này là tìm hiểu cách thức Chatbot có thể giảm bớt gánh nặng tư vấn tuyển sinh bằng cách tự động hỗ trợ học sinh và cung cấp quyền truy cập thông tin tức thì. Để đạt được mục tiêu này, chúng tôi đã phát triển NEU-Chatbot, một Chatbot cung cấp thông tin tuyển sinh của Trường Đại học Kinh tế Quốc dân (NEU), trường đại học hàng đầu tại Việt Nam đào tạo về kinh tế, quản trị kinh doanh và quản lý với 54 ngành/chương trình đào tạo được tuyển sinh quy mô 6.000 sinh viên/khóa. Để đáp ứng nhu cầu ngày càng cao về thông tin tuyển sinh, NEU-Chatbot được tạo ra với sứ mệnh giải đáp tất cả các thắc mắc phổ biến như: chương trình học, học phí, kế hoạch tuyển sinh, phương thức xét tuyển và thủ tục nhập học của Trường... Chúng tôi đã thử nghiệm với một bộ dữ liệu bao gồm hơn 50 loại câu hỏi với khoảng 1.500 ví dụ. Với quy trình hợp lý và tiền xử lý dữ liệu, bot của chúng tôi có thể phân loại câu hỏi của người dùng với độ chính xác lên đến 97,1% trên bộ thử nghiệm. Các nội dung tiếp theo của bài viết được phân bổ như sau: phần 2 mô tả về các công trình liên quan đã được công bố; phần 3 minh họa phương pháp xây dựng Chatbot và kỹ thuật tùy chỉnh Rasa cho tiếng Việt; phần 4 chúng tôi sẽ trình bày và thảo luận về kết quả và kinh nghiệm của chính bản thân mình. Việc đánh giá mô hình của chúng tôi sẽ được giới thiệu trong phần 5, và cuối cùng là phần 6 sẽ đề cập đến các kết luận cũng như dự định tương lai của nhóm tác giả. 2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Trong nghiên cứu của Prashant et al. (2017), các tác giả đã xây dựng hệ thống trò chuyện trực tuyến về thông tin tuyển sinh của một trường cao đẳng bằng cách so khớp mẫu để từ đó truy xuất thông tin dựa trên cơ sở dữ liệu về tri thức của Chatbot. Tất cả các bước làm đều được mô tả chi 129
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA tiết và rõ ràng thông qua biểu đồ UML và các sơ đồ quá trình. Tuy nhiên, bot của họ không sử dụng phương pháp học máy, vì vậy, nó vẫn còn khá cứng nhắc bởi phụ huynh và học sinh cần phải đưa ra câu hỏi dựa trên bộ quy tắc đã được bot định ra từ trước. Ngoài ra, vì các mẫu câu hỏi được xây dựng một cách thủ công nên hệ thống này không phù hợp để phát triển trên quy mô lớn trong thực tế. Trong nghiên cứu của Thakkar et al. (2018), Erasmus là một Chatbot sử dụng AI để trả lời câu hỏi về thông tin của các trường đại học. Nhóm nghiên cứu này đã thiết kế Erasmus như một hệ thống đầu cuối sử dụng các dịch vụ đám mây, bắt đầu từ api.ai (Dialogflow), Mlab (MongoDB cloud), và IBM Bluemix (API webhook). Tuy nhiên, Chatbot của họ có độ trễ khá lớn trong việc phản hồi người dùng vì bị phụ thuộc quá nhiều vào các dịch vụ đám mây. Nhóm tác giả Windiatmoko et al. (2020) đã tạo ra một Chatbot được tích hợp cùng cơ sở dữ liệu MySQL và API dành cho các câu hỏi về đại học cùng với hướng dẫn chi tiết. Tuy nhiên, Chatbot này khá đơn giản và chỉ có thể trả lời một số câu hỏi cơ bản của khách hàng. Thêm vào đó, tiếng Indonesia hoàn toàn khác với các ngôn ngữ khác như tiếng Anh hoặc tiếng Việt, và các tác giả cũng không đề cập đến cách họ tùy chỉnh tokenizer hay quy trình xử lý dữ liệu của họ trong bài. Nghiên cứu của họ chỉ dựa theo cấu trúc cơ bản nhất được Rasa đưa ra từ khi khởi tạo dự án mà không sử dụng đến các tính năng tiên tiến khác của nền tảng này. Chúng tôi đã thiết lập quy trình NLU (sự hiểu biết ngôn ngữ tự nhiên) cho Chatbot tiếng Việt bằng cách sử dụng nền tảng Rasa đi kèm với tiền xử lý dữ liệu và mô hình được huấn luyện từ trước như BERT trong NEU-Chatbot. Ngoài ra, nếu chúng ta chỉ kết nối Chatbot Rasa thông qua kênh webhook, nó sẽ xuất hiện độ trễ khi khoảng 25 người dùng kết nối cùng một lúc. Để giải quyết vấn đề này, chúng tôi đã tạo một cổng kết nối do máy chủ proxy cung cấp. Do đó, Chatbot có thể phục vụ lên đến 50 người dùng cùng một lúc. Sau đó, chúng tôi triển khai Chatbot trên Messenger để học sinh và phụ huynh có thể dễ dàng truy cập các dịch vụ. Đồng thời, chúng tôi cũng thay thế các câu trả lời dài dòng, nhàm chán bằng hình ảnh để người sử dụng có thể dễ hình dung hơn. Những kỹ thuật này cũng có thể được áp dụng cho các Chatbot với bất kỳ ngôn ngữ nào. Nền tảng Rasa được cấu thành bởi hai thành phần chính là Rasa Core và Rasa NLU để phát triển NEU-Chatbot. Rasa Core được sử dụng để xử lý luồng hội thoại, phản hồi và hành động của bot, trong khi Rasa NLU được sử dụng giúp bot hiểu, phân loại câu hỏi và trích xuất các thực thể từ đầu vào văn bản. Nói cách khác, NLU phân loại câu hỏi của người dùng; Rasa core thực hiện hành động tương ứng để bot có thể phản hồi lại khách hàng. Phần 3 dưới đây sẽ trình bày chi tiết về cách chúng tôi xây dựng nên một Chatbot nhằm đưa ra câu trả lời cho các thắc mắc liên quan đến công tác tư vấn tuyển sinh của Trường Đại học Kinh tế Quốc dân. 3. PHƯƠNG PHÁP 3.1. Nền tảng Rasa Rasa là một dự án mã nguồn mở dựa trên sự hiểu biết ngôn ngữ tự nhiên (NLU), quản lý hội thoại và tương tác. Sẽ có một đối tượng theo dõi (tracker) để điều khiển một cuộc đối thoại và mỗi phiên hội thoại sẽ chỉ có một tracker. Tracker này sẽ lưu trữ các ô nhớ (slot) và nhật ký của tất cả các sự kiện xảy ra trong một cuộc trò chuyện. 130
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ Hình 1. Sơ đồ hoạt động của Rasa Framework Trong Hình 1, ngoại trừ bước 1 được thực hiện bởi Rasa NLU thì tất cả các bước đều được xử lý bởi Rasa Core. Sau khi nhận được tin nhắn từ người dùng và chuyển tiếp đến trình thông dịch để trích xuất ý định, thực thể và các thông tin cần thiết, Rasa NLU và tracker sẽ theo dõi, phát hiện, và duy trì trạng thái của ngữ cảnh hội thoại thông qua các thông báo tin nhắn đã nhận được. Sau đó, đầu ra của Tracker (trạng thái ngữ cảnh) sẽ đi vào trình quản lý chính sách và chính sách sẽ quyết định đến hành động tiếp theo. Ở bước 5, tracker sẽ ghi lại tất cả hành động trước khi chúng được thực thi và gửi đến người dùng. Các phản hồi đến người dùng đều được định trước trong tệp domain.yml, nơi xác định mọi thứ bao gồm ý định, thực thể, slots và hành động. Nếu người dùng bỏ qua các hành động đã thực hiện, quy trình sẽ quay trở lại bước 3. 3.2. Tiền xử lý dữ liệu Trong bài viết này, chúng tôi sẽ đề cập đến một số kỹ thuật có thể giúp đạt được kết quả tốt hơn khi xây dựng các Chatbot nói chung và Chatbot tuyển sinh vào trường đại học nói riêng. Việc tiền xử lý sẽ được chia thành bốn công đoạn chính: Thêm dấu thanh: Bước này nhằm mục đích sửa lỗi chính tả trong tin nhắn của người dùng. Bảng chữ cái tiếng Việt chính thức dựa trên hệ thống chữ Latinh bao gồm 29 chữ cái: 17 phụ âm và 12 nguyên âm ngoại trừ “f, j, w, z”, trong đó có 22 chữ được lấy từ bảng chữ cái La Mã. Tuy nhiên, vấn đề khó khăn nhất trong việc xử lý tiếng Việt là các dấu thanh, có tổng cộng 134 chữ cái, bao gồm chữ hoa và chữ thường, với các dấu thanh như “á, ạ, ê, ó, ô”. Để gõ được các chữ cái đặc trưng này, người dùng phải sử dụng bàn phím tiếng Việt. Vì vậy, nếu máy tính cá nhân hoặc điện thoại di động của người dùng không được tích hợp bàn phím tiếng Việt, họ sẽ không thể nhập được dấu thanh từ bàn phím mặc định. Để giải quyết vấn đề này, chúng tôi đã viết ra một hàm có tên là TelexConvert để chuyển đổi tất cả các từ không có dấu nhưng mang hàm ý sử dụng dấu ra từ tiếng Việt có dấu tương ứng. Làm sạch văn bản: Mục đích của phần này là loại bỏ những dữ liệu gây nhiễu, tức loại bỏ các ký hiệu vô nghĩa như “$%&#”. Cách đơn giản nhất để xử lý vấn đề này là sử dụng bộ lọc dựa trên biểu thức chính quy. Loại bỏ các Stopword: Stopwords là những từ xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên, chúng thường mang ít, hoặc không mang ý nghĩa gì. Trong tiếng Việt, Stopword là những từ như “vâng, này, kia”, tương ứng với “is, that, this” trong tiếng Anh. Có nhiều cách để loại bỏ 131
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA các Stopword, trong bài viết này, chúng tôi đã chọn sử dụng từ điển. Chúng tôi tập hợp tất cả Stopword có trong tiếng Việt vào một danh sách, và nếu bất kỳ từ nào xuất hiện trong tin nhắn đầu vào, chúng sẽ bị loại bỏ khi đi qua hàm StopWordRemover được viết trong preprocesser.py. Chuyển đổi chữ số sang văn bản: Vì nghiên cứu này xây dựng một Chatbot xử lý đầu vào là văn bản, nhóm tác giả mong muốn rằng tất cả thông tin nên được gửi dưới dạng văn bản. Ngoài ra, chúng tôi cũng nhận thấy việc chuyển đổi từ chữ số thành văn bản giúp thu được kết quả tốt hơn so với dữ liệu ban đầu. 3.3. Lựa chọn quy trình Rasa NLU Mục đích chính của Rasa NLU là phân tích thông tin do người dùng cung cấp cho Chatbot, thông tin này bao gồm các ý định và thực thể cần được trích xuất. Trên nền tảng mã nguồn mở Rasa, tin nhắn gửi đến được xử lý bởi một chuỗi các hàm chức năng, các hàm này được thực thi lần lượt bên trong quy trình xử lý được định danh trong config.yml (Rasa, 2021). Với quy trình nhúng có giám sát, chúng ta có thể huấn luyện với bất kỳ ngôn ngữ nào trên thế giới vì công việc này sẽ bắt đầu huấn luyện mọi thứ từ đầu. Quy trình chi tiết đã được biển diễn ở trong Hình 2. Hình 2. Quy trình nhúng có giám sát Rasa cũng cho phép người dùng có thể tùy ý thay đổi các thành phần và xây dựng các quy trình mới (Rafla et al., 2019). Bên cạnh quy trình đã được đề cập ở trên, chúng tôi đã tùy chỉnh một quy trình hợp lý cho Chatbot bằng cách sử dụng mô hình ngôn ngữ hiện đại BERT để xử lý các vectơ từ vựng đã được tiền huấn luyện. Mặc dù BERT bị coi là một mô hình nặng và có tốc độ xử lý chậm hơn khoảng sáu lần so với mô hình ConveRT, tuy nhiên, chúng tôi không sử dụng quy trình của ConveRT bởi mô hình này chỉ có thể được sử dụng với tiếng Anh và không hỗ trợ tiếng Việt. Ví dụ về quy trình BERT mà chúng tôi đã sử dụng cho NEU-Chatbot có thể được thấy ở Hình 3. 132
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ Hình 3. Quy trình của NEU-Chatbot-NLU Chúng ta cần chú ý đến hai thành phần thiết yếu trong quy trình này, đó là Tokenizer và Featurizer. Việc lựa chọn Tokenizer có thể ảnh hưởng đến loại Featureizer, và thứ tự của các thành phần trong quy trình NLU cũng cần được xem xét. Ví dụ, bạn không thể sắp xếp một Featureizer trước Tokenizer vì đầu ra của Tokenizer sẽ đóng vai trò là đầu vào của Featureizer. Trong hầu hết các trường hợp, WhitespaceTokenizer hoạt động tốt cho bất kỳ ngôn ngữ nào. Tuy nhiên, bạn sẽ cần phải tùy chỉnh tokenizer của mình nếu có ý định xây dựng một Chatbot cho ngôn ngữ tượng hình như tiếng Trung - ngôn ngữ không có các khoảng trắng giữa các từ, hay thậm chí là giữa các câu. Ngoài ra, các mô hình được huấn luyện trước như BERT có xu hướng tiêu tốn nhiều tài nguyên cũng như là thời gian. Vì vậy, bên cạnh việc sử dụng BERT để nhúng, chúng tôi cũng sử dụng Dual Intent và Entity Transformer (DIET) để xử lý cả phân loại ý định và nhận dạng thực thể cùng lúc. Trong Blog Rasa (2020), DIET đã được chứng minh là cải thiện tốc độ huấn luyện lên đến sáu lần, không thua kém gì các mô hình ngôn ngữ tiền huấn luyện quy mô lớn về cả độ chính xác lẫn hiệu suất. 3.4. Chính sách Khi triển khai một giải pháp quản lý cuộc hội thoại, nhiệm vụ chính là quyết định xem điều gì sẽ xảy ra tiếp theo để bắt nhịp với cuộc trò chuyện. Trong Rasa, lớp rasa.core.policies.policy quyết định hành động nào sẽ được bot thực hiện trong mỗi bước của cuộc hội thoại Sharma et al. (2020). 133
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA Chúng ta có thể sửa lại các chính sách mà Chatbot sử dụng bằng cách điều chỉnh chúng trong tệp config.yml. Có hai loại chính sách: chính sách dựa trên học máy và chính sách dựa trên quy tắc. Các chính sách này sẽ được sử dụng song song để giúp bot quyết định hành động nào nên được thực hiện ở mỗi bước trong một cuộc trò chuyện. Tùy thuộc vào mục đích sử dụng, chúng ta có thể chọn nhiều chính sách trong cùng một cấu hình. Bảng 1 dưới đây sẽ hiển thị chi tiết từng loại chính sách. Bảng 1. Danh sách chính sách Loại chính sách Tên chính sách Tính năng Chính sách kết hợp các thông tin từ đầu vào của người dùng, các hành động trước TED policy của hệ thống và vị trí vào với nhau. Chính sách ghi nhớ sẵn những kịch bản được định sẵn từ bộ dữ liệu huấn luyện. Sau đó, nó sẽ tìm kiếm đoạn hội thoại có độ tương quan phù hợp nhất với nội Memorization Chính sách học máy dung trò chuyện hiện tại và từ đó dự đoán hành động tiếp theo với sự tự tin nằm trong khoảng [0,1]. Tổng số lượt trò chuyện sẽ được lưu trong max_history. Tương tự như chính sách ghi nhớ, chính sách này sẽ nhớ các ví dụ từ kịch bản Augmented phù hợp lên đến max_history lượt. Ngoài ra, chính sách này còn có thêm một Memoization Policy cơ chế quên. Chính sách dựa trên Chính sách xử lý các phần hội thoại đi theo một xu hướng cố định và đưa ra dự Rule policy quy tắc đoán bằng cách sử dụng các quy tắc có sẵn trong dữ liệu huấn luyện. Chính sách kiểm soát kích thước của lịch sử đối thoại mà mô hình sử dụng để dự Max History đoán hành động tiếp theo. Chính sách xác định có bao nhiêu kịch bản đã được lấy mẫu trong quá trình Data Augmentation Chính sách cấu hình huấn luyện. Chính sách này cho phép sử dụng các thuật toán học máy để tạo nên các vector Featurizers đại diện cho AI hội thoại. 3.5. Hành động tùy chỉnh (Custom Actions) Trong nghiên cứu này, nếu bot nhận được các tin nhắn với độ tin cậy phân loại thấp, chúng tôi sẽ sử dụng chính sách Fallbacks, nhằm giúp đảm bảo sự linh hoạt trong việc xử lý tin nhắn. Tuy nhiên, những trường hợp này chỉ thường xảy ra khi người dùng đặt những câu hỏi nằm ngoài phạm vi trả lời của Chatbot. Để hạn chế việc Chatbot không hiểu câu hỏi của người dùng, chúng tôi đã tạo ra một biểu mẫu với các ô nhớ (RASA, 2021) để người dùng có thể điền những thông tin thắc mắc mà Chatbot chưa thể giải đáp. Nếu họ muốn gửi nó cho chúng tôi, chúng tôi sẽ nhận được một email cho biết lý do tại sao bot hiểu nhầm tin nhắn và cả yêu cầu của người dùng. Bởi vì bot của chúng tôi có thể trả lời lên đến 96% các câu hỏi liên quan đến thông tin tuyển sinh NEU nên số lượng email về tin nhắn bị hiểu nhầm mà chúng tôi nhận được chỉ khoảng từ 10 đến 15 thư mỗi ngày. Việc này có lợi khi quy mô người dùng của bạn là rất lớn, bạn sẽ cần kiểm tra email để tìm ra sự cố. Nếu sự cố này xảy ra khá thường xuyên, bạn nên thêm một loại câu hỏi khác cho bot để xử lý những trường hợp này. 134
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ Một hoạt động khác mà chúng tôi muốn thảo luận trong phần này là kiểm tra điểm IELTS Writing task II. Được biết, hơn 10.000 tổ chức quốc tế tin tưởng IELTS, vì vậy khi tham gia kỳ thi, ta có thể tự tin rằng, nó đã được các tổ chức giáo dục, Chính phủ và các cơ quan chuyên môn trên toàn thế giới công nhận. Hơn nữa, IELTS là một trong những điều kiện tốt nghiệp tại Trường Đại học Kinh tế Quốc dân. Vì vậy, chúng tôi đã tạo ra một tính năng cho phép người dùng nhập đề bài và bài viết Writing task II của họ. Sau khi tất cả các thông tin cần thiết được cung cấp, một API sẽ được gọi từ một trang web khác thông qua một yêu cầu HTTP. Trang web này sẽ quét văn bản do bot của chúng tôi đưa ra để tìm tất cả các loại lỗi, từ lỗi chính tả đến các vấn đề về cấu trúc câu và hơn thế nữa. Sau đó, hàng trăm thuật toán sẽ chấm điểm bài viết theo bốn tiêu chí đánh giá. Cuối cùng, máy chủ sẽ gửi cho chúng tôi một liên kết dẫn đến kết quả và Chatbot sẽ chuyển tiếp liên kết đó tới người dùng bằng tin nhắn. 3.6. Nền tảng kết nối Nền tảng mã nguồn mở Rasa cung cấp nhiều trình kết nối tích hợp sẵn với các kênh thoại và tin nhắn thông thường. Ngoài ra, bạn cũng có thể kết nối với trang web hoặc ứng dụng của mình bằng các kênh REST được cài đặt sẵn hoặc tạo trình kết nối tùy chỉnh của riêng bạn (RASA, 2021). Được biết, tính đến tháng 4 năm 2021, có khoảng 75.180.000 người dùng Facebook tại Việt Nam, con số này chiếm tới 75,5% tổng dân số. Vì vậy, chúng tôi đã quyết định sử dụng Facebook Messenger thay vì các nền tảng khác như Slack, Telegram, Twilio... Hơn nữa, Facebook Messenger còn cho phép đính kèm một hình ảnh theo văn bản; tính năng này rất tiện cho chúng ta thay vì phải gửi những tin nhắn dài dòng nhàm chán. Là một nền tảng Module kết nối, vì vậy, để kết nối với Facebook Messenger, trước tiên chúng ta cần thiết lập một trang Facebook và cài đặt ứng dụng để lấy thông tin đăng nhập từ Nhà phát triển Facebook. Một khi đã có các thông tin cần thiết, chúng ta thêm chúng vào tệp credentials. yml. Sau đó tiến hành chèn URL gọi lại, nó sẽ có dạng như “https:///webhooks/facebook/ webhook”, mã xác minh, mật khẩu ứng dụng và mã truy cập trang vào tệp credential.yml. Giả sử rằng, số lượng người dùng truy cập bot cùng một lúc vượt quá giới hạn, bạn sẽ cần phải tạo một máy chủ proxy, cung cấp một cổng kết nối giữa người dùng và Internet. Máy chủ proxy là một giải pháp phổ biến để giải phóng mạng lưới tổ chức khỏi lưu lượng truy cập lớn bằng cách lưu trữ các đối tượng web được tham chiếu thường xuyên nhất trong bộ nhớ cache cục bộ của chúng (Tsui et al., 2013). Vì vậy, bây giờ, Chatbot sẽ nhận được thông báo HTTP theo thời gian thực về những thay đổi đối với các đối tượng cụ thể và gửi lại tin nhắn. 4. THỬ NGHIỆM 4.1. Thiết lập thử nghiệm Trong nghiên cứu này, chúng tôi đã tiến hành thử nghiệm với một bộ dữ liệu bao gồm hơn 50 loại câu hỏi về các vấn đề nổi cộm như: học phí, hình thức nhập học, học bổng hoặc trình độ tiếng Anh đầu vào, với tổng cộng khoảng 1.500 ví dụ. Ngoài ra, chúng tôi cũng tạo ra một tập dữ liệu bao gồm 80% để huấn luyện và 20% để kiểm thử từ nlu.yml bởi vì bộ dữ liệu của chúng tôi chứa một số lượng quan sát đáng kể. Sau đó, dữ liệu huấn luyện được chia thành năm phần có kích thước bằng nhau để áp dụng kỹ thuật xác thực chéo k-fold. Mặc dù phương pháp xác 135
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA thực chéo này tốn kém về mặt tính toán nhưng nó cung cấp một mô hình hiệu quả trong trường hợp bộ dữ liệu không quá lớn. Sau khi dữ liệu huấn luyện được chia thành năm phần, trong lần lặp đầu tiên, phần thứ nhất sẽ được sử dụng để kiểm tra mô hình, và các phần còn lại được sử dụng để huấn luyện. Tương tự, trong lần lặp lại thứ hai, phần thứ hai được sử dụng làm tập thử nghiệm trong khi những phần còn lại đóng vai trò là tập huấn luyện. Quá trình này được lặp đi lặp lại cho đến khi tất cả các phần đều được sử dụng để thử nghiệm. Vì chúng tôi không biết cuộc trò chuyện sẽ bắt đầu với loại câu hỏi nào nên chúng tôi đã thêm từng kịch bản vào tệp stories. yml với một ý định duy nhất được đề cập trong tệp domain.yml. Quy trình và chính sách sẽ nằm trong tệp config.yml. Việc xử lý dữ liệu đầu vào được chúng tôi lưu trữ trong tệp preprocesser.py. Vì NEU có đến 19 khoa/viện, vậy nên sẽ là một khối lượng câu hỏi khổng lồ nếu người dùng có những thắc mắc liên quan chi tiết đến từng chuyên ngành. Để giải quyết vấn đề này, chúng tôi đang tiến hành xây dựng hệ thống Chatbot với một Chatbot lớn của Trường Đại học Kinh tế Quốc dân và các Chatbot nhỏ cho từng khoa/viện. Do đó, tin nhắn từ người dùng sẽ đi qua một bộ lọc được sử dụng để phân loại khoa/viện có trong tin nhắn bằng cách ánh xạ các thực thể được Rasa NLU trích xuất với danh sách tên các khoa, sau đó hệ thống sẽ tự động chuyển đến Chatbot của khoa/viện này. Các cuộc hội thoại không chỉ đơn thuần là tin nhắn văn bản khi bot được xây dựng trên nền tảng Messenger; ngoài văn bản ra, nền tảng này còn cho phép bạn gửi đa phương tiện như âm thanh, video và hình ảnh (Facebook for Developer, 2020). Do đó, chúng tôi đã tùy chỉnh đầu vào của Facebook Messenger để giúp bot của chúng tôi đưa ra nội dung trả lời hợp lý nhất có thể, công việc này được đặt tại CustomFBInput.py. Ví dụ: khi mọi người gửi cho bot một hình ảnh, sẽ rất khó để bot có thể hiểu được nội dung của hình ảnh này; do đó, đầu vào của Facebook Messenger cần được tùy chỉnh để phát hiện loại tin nhắn. Bằng cách này, URL hình ảnh được chuyển đổi thành dạng tin nhắn mà bot của chúng tôi có thể hiểu được. Do đó, mô hình của chúng tôi có thể xác định các hành động thích hợp để trả lời người dùng như gửi lại các biểu tượng hoặc tin nhắn để thông báo cho người dùng về vấn đề này. 4.2. Kết quả thử nghiệm Trong nghiên cứu của Shawar et al. (2007), để đo lường chất lượng của từng câu trả lời, chúng ta cần phân loại các câu trả lời theo đánh giá bởi con người được thực hiện một cách độc lập về “tính hợp lý”: câu trả lời hợp lý, câu trả lời bất thường nhưng dễ hiểu, hoặc câu trả lời vô nghĩa. Sau ba tháng đưa Chatbot NEU vào hoạt động, chúng tôi đã tiến hành một cuộc khảo sát trên Facebook về mức độ hài lòng của người dùng và kết quả sẽ được thảo luận trong phần 5. Trong phần này, Chatbot của chính tôi sẽ được đánh giá thông qua các chỉ số như: độ chính xác (precision) (1), độ đo F1 (3), và độ chuẩn xác (accuracy) (4). Một dự đoán chính xác (TP) là một kết quả mà mô hình dự đoán chính xác là tích cực. Tương tự như vậy, một dự đoán chính xác tiêu cực (TN) là kết quả khi mô hình dự đoán chính xác là tiêu cực. Một dự đoán sai lệch tích cực (FP) xuất hiện khi bạn dự đoán một quan sát thuộc về một lớp trong khi thực tế nó không phải thuộc lớp đó. Và một dự đoán sai lệch tiêu cực (FN) là một kết quả trong đó mô hình dự đoán không chính xác lớp tiêu cực. 136
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ Precision = (1) = (2) = (3) = (4) Phân loại câu hỏi được đánh giá bằng độ đo F1, độ chuẩn xác và độ chính xác qua xác thực chéo. Bảng 2 hiển thị điểm trung bình vi mô trên mô hình đã chọn. Bảng 2. Phân loại câu hỏi Chỉ số Điểm F1-score 0.976 Accuracy 0.971 Precision 0.979 5. ĐÁNH GIÁ Sau ba tháng kể từ khi Chatbot này được tích hợp vào Fanpage tư vấn tuyển sinh chính thức của Trường Đại học Kinh tế Quốc dân trên nền tảng Facebook, hệ thống đã nhận được tổng cộng hơn 50.000 câu hỏi từ phía học sinh và các bậc phụ huynh liên quan đến công tác tuyển sinh của NEU. Chi tiết, xét trên tất cả các câu hỏi được gửi đến (bao gồm cả những thắc mắc không liên quan), Chatbot đã đưa ra các câu trả lời có mức độ phù hợp với câu hỏi đạt 90,29%. Tuy nhiên, nếu chỉ tính riêng những câu hỏi có nội dung liên quan trực tiếp tới chương trình tuyển sinh, độ tương thích giữa câu hỏi và câu trả lời được đưa ra bởi Chatbot lên tới 95,79%. Chúng tôi cũng đã thực hiện một cuộc khảo sát trên Facebook về mức độ hài lòng của người dùng, kết quả cho thấy gần 98,61% trong tổng số 1.000 người đã đưa ra phản hồi cảm thấy hài lòng với câu trả lời của Chatbot này. Ở khía cạnh khác, Chatbot mang lại thêm một số lợi ích, chẳng hạn như số lượng cán bộ tư vấn tuyển sinh có thể được cắt giảm 80%, nhưng chất lượng dịch vụ vượt trội vẫn được đảm bảo. Bot của chúng tôi có thể trả lời tất cả các câu hỏi một cách tự động vào bất cứ thời điểm nào mà không cần tới sự can thiệp của con người. Hơn nữa, tất cả các câu trả lời của Chatbot phải phù hợp với định dạng và nội dung đã được xác định trước. Vì vậy, thông tin đảm bảo được tính nhất quán, không có lỗi ngữ pháp hay thiếu sót. Với tất cả các yếu tố nêu trên, Chatbot này sẽ rất phù hợp để được áp dụng vào công tác tuyển sinh cho bất kỳ trường đại học/cao đẳng nào, đặc biệt là Trường Đại học Kinh tế Quốc dân, giúp giảm bớt được gánh nặng cho công việc tuyển sinh hàng năm. 137
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 6. KẾT LUẬN VÀ DỰ ĐỊNH TRONG TƯƠNG LAI NEU-Chatbot được phát triển với mục đích hỗ trợ các sinh viên tương lai và bậc phụ huynh giải đáp những thắc mắc liên quan đến vấn đề tuyển sinh của Trường Đại học Kinh tế Quốc dân. Cách tiếp cận này mang đến cho người dùng một giải pháp công nghệ hiện đại và đang phát triển để có các phản hồi tối ưu theo thời gian thực trong lĩnh vực giáo dục. Với giải pháp này, khối lượng công việc của Ban tư vấn tuyển sinh sẽ được giải phóng và tỷ lệ không nhất quán giữa các câu trả lời hay thông tin tuyển sinh sai lệch sẽ giảm thiểu đáng kể. Ngoài ra, bằng cách áp dụng các kỹ thuật của chúng tôi, mọi người có thể dễ dàng xây dựng một Chatbot của riêng mình với nền tảng Rasa và tùy chỉnh các hoạt động của Chatbot để phù hợp với mục đích của họ. Dựa trên kết quả đầy hứa hẹn trong nghiên cứu này, chúng tôi có thể tận dụng công nghệ để đạt được mức năng suất mới, triển khai các công cụ kỹ thuật số hữu ích để mở rộng cơ hội học tập, đồng thời tăng cường sự hỗ trợ và tương tác với sinh viên. Chatbot có thể giúp sinh viên tiếp cận thông tin một cách dễ dàng, học hỏi nhanh hơn và có cơ hội thực hành những gì họ học được. NEU-Chatbot đã đạt độ chính xác 97,1% trên bộ dữ liệu thử nghiệm, và thực tế Chatbot này đã được ứng dụng để tuyển sinh vào Trường Đại học Kinh tế Quốc dân tại Việt Nam. Tuy nhiên, nội dung của tệp nlu.yml cần được cập nhật thủ công qua mỗi năm với các loại câu hỏi và nội dung mới để bot có thể thích ứng được với những thông tin của năm học mới và giải quyết những sự hiểu lầm xảy ra trong quá trình tư vấn. Việc huấn luyện bot kỹ lưỡng nhất có thể sẽ cải thiện độ chính xác của nó, và theo thời gian, hiệu suất của Chatbot sẽ được nâng cao. Trong tương lai, chúng tôi dự định sẽ xây dựng một mô hình giống như FastText, một thư viện mã nguồn mở, nhẹ và miễn phí cho phép người dùng tìm hiểu các cách biểu diễn và phân loại văn bản. Theo Joulin et al. (2016), FastText đã được huấn luyện với hơn một tỷ từ vựng trong vòng chưa đầy mười phút bằng cách sử dụng một CPU đa lõi tiêu chuẩn và phân loại nửa triệu câu thuộc 312 nghìn lớp trong vòng chưa đầy một phút. Bên cạnh việc sử dụng WhitespaceTokenizer, chúng tôi sẽ nghiên cứu một thuật toán tách từ dành riêng cho tiếng Việt để thu được kết quả tốt nhất. Hơn nữa, chúng tôi đang phát triển NEU-Chatbot phiên bản 2 với trợ lý giọng nói sử dụng nền tảng Google Assistant, với mục đích đem lại trải nghiệm tiện lợi hơn cho người sử dụng. Và cuối cùng, nhóm nghiên cứu cũng đang nỗ lực phát triển tính năng kiểm tra MBTI cho NEU-Chatbot, điều này sẽ giúp sinh viên hiểu được loại hình tính cách của mình và đề xuất cho họ ngành học phù hợp. TÀI LIỆU THAM KHẢO 1. Blog Rasa (2020), Introducing DIET: state-of-the-artarchitecture that outperform fine-tuning BERT and is 6X faster to train. Retrieved from https://blog.rasa.com/introducing-dual-intent- and-entity-transformer-diet-state-of-theart-performance-on-a-lightweight-architecture/. Accessed June 5, 2021. 2. Bocklisch, T., Faulkner, J., Pawlowski, N., & Nichol, A. (2017), Rasa: Open source language understanding and dialogue management. arXiv preprint arXiv:1712.05181. 3. Facebook for Developer. (2020), Conversation Components. Retrieved from https:// developers.facebook.com/docs/messenger-platform/introduction/conversation components/. Accessed June 5, 2021. 138
CHẤT LƯỢNG ĐÀO TẠO ĐẠI HỌC CHÍNH QUY TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ 4. Følstad, A., & Brandtzæg, P. B. (2017), Chatbots and the new world of HCI. Interactions, 24(4), pp. 38 - 42. 5. Hill, J., Ford, W. R., & Farreras, I. G. (2015), Real conversations with artificial intelligence: A comparison between human-human online conversations and human-Chatbot conversations. Computers in human behavior, 49, pp. 245 - 250. 6. Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016), Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759. 7. Prashant, B. P., Anil, M. S., & Dilip, K. M. (2017), Online chatting system for college enquiry using knowledgeable database. 8. Rasa (2021), Connecting to Messaging and Voice Channels. Retrieved from https://rasa.com/ docs/rasa/messagingand-voice-channels. Accessed June 5, 2021. 9. Rasa (2021), Domain. Retrieved from https://rasa.com/docs/rasa/domain Accessed June 5, 2021. 10. Rasa (2021), Tuning your NLU model. Retrieved from https://rasa.com/docs/rasa/tuning- your-model. Accessed June 5, 2021. 11. Rafla, A., & Kennington, C. (2019), Incrementalizing RASA’s open-source natural language understanding pipeline. arXiv preprint arXiv:1907.05403. 12. Rana, M. (2019), Eaglebot: A Chatbot based multi-tier question answering system for retrieving answers from heterogeneous sources using BERT. 13. Sharma, R. K., & Joshi, M. (2020), An analytical study and review of open source Chatbot framework, Rasa. International Journal of Engineering Research and, 9(06). 14. Shawar, B. A., & Atwell, E. (2007, April), Different measurement metrics to evaluate a Chatbot system. In Proceedings of the workshop on bridging the gap: Academic and industrial research in dialog technologies, pp. 89 - 96. 15. Shawar, B. A., & Atwell, E. (2007, January), Chatbots: are they really useful?. In Ldv forum, Vol. 22, No. 1, pp. 29 - 49. 16. Thakkar, J., Raut, P., Doshi, Y., & Parekh, K. (2018), Erasmus-AI Chatbot. Int. J. Comput. Sci. Eng, 6(10), pp. 498 - 502. 17. Tsui, K. C., Kaiser, M. J., & Liu, J. (2013). Distributed proxy server management: A self- organized approach. 18. Windiatmoko, Y., Hidayatullah, A. F., & Rahmadi, R. (2020), Developing FB Chatbot based on deep learning using RASA framework for university enquiries. arXiv preprint arXiv:2009.12341. 19. Wu, E. H. K., Lin, C. H., Ou, Y. Y., Liu, C. Z., Wang, W. K., & Chao, C. Y. (2020), Advantages and constraints of a hybrid model K-12 e-learning assistant Chatbot. IEEE Access, 8, 77788-77801. 139
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 16. TUYỂN SINH ĐẠI HỌC CHÍNH QUY TẠI TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN TRONG BỐI CẢNH CHUYỂN ĐỔI SỐ TOÀN CẦU ThS. Hoàng Thanh Hà* Tóm tắt Trong những năm gần đây, Trường Đại học Kinh tế Quốc dân đã thực hiện công tác tuyển sinh đại học chính quy theo các quy định của Bộ Giáo dục và Đào tạo (GD&ĐT) với quá trình xét tuyển theo ba phương thức: tuyển thẳng theo quy chế của Bộ GD&ĐT, xét tuyển kết hợp và xét tuyển bằng kết quả thi Trung học phổ thông quốc gia (THPTQG). Bài viết này tổng kết lại tình hình tuyển sinh đại học chính quy tại Trường Đại học Kinh tế Quốc dân, đưa ra một số nhận xét và đề xuất để hoàn thiện, phát triển hơn nữa công tác tuyển sinh của Trường, đặc biệt là trong bối cảnh chuyển đổi số là yêu cầu tất yếu. Từ khóa: Tuyển sinh; tự chủ tuyển sinh; xét tuyển kết hợp 1. ĐẶT VẤN ĐỀ Trong Luật Sửa đổi, bổ sung một số điều của Luật Giáo dục đại học có hiệu lực từ ngày 01/7/2019 ghi rõ một điểm mới căn bản là các trường đại học được tự chủ quyết định tuyển sinh, chủ động tìm các phương thức xét tuyển riêng cho trường phù hợp với năng lực đào tạo của từng trường. Từ năm 2015, công tác tuyển sinh chuyển đổi số là một trong những mục tiêu được quan tâm hàng đầu của Chính phủ Việt Nam, đặc biệt trong cuộc Cách mạng công nghiệp 4.0 (CMCN 4.0). Tháng 6/2020, Thủ tướng Chính phủ đã phê duyệt Chương trình chuyển đổi số quốc gia đến năm 2025 và định hướng đến năm 2030, đề xuất 8 lĩnh vực được ưu tiên hàng đầu trong triển khai thực hiện chuyển đổi số, trong đó có lĩnh vực giáo dục. Nằm trong hệ thống giáo dục quốc dân, giáo dục đại học chịu ảnh hưởng lớn từ đại dịch COVID-19: các trường đại học phải đóng cửa và chuyển sang giáo dục trực tuyến; hoạt động nghiên cứu hoặc điều tra thực địa không thể thực hiện; đánh giá thi cử trực tuyến khó khăn với nguy cơ gian lận gia tăng; sinh viên khó thích nghi với cách học online và thiếu các điều kiện cơ sở vật chất máy tính và mạng, đặc biệt đối với sinh * Trường Đại học Kinh tế Quốc dân 140