GANCloth - Sáng tạo trang phục mang hoa văn, văn hóa Việt Nam

Chia sẻ: Mộ Dung Vân Thư | Ngày: | Loại File: PDF | Số trang:6

Thêm vào BST

Báo xấu

8
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu "GANCloth - Sáng tạo trang phục mang hoa văn, văn hóa Việt Nam" đề xuất một mô hình cải tiến bằng cách kết hợp Deep Matting và Neural Style Transfer (NST) nhằm khắc phục những hạn chế về kích thước của dữ liệu và thời gian huấn luyện. Kết quả thực nghiệm cho thấy mô hình đề xuất đã cải thiện được những hạn chế trên và đạt hiệu quả hơn so với phương pháp trước đó, bỏ qua được rào cản về mặt kích thước của dữ liệu và giảm thời gian huấn luyện. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: GANCloth - Sáng tạo trang phục mang hoa văn, văn hóa Việt Nam

GANCloth - SÁNG TẠO TRANG PHỤC MANG HOA VĂN, VĂN HÓA VIỆT NAM Phạm Hiếu Liêm*, Phạm Linh Đan, Đặng Tuấn Kiệt, Nguyễn Văn An Khoa Công nghệ Thông tin, Trường Đại học Công nghệ Thành phố Hồ Chí Minh GVHD: TS. Huỳnh Quốc Bảo TÓM TẮT Quần áo từ lâu đã trở thành một trong những biểu tượng của nền văn minh nhân loại. Thiết kế quần áo là một loại hình nghệ thuật kết hợp giữa tính thực tế và tính nghệ thuật. Công nghệ trí tuệ nhân tạo (AI) gần đây đã được áp dụng cho nhiều lĩnh vực, điều này cũng đang thu hút sự quan tâm ngày càng tăng trong ngành thời trang. Gần đây, nhóm tác giả Qiang Wu và các đồng sự [1] đã đề xuất mô hình ClothGAN áp dụng cho thời trang, tuy nhiên mô hình này vẫn còn hạn chế. Trong nghiên cứu này, chúng tôi đề xuất một mô hình cải tiến bằng cách kết hợp Deep Matting và Neural Style Transfer (NST) nhằm khắc phục những hạn chế về kích thước của dữ liệu và thời gian huấn luyện. Kết quả thực nghiệm cho thấy mô hình đề xuất đã cải thiện được những hạn chế trên và đạt hiệu quả hơn so với phương pháp trước đó, bỏ qua được rào cản về mặt kích thước của dữ liệu và giảm thời gian huấn luyện. Từ khóa: Deep Matting, GANCloth, Neural Style Transfer, Sáng tạo trang phục mang yếu tố Việt Nam. 1. GIỚI THIỆU 1.1 Giới thiệu bài toán Trang phục là một trong những hiểu tượng văn hoá của nhiều quốc gia. Đặc biệt ở Việt Nam có nhiều loại trang phục đến từ các dân tộc khác nhau đã tạo nên một bức tranh vô cùng phong phú. Việc kế thừa và phát triển các loại trang phục đã thu hút được nhiều nhà thiết kế hiện nay. Bên cạnh đó, sự phát triển của Trí tuệ nhân tạo (AI) đã góp phần làm thay đổi tư duy và phong cách thiết kế theo tư duy truyền thống. Với các công nghệ như thị giác máy tính, NLP, … đã thúc đẩy các nhà thiết kế thời trang ứng dụng các công nghệ để phát triển các sản phẩm mới, hiện đại. Thuật toán chuyển kiểu (Style transfer) đã được đề xuất vào năm 2016 [4] cho phép kết hợp nội dung của một hình ảnh với phong cách của một hình ảnh khác để tạo ra những bức ảnh mới có cả nội dung và phong cách dựa trên các đặc điểm khác nhau của hai hình ảnh. Bên cạnh đó, phương pháp này có thể điều chỉnh các trọng số của nội dung và phong cách trong hình ảnh mới. GAN [5] là một trong những mô hình học sâu được sử dụng rộng rãi trong lĩnh vực nghệ thuật và thời trang. Tuy nhiên, mô hình ClothGAN của tác giả Qiang Wu và các đồng sự [1] vẫn còn nhiều hạn chế, đặc biệt là kích thước của dữ liệu tương đối nhỏ, kích thước chỉ có 28x28 px và thời gian huấn luyện mô hình khá lâu. Do đó, trong nghiên cứu này, chúng tôi đã kết hợp mô hình Deep Matting [2] và Neural Style Transfer (NST) 9
[4] để cải tiến mô hình ClothGAN. Kết quả thực nghiệm cho thấy rằng mô hình đề xuất đã giảm thiểu được những hạn chế trên, đạt hiệu quả về thời gian huấn luyện và có thể ứng dụng vào thực tế, so với phương pháp trước đó. 1.2 Các lĩnh vực ứng dụng Mô hình cải tiến này có thể được áp dụng trong lĩnh vực thiết kế thời trang và nghệ thuật nhằm tạo ra các bức tranh, phong cảnh hoặc trang phục độc đáo và ấn tượng. Ngoài ra, có thể dùng làm đề tài cho hướng Nghiên cứu khoa học tiếp theo, có thể tái sử dụng và nâng cấp mô hình bằng những mô hình, công nghệ mới, hiện đại. 2. CÁC CÔNG TRÌNH LIÊN QUAN 2.1. ClothGAN (Generation of fashionable Dunhuang clothes using generative adversarial networks) Trong những năm gần đây, với sự phát triển nhanh chóng của học sâu, một số nhà nghiên cứu đã bắt đầu nghiên cứu lĩnh vực nghệ thuật và thời trang dựa trên mô hình GAN [5] và cho ra mô hình ClothGAN [1] với sự kết hợp của mô hình GAN và thuật toán chuyển kiểu NST [4]. Với sự sáng tạo trong quần áo từ GAN và tích hợp nội dung cũng như phong cách từ thuật toán chuyển kiểu; mô hình ClothGAN [1] được phát triển để tận dụng khả năng “sáng tạo” của GAN với việc trích xuất nội dung và kết cấu hình ảnh của CNN [6]. Mô hình ClothGAN cho phép thiết kế các mẫu quần áo mới và bổ sung các yếu tố của phong cách quần áo Dunhuang [1]. Mô hình ClothGAN bao gồm hai mô-đun: mô-đun GAN và một mô-đun chuyển kiểu được thể hiện như trong Hình 1. Tuy nhiên, nghiên cứu thiết kế trang phục hiện nay dựa trên ClothGAN còn nhiều chỗ chưa hoàn thiện: (1) Hiếm khi tìm thấy trên các mô hình khác ngoại trừ mô hình GAN; (2) Các sản phẩm quần áo được tạo ra bằng các phương pháp này tương đối đơn giản và không đạt yêu cầu mặt thẩm mỹ và bị hạn chế bởi kích thước 28x28 pixel (hình 2); (3) Yếu tố văn hóa Việt Nam chưa được ứng dụng nhiều trong các mô hình học máy; (4) Kết quả đầu ra của mô hình ClothGAN còn bị hạn chế về mặt kích thước; (5) Tốc độ sinh ảnh kết quả còn hạn chế về mặt thời gian. Hình 1. Mô hình ClothGAN Hình 2. Ảnh được sinh từ mô hình ClothGAN kích thước 28x28 pix 10
2.2. Thuật toán chuyển kiểu (Style transfer algorithm) Một hình ảnh chứa thường bao gồm cả nội dung và phong cách, các phong cách và nội dung không giống nhau được lấy từ các bức ảnh khác nhau. Thuật toán chuyển kiểu (Style transfer algorithm) lấy kiểu của ảnh và nội dung của ảnh để có được ảnh mới có cả kiểu của ảnh và nội dung của ảnh . Khi huấn luyện bộ phân loại CNN: một vài lớp đầu tiên sẽ trích xuất thông tin kiểu của hình ảnh , một vài lớp cuối sẽ trích xuất thông tin nội dung . Khi áp dụng kiểu của hình ảnh (style) vào nội dung của hình ảnh (content), thuật toán gradient descent được sử dụng để cập nhật nội dung của hình ảnh mục tiêu (target). Do đó, lớp tích chập nông (shallow convolution layer) sẽ cho giá trị tương tự như hình , và lớp tích chập sâu (deeper convolution layer) sẽ cho giá trị tương tự với . Vì vậy đảm bảo hình ảnh được tạo ra có phong cách tương tự với và nội dung tương tự với [4]. 2.2. Deep Matting Deep CNN matting (DCNN) [2] là một trong những mạng deep matting ban đầu được phát triển cho bài toán matting ảnh tự nhiên. Tuy nhiên, mô hình này có thể được coi là tinh chỉnh các bản đồ alpha từ các ước tính ban đầu của các phương pháp tiếp cận thông thường thay vì đưa ra ước tính trực tiếp từ một hình ảnh đầu vào. Giải pháp làm mờ thực tế hơn có thể được tìm thấy trong Deep Image Matting (DIM)[3]. Theo cách tiếp cận này, vấn đề làm mờ được đặt ra là dịch hình ảnh, trong đó hình ảnh RGB được tăng cường bằng bản đồ ba (trimap) để tạo ra bản đồ kênh alpha đơn. Khi bắt đầu mô hình này, mạng VGG19 [7] được sử dụng để mã hóa hình ảnh đầu vào tự nhiên thành một tập hợp các bản đồ đặc trưng nhỏ hơn, bản đồ này biến thành bản đồ alpha được mở rộng trong mạng giải mã tiếp theo. Điều đáng chú ý là DIM sử dụng một mạng sàng lọc bổ sung trên cấu trúc mạng bộ mã hóa-giải mã (EnDecNet) và các tác giả đã đề cập rằng việc sàng lọc bổ sung có lợi để tăng cường các bản đồ alpha được làm mịn được tạo ra từ kết quả ban đầu. 3. XÂY DỰNG MÔ HÌNH 3.1. Cơ sở lý thuyết 3.1.1. Neural Style Transfer Mô-đun chuyển kiểu sử dụng trực tiếp hình ảnh được truyền vào (input) làm hình ảnh nội dung (content) và hình ảnh chứa văn hóa Việt Nam cụ thể ở đây chúng tôi sử dụng tranh Đông hồ (di sản văn hóa phi vật thể Việt Nam) làm nguồn dữ liệu cho hình ảnh kiểu (style). Ngoài ra, chúng tôi cũng đã cải thiện thuật toán bằng cách thêm mặt nạ (mask) vào để thuật toán Style Transfer chỉ tập trung vào khu vực cần được Style Transfer. Mô-đun khai thác các đặc điểm của các lớp khác nhau của CNN: đầu tiên một vài lớp trích xuất các kiểu và một vài lớp cuối cùng trích xuất nội dung. Chúng tôi kết hợp nội dung và phong cách trong các hình ảnh khác nhau bằng cách giảm thiểu mất nội dung (Loss Content) và mất kiểu (Loss Style) bằng cách sử dụng Stochastic Gradient Descent (SGD). Chúng tôi áp dụng hình ảnh để trích xuất kiểu tranh Đông Hồ và hình ảnh cùng với mặt nạ (mask) tương ứng, lấy từ Deep Matting để trích xuất nội dung quần áo và tạo ra hình = Fusion ( , ). 11
Tổng mất (Total Loss): total( , , )= content( , )+ style( , ) Trong đó α và β là siêu tham số để điều chỉnh nội dung hình ảnh và tỷ lệ kiểu dáng. Mô-đun này có hai chức năng chính: (1) nó có thể trích xuất phần nội dung và phong cách từ hình ảnh và (2) nó có thể kết hợp phần nội dung và phong cách để tạo ra hình ảnh mới bằng cách đào tạo. 3.1.2. Deep Matting Mô hình sử dụng cùng một EnDecNet [2] được đề xuất trong DIM để tạo bản đồ alpha ban đầu (tức là Â’ trong Hình 3), bản đồ này sẽ được cung cấp cho RRN với hình ảnh RGB tổng hợp, Ic. RRN bao gồm hai mạng con được gọi là mạng phân tích tỷ lệ (S-Net) và mạng pha trộn (B-Net). Mục đích chính của S-Net là ghi lại độ mờ của trang phục lông thú một cách Hình 3. Mô hình DIM chính xác hơn. Ví dụ: một bộ quần áo có các sợi tóc mịn hoặc chất liệu vải voan có thể chỉ được coi là các đặc điểm hình ảnh có tần số cao nhưng ở quy mô lớn hơn, các chi tiết nhỏ này sẽ tốt hơn nếu được thể hiện với sự chuyển tiếp mượt mà. Nói cách khác, để thể hiện các chi tiết quần áo hiệu quả hơn, chúng ta cần một công cụ làm sắc nét hình ảnh đặc biệt có thể pha trộn các đặc điểm từ nhiều tỷ lệ khác nhau. Kết nối đệ quy trong một RCN có thể tạo hiệu ứng tăng kích thước của nhân bộ lọc cho phép chúng tôi thực hiện phân tích tỷ lệ này. Hình 4. Mô hình đề xuất - GANCloth 3.1.3. Công nghệ sử dụng - Computing Framework: phiên bản TensorFlow 2.11.0 - Phần cứng máy tính: Google Collab với GPU 16Gb. 3.2. Mô hình đề xuất Chúng tôi đề xuất mô hình GANCloth dựa trên mô hình ClothGAN đã có nhằm khắc phục những hạn chế tồn tại. Mô hình GANCloth tận dụng khả năng “phân vùng” nơi có chứa trang phục của Deep Matting với việc trích xuất nội dung và kết cấu hình ảnh của CNN. Mô hình đề xuất giúp cho việc thiết kế các mẫu quần áo mới và đặc biệt là bổ sung các yếu tố liên quan đến phong cách quần áo có yếu tố văn hóa cổ truyền Việt Nam. Như trong Hình 4, mô hình đề xuất bao gồm hai mô-đun: mô-đun Deep Matting và mô-đun chuyển kiểu (Style Transfer). Đầu vào của mô Hình 5. Kết quả của mô hình đề xuất 12
hình là một ảnh có chứa trang phục bất kỳ sau khi qua module Deep Matting, ta sẽ có được mask tương ứng; sau đó ta qua bước tiếp theo là module Style Transfer, tại mô-đun này sẽ nhận ảnh input và mask tương ứng và ảnh style (có chưa yếu tố văn hóa Việt Nam), ở đây chúng tôi sử dụng tranh Đám cưới Chuột (nằm trong tập tranh đông hồ); sau đó ta sẽ tiến hành training, mô hình được đánh giá dựa trên Loss total và output sẽ là ảnh có chứa trang phục mang yếu tố của tranh Đông Hồ như ở hình 5. 4. KẾT QUẢ THỰC NGHIỆM Chúng tôi đã cải thiện mô hình ClothGAN, loại bỏ giới hạn về kích thước của dữ liệu và cập nhật phiên bản tensorflow mới nhất để giảm thời gian huấn luyện xuống gấp 3 lần so với đề xuất của tác giả. Từ dữ liệu ảnh input được lấy trong tập dữ liệu Fashionista với mặt nạ (mask) đã được gán nhãn trước và với ảnh kiểu (style) là tranh Đám Cưới Chuột được sưu tầm trên internet, Chúng tôi đã huấn luyện mô hình với 300 epochs, và nhận được kết quả như hình 5, hình bên trái là ảnh input của mô hình, hình style là Bức tranh Đông Hồ “Đám Cưới Chuột”, sau khi cho vào mô hình đề xuất của chúng tôi, ta sẽ nhận được ảnh output là ảnh có kích thước 360 x 560 px và thời gian để hoàn thành trong khoảng 12 phút. Kết quả nhận được đã khắc phục được những hạn chế của mô hình cũ về mặt kích thước dữ liệu và thời gian huấn luyện mô hình. 5. KẾT LUẬN Bài báo đề xuất mô hình cải tiến GANCloth dựa trên mô hình Clothing-GAN bằng phương pháp kết hợp Deep Matting và mô hình chuyển giao phong cách NST, tạo kiểu quần áo kết hợp giữa vẻ đẹp truyền thống với phong cách hiện đại, đồng thời bổ sung yếu tố nghệ thuật truyền thống của Việt Nam. Kết quả thực nghiệm cho thấy mô hình đề xuất hiệu quả hơn so với phương pháp trước đó, bỏ qua được rào cản về mặt kích thước của dữ liệu và giảm thời gian huấn luyện. Tuy nhiên, hình ảnh được tạo ra chưa có độ phân giải cao và cần tìm phương pháp tốt hơn để xử lý nền phức tạp và cải tiến mô hình. Chúng tôi sẽ tiếp tục thu thập và gắn nhãn tập dữ liệu để tạo ra các mask có độ phân giải cao, tổng hợp, phân loại các hoa văn, văn hóa của Việt Nam và tạo ra tập dữ liệu mã nguồn mở cho các nhà nghiên cứu. Công nghệ AI đang thay đổi mạnh mẽ bản chất của các quy trình sáng tạo và chúng ta cần hướng tới các mối quan hệ có ý nghĩa hơn giữa máy tính và sự sáng tạo bằng cách thêm vào văn hóa truyền thống. TÀI LIỆU THAM KHẢO 1. Qiang Wu, Baixue Zhu, Binbin Yong, Yongqiang Wei, Xuetao Jiang, Rui Zhou & Qingguo Zhou (2021). ClothGAN: Generation of fashionable Dunhuang clothes using generative adversarial networks. Connection Science, 33:2, 341-358, DOI: 10.1080/09540091.2020.1822780 2. Dongjoe Shin, Yu Chen (2019). Deep Garment Image Matting for a Virtual Try-on System. IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), Seoul, Korea (South), 2019, pp.3141-3144, doi: 10.1109/ICCVW.2019.00384 PID:6097537 3. Ning Xu, Brian Price, Scott Cohen, and Thomas Huang (2017). Deep Image Matting. https://doi.org/10.48550/arXiv.1703.03872 4. Neural Style Transfer NetWork. https://www.tensorflow.org/tutorials/generative/style_transfer 13
5. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio (2014). Generative Adversarial Networks. Communications of the ACM, November 2020, Vol.63 No.11, Pages 139-144 10.1145/3422622. 6. Keiron O'Shea, Ryan Nash (2015). An Introduction to Convolutional Neural Networks. https://doi.org/10.48550/arXiv.1511.08458. 7. Karen Simonyan, Andrew Zisserman (2014). Very Deep Convolutional Networks for Large- Scale Image Recognition. https://doi.org/10.48550/arXiv.1409.1556. 14