Tối ưu hóa thông tin lẫn nhau để giảm thiểu tình trạng quên thảm khốc trong học liên tục: Cách tiếp cận lý thuyết thông tin
DOI:
https://doi.org/10.54939/1859-1043.j.mst.106.2025.129-136Từ khóa:
Học liên tục; Lý thuyết thông tin; Thông tin lẫn nhau; Entropy; Quên thảm khốc.Tóm tắt
Học liên tục đối mặt với thách thức quên thảm khốc, khi mô hình mất "kiến thức" từ các tác vụ trước khi học tác vụ mới. Trong bài báo này, chúng tôi đề xuất CMIP, một phương pháp dựa trên lý thuyết thông tin, sử dụng tối ưu hóa thông tin lẫn nhau và chính quy hóa entropy nhằm duy trì kiến thức cũ, tạo biểu diễn tiềm ẩn nén tối ưu. CMIP tích hợp một mạng neuron phụ để ước lượng MI, áp dụng chiến lược replay memory, trong đó mỗi mini-batch huấn luyện được xây dựng với tỷ lệ 50% mẫu của tác vụ hiện tại và 50% mẫu được lấy từ bộ nhớ của tác vụ trước. Thực nghiệm được thực hiện trên tập dữ liệu MNIST-Split và CIFAR-100-Split cho bài toán Class-incremental learning (Class-IL). Trên MNIST-Split, CMIP đạt được độ chính xác trung bình 90.97% và mức quên trung bình chỉ 8.81%, vượt trội so với các phương pháp hiện đại như Elastic Weight Consolidation (EWC) và Gradient Episodic Memory (GEM). Phương pháp có thể áp dụng cho học liên tục trong các ứng dụng thực tế như robot học và xử lý dữ liệu thời gian thực.
Tài liệu tham khảo
[1]. R. M. French, “Catastrophic forgetting in connectionist networks,” Trends in Cognitive Sciences, Vol. 3, No. 4, pp. 128–135, (1999). https://doi.org/10.1016/S1364-6613(99)01294-2
[2]. J. Kirkpatrick et al., “Overcoming catastrophic forgetting in neural networks,” Proceedings of the National Academy of Sciences, Vol. 114, No. 13, pp. 3521–3526, (2017).
[3]. D. Lopez-Paz and M. Ranzato, “Gradient episodic memory for continual learning,” Advances in Neural Information Processing Systems, Vol. 30, pp. 6467–6476, (2017).
[4]. N. Tishby, F. C. Pereira, and W. Bialek, “The information bottleneck method,” arXiv preprint, physics/0004057, (2000). https://arxiv.org/abs/physics/0004057
[5]. M. I. Belghazi et al., “Mutual Information Neural Estimation,” International Conference on Machine Learning (ICML), (2020). https://arxiv.org/abs/1801.04062
[6]. T. Chen et al., “A simple framework for contrastive learning of visual representations,” Proceedings of the 37th International Conference on Machine Learning, Vol. 119, pp. 1597–1607, (2020).
[7]. Y. Polyanskiy and Y. Wu, “Information theory and deep learning: A modern perspective,” Annual Review of Statistics and Its Application, Vol. 11, pp. 101–125, (2024).
[8]. T. Hospedales et al., “Meta-learning in neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, No. 9, pp. 5149–5169, (2022).
[9]. Z. Mai et al., “Online Continual Learning in Image Classification: An Empirical Survey,” Neurocomputing, Vol. 512, pp. 177–196, (2022). https://doi.org/10.1016/j.neucom.2021.8.811
[10]. G. M. van de Ven, T. Tuytelaars, and A. S. Tolias, “Three types of incremental learning,” Nature Machine Intelligence, (2022). https://doi.org/10.1038/s42256-022-00568-3