Nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh bằng học sâu

Huỳnh Văn Huy; Nguyen Thi Thanh Tan; Ngô Quốc Tạo

doi:10.54939/1859-1043.j.mst.90.2023.140-149

Các tác giả

Huỳnh Văn Huy Trường Đại học Lạc Hồng
Nguyễn Thị Thanh Tân (Tác giả đại diện) Trường Đại học Điện lực
Ngô Quốc Tạo Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

DOI:

https://doi.org/10.54939/1859-1043.j.mst.90.2023.140-149

Từ khóa:

Phát hiện; Nhận dạng; Đặc trưng; Xác suất; Độ chính xác.

Tóm tắt

Bài báo này đề xuất một phương pháp hiệu quả để nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh. Phương pháp được đề xuất dựa trên ý tưởng kết hợp ba luồng xử lý đồng thời trong một công đoạn nhận dạng, bao gồm: (i) Nhận dạng (dự đoán) chuỗi ký tự từ hình ảnh; (ii) Xử lý ngữ cảnh; (iii) Hợp nhất và hiệu chỉnh lỗi. Hiệu quả của phương pháp được kiểm nghiệm trên hai tập dữ liệu ảnh ngoại cảnh được thu thập từ thực tế VinText và VnSceneText. Các kết quả thực nghiệm cho thấy phương pháp có khả năng phát hiện được các văn bản có hình dạng và kích thước bất kỳ với độ chính xác cao và ổn định. Cụ thể, phương pháp đạt độ chính xác mức từ (word accuracy), độ chính xác mức ký tự (character accuracy) là (81.87%, 93.02%) và (82.56%, 94.33%) lần lượt trên hai tập dữ liệu thử nghiệm.

Tài liệu tham khảo

[1]. B. Shi, X. Bai, and C. Yao, “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text”.

[2]. W. Liu, C. Chen, K.-Y. K. Wong, Z. Su, and J. Han, “STAR-Net: A spatial attention residue network for scene text recognition,” in Proc. Brit. Mach. Vision Conf. (BMVC). BMVA Press, pp. 43.1–43.13, (2016).

[3]. W. Liu, C. Chen, and K.-Y. K. Wong, “Char-net: A characteraware neural network for distorted scene text recognition,” in Proc. AAAI Conf. on Artif. Intell., (2018).

[4]. P. He, W. Huang, Y. Qiao, C. C. Loy, and X. Tang, “Reading scene text in deep convolutional sequences,” in Proc. AAAI Conf. on Artif. Intell., (2016).

[5]. F. Borisyuk, A. Gordo, and V. Sivakumar, “Rosetta: Large scale system for text detection and recognition in images,” in Proc. ACM SIGKDD Int. Conf. on Knowledge Discovery & Data Mining, pp. 71–79, (2018).

[6]. C.-Y. Lee and S. Osindero, “Recursive recurrent nets with attention modeling for OCR in the wild,” in Proc. IEEE Conf. on Comp. Vision and Pattern Recognit., pp. 2231–2239, (2016).

[7]. J. Wang and X. Hu, “Gated recurrent convolution neural network for OCR,” in Proc. Adv. in Neural Inf. Process. Syst., pp. 335–344, (2017).

[8]. Y. Liu, Z. Wang, H. Jin, and I. Wassell, “Synthetically supervised feature learning for scene text recognition,” in Proc. Eur. Conf. on Comp. Vision (ECCV), pp. 435–451, (2018).

[9]. M. Liao, J. Zhang, Z. Wan, F. Xie, J. Liang, P. Lyu, C. Yao, and X. Bai, “Scene text recognition from two-dimensional perspective,” ArXiv, vol. abs/1809.06508, (2018).

[10]. Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun, "Deep Residual Learning for Image Recognition", https://doi.org/10.48550/arXiv.1512.03385, (2015).

[11]. Z. Wan, F. Xie, Y. Liu, X. Bai, and C. Yao, “2D-CTC for scene text recognition,” (2019) .

[12]. K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Proc. IEEE Conf. on Comp. Vision and Pattern Recognit. (CVPR), pp. 770–778, (2015).

[13]. F. Yin, Y.-C. Wu, X.-Y. Zhang, and C.-L. Liu, “Scene text recognition with sliding convolutional character models,” arXiv preprint arXiv:1709.01727, (2017).

[14]. Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang, "Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition", 2021 arXiv:2103.06495, https://doi.org/10.48550/arXiv.2103.06495, (2021).

[15]. N. Nguyen et al., "Dictionary-guided Scene Text Recognition," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021, pp. 7379-7388, doi: 10.1109/CVPR46437.2021.00730.

[16]. N. T. Pham, V. D. Pham, Q. Nguyen-Van, B. H. Nguyen, D. N. Minh Dang and S. D. Nguyen, "Vietnamese Scene Text Detection and Recognition using Deep Learning: An Empirical Study," 6th International Conference on Green Technology and Sustainable Development (GTSD), Nha Trang City, Vietnam, pp. 213-218, (2022), doi: 10.1109/GTSD54989.2022.9989248

[17]. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, "Attention Is All You Need", https://doi.org/10.48550/arXiv.1706.03762, 2023.

[18]. Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang, "UNet++: A Nested U-Net Architecture for Medical Image Segmentation", https://doi.org/10.48550/arXiv.1807.10165, 2018.

Nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh bằng học sâu

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM