Ứng dụng Python và machine learning trong xử lý và phân loại dữ liệu xuất nhập khẩu
Tóm tắt
Dữ liệu xuất nhập khẩu tại Việt Nam đang gia tăng cả về quy mô và độ phức tạp, tạo ra thách thức lớn trong việc chuẩn hóa và phân loại thông tin khai báo hải quan. Bài viết đề xuất quy trình xử lý dữ liệu tự động hóa sử dụng ngôn ngữ lập trình Python, nhằm nâng cao hiệu quả và tính nhất quán trong phân tích thông tin khai báo hải quan. Tập dữ liệu đầu vào gồm hơn 10.000 bản ghi xuất nhập khẩu thực tế, được xử lý qua các bước kỹ thuật như: chuẩn hóa tên hàng, quy đổi đơn vị tính, tính toán chỉ tiêu định lượng và gán nhãn nhóm sản phẩm dựa trên từ khóa.
Kết quả cho thấy quy trình này vận hành hiệu quả trên tập dữ liệu có quy mô vừa và tính phức tạp cao, đồng thời đảm bảo độ chính xác và tính đồng nhất trong phân loại nhóm sản phẩm. Trên cơ sở đó, nhóm tác giả đề xuất tích hợp mô hình học máy như công cụ hỗ trợ để nâng cao khả năng khái quát hóa và thích ứng với các trường hợp ngoại lệ, khi tên hàng không được chuẩn hóa và thay đổi liên tục theo thực tiễn thương mại quốc tế.
Các tài liệu tham khảo
Kelvin Kelvin, Wahidin Wahab, and Meirista Wulandari, “Computer resource utilization analysis for microsoft excel and python in data processing”, Engineering, Mathematics and Computer Science Journal (EMACS), Volume 6, Issue 2, pp. 137 - 142, 2024. DOI: 10.21512/emacsjournal.v6i2.11736.
Mohamed Fakhry Mansour, Tarek Aly, and Mervat Gheith, “Python based end user computing framework to empowering excel efficiency”, International Journal for Research in Applied Science and Engineering Technology, Volume 12, Issue 4, pp. 2719 - 2729, 2024. DOI: 10.22214/ ijraset.2024.60097.
Raymond R. Panko and Richard P. Halverson Jr., “An experiment in collaborative spreadsheet development”, Journal of the Association for Information Systems, Volume 2, No. 1, pp. 1 - 31, 2001. DOI: 10.17705/1jais.00016.
Raymond R. Panko, “Thinking is bad: Implications of human error research for spreadsheet research and practice”, European Spreadsheet Risk Interest Group, 2007. DOI: 10.48550/arXiv.0801.3114.
Alexandros Nikolaos Ziogas, Timo Schneider, Tal Ben-Nun, Alexandru Calotoiu, Tiziano De Matteis, Johannes de Fine Licht, Luca Lavarini, and Torsten Hoefler, “Productivity, portability, performance”, Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, 2021. DOI: 10.1145/3458817.3476176.
Diyyala Sravani, Jonnala Rohith Reddy, Pilla Sri Viswas, N.M. Jyothi, and Potru Chandukiran, “Python security in devOps: Best practices for secure coding, configuration management, and continuous testing and monitoring”, 4th International Conference on Electronics and Sustainable Communication Systems (ICESC), Coimbatore, India, 6 - 8 July 2023. DOI: 10.1109/icesc57686.2023.10193128.
Aravind Ayyagiri, Arpit Jain, and Om Goel, “Utilizing Python for scalable data processing in cloud environments”, Darpan International Research Analysis, Volume 12, Issue 2, pp. 183 - 198, 2024. DOI: 10.36676/ dira.v12.i2.78.
Fabrizio Sebastiani, “Machine learning in automated text categorization”, ACM Computing Surveys, Volume 34, Issue 1, pp. 1 - 47, 2002. DOI: 10.1145/505282.505283.
ChengXiang Zhai and Sean Massung, Text data management and analysis: A practical introduction to information retrieval and text mining. Association for Computing Machinery and Morgan & Claypool, 2016. DOI: 10.1145/2915031.
Manuel Fernández-Delgado, Eva Cernadas, Senén Barro, and Dinani Amorim, “Do we need hundreds of classifiers to solve real world classification problems?”, Journal of Machine Learning Research, Volume 15, pp. 3133 - 3181, 2014.
Asmaa M. Aubaid, Alok Mishra, and Atul Mishra, “Machine learning and rule-based embedding techniques for classifying text documents”, International Journal of Systems Assurance Engineering and Management, Volume 15, Issue 12, pp. 5637 -5652, 2024. DOI: 10.1007/s13198- 024-02555-w.
Karandeep Singh, Yu-Che Tsai, Cheng-Te Li, Meeyoung Cha, and Shou-De Lin, “GraphFC: Customs fraud detection with label scarcity”, 32nd ACM International Conference on Information and Knowledge Management, 2023. DOI: 10.1145/3583780.3614690.
1. Tác giả giao bản quyền bài viết (tác phẩm) cho Tạp chí Dầu khí, bao gồm quyền xuất bản, tái bản, bán và phân phối toàn bộ hoặc một phần tác phẩm trong các ấn bản điện tử và in của Tạp chí Dầu khí.
2. Bằng cách chuyển nhượng bản quyền này cho Tạp chí Dầu khí, việc sao chép, đăng hoặc sử dụng một phần hay toàn bộ tác phẩm nào của Tạp chí Dầu khí trên bất kỳ phương tiện nào phải trích dẫn đầy đủ, phù hợp về hình thức và nội dung như sau: tiêu đề của bài viết, tên tác giả, tên tạp chí, tập, số, năm, chủ sở hữu bản quyền theo quy định, số DOI. Liên kết đến bài viết cuối cùng được công bố trên trang web của Tạp chí Dầu khí được khuyến khích.