Ứng dụng Python và machine learning trong xử lý và phân loại dữ liệu xuất nhập khẩu

  • Đỗ Hồng Hạnh Viện Dầu khí Việt Nam (VPI)
  • Đoàn Tiến Quyết Viện Dầu khí Việt Nam (VPI)
  • Đoàn Trọng Sinh Tập đoàn Công nghiệp - Năng lượng Quốc gia Việt Nam (PVN)
  • Nguyễn Bằng Linh Viện Dầu khí Việt Nam (VPI)
Keywords: Xuất nhập khẩu, học máy, chuẩn hóa dữ liệu, TF-IDF, random forest, Python

Tóm tắt

Dữ liệu xuất nhập khẩu tại Việt Nam đang gia tăng cả về quy mô và độ phức tạp, tạo ra thách thức lớn trong việc chuẩn hóa và phân loại thông tin khai báo hải quan. Bài viết đề xuất quy trình xử lý dữ liệu tự động hóa sử dụng ngôn ngữ lập trình Python, nhằm nâng cao hiệu quả và tính nhất quán trong phân tích thông tin khai báo hải quan. Tập dữ liệu đầu vào gồm hơn 10.000 bản ghi xuất nhập khẩu thực tế, được xử lý qua các bước kỹ thuật như: chuẩn hóa tên hàng, quy đổi đơn vị tính, tính toán chỉ tiêu định lượng và gán nhãn nhóm sản phẩm dựa trên từ khóa.
Kết quả cho thấy quy trình này vận hành hiệu quả trên tập dữ liệu có quy mô vừa và tính phức tạp cao, đồng thời đảm bảo độ chính xác và tính đồng nhất trong phân loại nhóm sản phẩm. Trên cơ sở đó, nhóm tác giả đề xuất tích hợp mô hình học máy như công cụ hỗ trợ để nâng cao khả năng khái quát hóa và thích ứng với các trường hợp ngoại lệ, khi tên hàng không được chuẩn hóa và thay đổi liên tục theo thực tiễn thương mại quốc tế.

Các tài liệu tham khảo

Kelvin Kelvin, Wahidin Wahab, and Meirista Wulandari, “Computer resource utilization analysis for microsoft excel and python in data processing”, Engineering, Mathematics and Computer Science Journal (EMACS), Volume 6, Issue 2, pp. 137 - 142, 2024. DOI: 10.21512/emacsjournal.v6i2.11736.

Mohamed Fakhry Mansour, Tarek Aly, and Mervat Gheith, “Python based end user computing framework to empowering excel efficiency”, International Journal for Research in Applied Science and Engineering Technology, Volume 12, Issue 4, pp. 2719 - 2729, 2024. DOI: 10.22214/ ijraset.2024.60097.

Raymond R. Panko and Richard P. Halverson Jr., “An experiment in collaborative spreadsheet development”, Journal of the Association for Information Systems, Volume 2, No. 1, pp. 1 - 31, 2001. DOI: 10.17705/1jais.00016.

Raymond R. Panko, “Thinking is bad: Implications of human error research for spreadsheet research and practice”, European Spreadsheet Risk Interest Group, 2007. DOI: 10.48550/arXiv.0801.3114.

Alexandros Nikolaos Ziogas, Timo Schneider, Tal Ben-Nun, Alexandru Calotoiu, Tiziano De Matteis, Johannes de Fine Licht, Luca Lavarini, and Torsten Hoefler, “Productivity, portability, performance”, Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, 2021. DOI: 10.1145/3458817.3476176.

Diyyala Sravani, Jonnala Rohith Reddy, Pilla Sri Viswas, N.M. Jyothi, and Potru Chandukiran, “Python security in devOps: Best practices for secure coding, configuration management, and continuous testing and monitoring”, 4th International Conference on Electronics and Sustainable Communication Systems (ICESC), Coimbatore, India, 6 - 8 July 2023. DOI: 10.1109/icesc57686.2023.10193128.

Aravind Ayyagiri, Arpit Jain, and Om Goel, “Utilizing Python for scalable data processing in cloud environments”, Darpan International Research Analysis, Volume 12, Issue 2, pp. 183 - 198, 2024. DOI: 10.36676/ dira.v12.i2.78.

Fabrizio Sebastiani, “Machine learning in automated text categorization”, ACM Computing Surveys, Volume 34, Issue 1, pp. 1 - 47, 2002. DOI: 10.1145/505282.505283.

ChengXiang Zhai and Sean Massung, Text data management and analysis: A practical introduction to information retrieval and text mining. Association for Computing Machinery and Morgan & Claypool, 2016. DOI: 10.1145/2915031.

Manuel Fernández-Delgado, Eva Cernadas, Senén Barro, and Dinani Amorim, “Do we need hundreds of classifiers to solve real world classification problems?”, Journal of Machine Learning Research, Volume 15, pp. 3133 - 3181, 2014.

Asmaa M. Aubaid, Alok Mishra, and Atul Mishra, “Machine learning and rule-based embedding techniques for classifying text documents”, International Journal of Systems Assurance Engineering and Management, Volume 15, Issue 12, pp. 5637 -5652, 2024. DOI: 10.1007/s13198- 024-02555-w.

Karandeep Singh, Yu-Che Tsai, Cheng-Te Li, Meeyoung Cha, and Shou-De Lin, “GraphFC: Customs fraud detection with label scarcity”, 32nd ACM International Conference on Information and Knowledge Management, 2023. DOI: 10.1145/3583780.3614690.

Đã đăng
2025-09-30
How to Cite
Đỗ, H. H., Đoàn, T. Q., Đoàn, T. S., & Nguyễn, B. L. (2025). Ứng dụng Python và machine learning trong xử lý và phân loại dữ liệu xuất nhập khẩu. Tạp Chí Dầu Khí, 3, 41-50. https://doi.org/10.47800/PVSI.2025.03-05