Bati, G. (2024). Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة. JES. Journal of Engineering Sciences, 52(1), 1-11. doi: 10.21608/jesaun.2023.231628.1254
Ghassan F. Bati. "Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة". JES. Journal of Engineering Sciences, 52, 1, 2024, 1-11. doi: 10.21608/jesaun.2023.231628.1254
Bati, G. (2024). 'Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة', JES. Journal of Engineering Sciences, 52(1), pp. 1-11. doi: 10.21608/jesaun.2023.231628.1254
Bati, G. Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة. JES. Journal of Engineering Sciences, 2024; 52(1): 1-11. doi: 10.21608/jesaun.2023.231628.1254
Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة
Computer Engineering Department, College of Computer and Information Systems, Umm Al-Qura University, Makkah, Saudi Arabia
Abstract
Saudi is interested in artificial intelligence and machine learning. Governmental interest appears in several forms, most notably creating a generation that masters the skills of artificial intelligence and machine learning through the approval of the Saudi Ministry of Education to teach artificial intelligence, machine learning, and data science skills in public schools and universities. This interest makes it imperative for researchers to develop Arabic datasets for research and educational purposes, especially with the popularity of English sources and the absence of Arabic sources. This study attempts to fill this gap by creating a dataset for the Arabic spoken digits from ten to zero and analysing it using Orange, which requires no coding. The importance of the study is as follows: first Arabic work to establish a balanced audio dataset of spoken Arabic digits from ten to zero; the dataset contains audio files and the tabular data generated using deep learning from the spectrograms of the audio files; it is the first Arabic scientific work that uses traditional machine learning and deep learning models to create good-performing models for classifying spoken Arabic digits without coding, which enables researchers and those interested in various fields to develop machine learning applications to classify Arabic audio, especially in mobile phones or in microcontrollers, to stimulate IoT applications and Tiny machine learning. الملخص تهتم السعودية بالذكاء الاصطناعي وتعلم الآلة. ويظهر الاهتمام الحكومي في عدة أشكال أبرزها إنشاء جيل متقن لمهارات الذكاء الاصطناعي وتعلم الآلة من خلال إقرار وزارة التعليم السعودية لتدريس مهارات الذكاء الاصطناعي وتعلم الآلة وعلم البيانات في مدارس التعليم العام والجامعات. وهذا الاهتمام يحتم على الباحثين تطوير مجموعات بيانات عربية؛ للأغراض البحثية والتعليمية خاصة مع شهرة المصادر الإنجليزية، وشح المصادر العربية. تحاول هذه الدراسة ملء الفراغ من خلال إنشاء مجموعة بيانات عربية، وتحليلها باستخدام برنامج أورانج والذي لا يحتاج إلى برمجة. تكمن أهمية الدراسة في التالي: أول عمل علمي عربي محكم ينشئ ويحلل مجموعة بيانات صوتية متوازنة الأصناف لتصنيف الأرقام العربية المنطوقة من عشرة لصفر، وتتميز مجموعة البيانات باحتوائها على الملفات الصوتية المستخرجة من تسجيل الأرقام العربية المنطوقة، وكذلك احتوائها على الصور الطيفية لتصنيف الأرقام العربية الصوتية والمستخرجة من الملفات الصوتية، واحتوائها على البيانات المجدولة ذات الخصائص المولدة باستخدام التعلم العميق للأرقام العربية المنطوقة والمستخرجة من الصور الطيفية. يعد البحث أول بحث منشور باللغة العربية يستخدم نماذج تعلم الآلة التقليدية والتعلم العميق لإنشاء نماذج ذات أداء عال لتصنيف الأرقام العربية الصوتية من عشرة لصفر بدون برمجة، مما يمكن الباحثين والمهتمين من كافة المجالات من تطوير تطبيقات تعلم آلة لتصنيف الأصوات العربية خاصة في الجوالات أو في المتحكمات الدقيقة تفعيلاً لتطبيقات إنترنت الأشياء وتعلم الآلات الصغيرة.
[1] “الهيئة السعودية للبيانات والذكاء الاصطناعي,” الهيئة السعودية للبيانات والذكاء الاصطناعي, 2023. https://sdaia.gov.sa/ar/default.aspx (accessed Aug. 08, 2023).
[3] A. M. A. Alqadasi, R. Abdulghafor, M. S. Sunar, and Md. S. B. H. J. Salam, “Modern Standard Arabic Speech Corpora: A Systematic Review,” IEEE Access, vol. 11, pp. 55771–55796, 2023, doi: 10.1109/ACCESS.2023.3282259.
[4] A. Dhouib, A. Othman, O. El Ghoul, M. K. Khribi, and A. Al Sinani, “Arabic Automatic Speech Recognition: A Systematic Literature Review,” Appl. Sci., vol. 12, no. 17, Art. no. 17, Jan. 2022, doi: 10.3390/app12178898.
[5] A. Hassan, S. Aftab, R. Khan, and H. Asim, “The Analysis on the usage of the Video Conferencing Rooms using Classification,” KIET J. Comput. Inf. Sci., vol. 2, no. 2, pp. 09–09, Jul. 2019, Accessed: Sep. 19, 2023. [Online]. Available: https://kjcis.kiet.edu.pk/index.php/kjcis/article/view/28
[6] J. Han, J. Pei, and H. Tong, Data Mining Concepts and Techniques- 4th Edition. Morgan Kaufmann, 2022. Accessed: Sep. 19, 2023. [Online]. Available: https://shop.elsevier.com/books/data-mining/han/978-0-12-811760-6
[10] “معجم البيانات والذكاء الاصطناعي.” Accessed: Aug. 21, 2023. [Online]. Available: https://sdaia.gov.sa/ar/MediaCenter/KnowledgeCenter/ResearchLibrary/SDAIAPublications15.pdf
[11] N. H. Mouldi Bedda, “Spoken Arabic Digit.” UCI Machine Learning Repository, 2008. doi: 10.24432/C52C9Q.
[12] A. Ghandoura, F. Hjabo, and O. Al Dakkak, “Building and benchmarking an Arabic Speech Commands dataset for small-footprint keyword spotting,” Eng. Appl. Artif. Intell., vol. 102, p. 104267, Jun. 2021, doi: 10.1016/j.engappai.2021.104267.
[13] Y. Alotaibi, “A Simple Time Alignment Algorithm for Spoken Arabic Digit Recognition,” J. King Abdulaziz Univ.-Eng. Sci., vol. 20, no. 1, pp. 29–43, 2009, doi: 10.4197/Eng.20-1.2.
[14] Y. A. Alotaibi, “Investigating spoken Arabic digits in speech recognition setting,” Inf. Sci., vol. 173, no. 1, pp. 115–139, Jun. 2005, doi: 10.1016/j.ins.2004.07.008.
[15] A. Ganoun and I. Almerhag, “Performance Analysis of Spoken Arabic Digits Recognition Techniques,” vol. 10, no. 2, 2012.
[16] A. S. Mahfoudh BA WAZIR and J. Huang CHUAH, “Spoken Arabic Digits Recognition Using Deep Learning,” in 2019 IEEE International Conference on Automatic Control and Intelligent Systems (I2CACIS), Jun. 2019, pp. 339–344. doi: 10.1109/I2CACIS.2019.8825004.
[17] H. Satori, M. Harti, and N. Chenfour, “Introduction to Arabic Speech Recognition Using CMUSphinx System.” arXiv, Apr. 16, 2007. doi: 10.48550/arXiv.0704.2083.
[18] M. Huzaifah, “muhdhuz/audio2spec.” Mar. 11, 2023. Accessed: Aug. 11, 2023. [Online]. Available: https://github.com/muhdhuz/audio2spec
[19] B. McFee et al., “librosa: Audio and music signal analysis in python,” in Proceedings of the 14th python in science conference, 2015, pp. 18–25.
[20] J. Demšar et al., “Orange: Data Mining Toolbox in Python,” J. Mach. Learn. Res., vol. 14, pp. 2349–2353, 2013.
[21] B. L. Ljubljana University of, “Widget catalog.” https://orangedatamining.com/widget-catalog/ (accessed Jul. 22, 2023).
[22] د. ع. طعيمة, “كتاب تنقيب البيانات وتعلم الآلة: بدون برمجة - التعلم العميق بالعربي || DL بالعربي || الدكتور علاء طعيمة,” Mar. 30, 2023., https://dlarabic.com/كتاب-تنقيب-البيانات-وتعلم-الآلة-بدون-ب/ (accessed Sep. 19, 2023).
[23] G. F. Bati and V. K. Singh, “NADAL: A Neighbor-Aware Deep Learning Approach for Inferring Interpersonal Trust Using Smartphone Data,” Computers, vol. 10, no. 1, Art. no. 1, Jan. 2021, doi: 10.3390/computers10010003.