বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই

বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই
ছবি: জারিফ ফাইয়াজ/টগল

আমরা প্রতিদিনের কাজে কোনো ইংরেজি শব্দ বা বাক্যকে দ্রুত বাংলায় রূপান্তরিত করতে সাধারণত গুগল ট্রান্সলেট ব্যবহার করে থাকি।

তবে এই অনুবাদ বেশিরভাগ ক্ষেত্রেই নিখুঁত হয় না। এআইয়ের করা গুগল ট্রান্সলেটের অনুবাদে অনেক ভুল থেকে যায়। তাছাড়া এআইয়ের করা অনুবাদ সাবলীল নয়, অনেকটাই দুর্বোধ্য। বিশেষ করে বাংলা ভাষার মতো একটি ভাষা যা বিভিন্ন আঞ্চলিক উপভাষায় পরিপূর্ণ, সেক্ষেত্রে এআইয়ের অনুবাদ অনেকটাই দুর্বোধ্য থেকে যায়।

তাই বলে কি এআইকে সাবলীল বাংলা, বাংলা ভাষার কথ্য ও লিখিত রূপটি শেখানো সম্ভব নয়? এই সমস্যা নিয়েই কাজ করছে বেঙ্গলি ডট এআই।

বাংলা কথা শনাক্তকরণের জন্যে অভিযান

বেঙ্গলি ডট এআইয়ে কাজ করছেন ২০১৭ সালের ডিসেম্বরে বুয়েট, কুয়েট এবং ব্র্যাক বিশ্ববিদ্যালয় থেকে স্নাতক পাশ করা একটি দল। এটি একটি স্বেচ্ছাসেবী গবেষণা উদ্যোগ, যার লক্ষ্য হলো আমরা প্রতিদিন যে বাংলা ব্যবহার করি তা এআইকে শেখানোর মাধ্যমে বাংলায় এআই গবেষণাকে সর্বজনীন করে তোলা। এটি একটি অলাভজনক উদ্যোগ।

কম্পিউটার কীভাবে ভাষা পড়ে, বলে এবং বোঝে তা দেখে এআইকে জটিল বাংলা ভাষা শেখানোর জন্য বড় আকারের মেশিন লার্নিং ডেটাসেট তৈরি করছেন এই দল। তাদের এই ডেটাসেট বিভিন্ন বাংলাভাষী জনসংখ্যা থেকে নেওয়া হচ্ছে।

যেহেতু কথোপকথনমূলক বাংলা ডেটাসেট তৈরির একটি মূল অংশ বৈচিত্র্য, তাই বেঙ্গলি ডট এআই যত বেশি সম্ভব মানুষের কাছ থেকে ভয়েস ডেটা সংগ্রহের চেষ্টা করছে। বর্তমানে সামাজিক যোগাযোগমাধ্যমে তারা 'বক বক' নামে একটি বিশেষ প্রচারণা চালাচ্ছে। বিশ্বের যেকোন স্থান থেকে বাংলাভাষীরা এই পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য তাদের 'ভয়েস ডেটা' প্রদানের মাধ্যমে অবদান রাখতে পারে।

'বক বক'-এ অংশ নেবেন যেভাবে

'বক বক'-এ আপনার অবদান রাখতে কন্ট্রিবিউট প্ল্যাটফরমে লগইন করুন এবং উচ্চস্বরে ও স্পষ্টভাবে স্ক্রিনে প্রদর্শিত বাক্য পড়ুন। বাংলা ডেটাবেসের এই ক্রমাগত বিকাশে আপনার অবদানের চিহ্ন হিসেবে, বেঙ্গলি ডট এআই অবদানকারীদের কিছু সম্মানী দিয়ে থাকে।
এতে অংশ নিতে লিঙ্কে দেওয়া পদ্ধতি অনুসরণ করুন: 

https://commonvoice.mozilla.org/bn/speak

বেঙ্গলি ডট এআই-এর কো-অর্ডিনেটর আসিফ সুস্মিত ডেইলি স্টারকে বলেন, '২০২২ সালের ২১ ফেব্রুয়ারি থেকে প্রায় ২২ হাজার জনেরও বেশি লোকের কাছ থেকে ২ হাজার ঘণ্টার ডেটা সংগ্রহ করা হয়েছে, যা একটি ইন্ডাস্ট্রি-গ্রেড স্পিচ রিকগনিশন মডেল প্রশিক্ষণের মানদণ্ডের সমান।'

তবে তাদের লক্ষ্য আরও ওপরে। তারা চায় ১০ হাজার ঘণ্টার ডেটা সংগ্রহ করতে যাতে করে ভাষার আরও সূক্ষ্ম এবং বৈচিত্র্যপূর্ণ বিষয়গুলোও অন্তর্ভুক্ত করা যায়। এতে করে গবেষকরা তাদের নিজস্ব এআইগুলোকে আরও ভালোভাবে প্রশিক্ষণ দিতে পারবেন।

বক বক-এ, আপনি পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য আপনার ভয়েস ডেটা প্রদান করতে পারেন। বেঙ্গলি ডট এআই একটি সর্বজনীনভাবে উপলব্ধ স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম তৈরির পরিকল্পনা করছে। তাত্ত্বিকভাবে এই এআই আলেক্সা ও সিরির মতোই কথোপকথনমূলক বাংলা বুঝতে সক্ষম হবে।

অন্যান্য প্রকল্প

বেঙ্গলি ডট এআইয়ের যাত্রা ২০১৮ সালে নামতাডিবির মাধ্যমে শুরু হয়েছিল। নামতাডিবি একটি ডেটাসেট যেখানে হাতে লেখা বাংলা সংখ্যার ৮৫ হাজারটিরও বেশি ছবি রয়েছে। ভৌগোলিক, লিঙ্গ এবং বয়সভিত্তিক পক্ষপাতমুক্ত বাংলা সংখ্যা শনাক্তকরণ অ্যালগরিদম তৈরির জন্য ডেটাসেটটি সংকলিত হয়েছিল।

২০২০ সালে বেঙ্গলি ডট এআই ৫ লাখেরও বেশি হাতে লেখা বাংলা গ্রাফিমের প্রথম ডেটাসেট প্রকাশ করে এবং গুগলের সহযোগিতায় একটি আন্তর্জাতিক ক্যাগল প্রতিযোগিতা চালু করে। প্রতিযোগিতাটিতে সারা বিশ্ব থেকে ভিন্ন ভিন্ন ভাষাভাষীর ২ হাজারটিরও বেশি দল ছিল। এই দলগুলোর মধ্যে এনভিডিয়া এবং এইচটুও ডট এআই এর মতো বেশ কিছু বড় বড় দলও ছিল। বাংলায় অপটিক্যাল ক্যারেক্টার শনাক্তকরণের বিষয়টি সমাধানের জন্য দলগুলো সেখানে একসঙ্গে কাজ করেছিল।

২০২১ সাল পর্যন্ত বেঙ্গলি ডট এআই অনেকগুলো পার্শ্ব প্রকল্প চালু করেছে। যার মধ্যে প্রায় সবগুলো প্রকল্পই ভাষার মেশিন লার্নিং ও প্রাকৃতিক ভাষা প্রক্রিয়াকরণের অগ্রগতি সম্পর্কিত ছিল। এর মধ্যে সর্বজনীনভাবে পাওয়া যায় এমন প্রকল্পগুলোর মধ্যে রয়েছে: একটি বাংলা অভিধান যা স্বয়ংক্রিয়ভাবে কথার মধ্যের টীকা বিশ্লেষণ করতে পারে, একটি ট্রান্সক্রাইবার বা প্রতিলিপিকারী যা ভিন্ন বর্ণমালায় প্রকাশ করা বা বিকৃত ধরনের বাংলা টেক্সটকে লক্ষ্য করে তৈরি এবং 'বেঠিক' নামে একটি ওপেনসোর্স বাংলা বানান পরীক্ষক যা উচ্চমাত্রার বাংলা টাইপিং ত্রুটি চিহ্নিত করতে ও ঠিক করতে পারে। শাবিপ্রবি এবং ব্র্যাক বিশ্ববিদ্যালয়ের ৪০ জন শিক্ষার্থীর একটি দল এবং বিভিন্ন ক্ষেত্রের স্বেচ্ছাসেবী গবেষক নিয়ে তৈরি হয়েছে 'বেঠিক', যা আগামী মাসের মধ্যে সর্বজনীনভাবে ব্যবহারযোগ্য হবে।

বর্তমানে বেঙ্গলি ডট এআইয়ে ৬ হাজারেরও বেশি আন্তর্জাতিক গবেষক কাজ করছেন। যারা সবাই অসম্ভব বলে মনে করা- বাংলা ভাষা-সম্পর্কিত প্রযুক্তির সার্বজনীনকরণের বিষয়টি অর্জনের লক্ষ্যে কাজ করছেন। কয়েক হাজার বাংলাভাষীদের কাছ থেকে পাওয়া ডেটাবেসের মাধ্যমে তারা এমন একটি এআই তৈরির লক্ষ্যে কাজ করছেন যা হবে সর্বজনীনভাবে ব্যবহারযোগ্য এবং 'সংশোধনযোগ্য'।

অনুবাদ করেছেন আহমেদ বিন কাদের অনি

Comments

The Daily Star  | English

Trump launches trade war with tariffs on Mexico, Canada and China

President Donald Trump announced broad tariffs Saturday on major US trading partners Canada, Mexico and China, claiming a "major threat" from illegal immigration and drugs -- a move that sparked promises of retaliation.

2h ago