বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই

বাংলা কথা ও টেক্সট বুঝতে পারে যে এআই
ছবি: জারিফ ফাইয়াজ/টগল

আমরা প্রতিদিনের কাজে কোনো ইংরেজি শব্দ বা বাক্যকে দ্রুত বাংলায় রূপান্তরিত করতে সাধারণত গুগল ট্রান্সলেট ব্যবহার করে থাকি।

তবে এই অনুবাদ বেশিরভাগ ক্ষেত্রেই নিখুঁত হয় না। এআইয়ের করা গুগল ট্রান্সলেটের অনুবাদে অনেক ভুল থেকে যায়। তাছাড়া এআইয়ের করা অনুবাদ সাবলীল নয়, অনেকটাই দুর্বোধ্য। বিশেষ করে বাংলা ভাষার মতো একটি ভাষা যা বিভিন্ন আঞ্চলিক উপভাষায় পরিপূর্ণ, সেক্ষেত্রে এআইয়ের অনুবাদ অনেকটাই দুর্বোধ্য থেকে যায়।

তাই বলে কি এআইকে সাবলীল বাংলা, বাংলা ভাষার কথ্য ও লিখিত রূপটি শেখানো সম্ভব নয়? এই সমস্যা নিয়েই কাজ করছে বেঙ্গলি ডট এআই।

বাংলা কথা শনাক্তকরণের জন্যে অভিযান

বেঙ্গলি ডট এআইয়ে কাজ করছেন ২০১৭ সালের ডিসেম্বরে বুয়েট, কুয়েট এবং ব্র্যাক বিশ্ববিদ্যালয় থেকে স্নাতক পাশ করা একটি দল। এটি একটি স্বেচ্ছাসেবী গবেষণা উদ্যোগ, যার লক্ষ্য হলো আমরা প্রতিদিন যে বাংলা ব্যবহার করি তা এআইকে শেখানোর মাধ্যমে বাংলায় এআই গবেষণাকে সর্বজনীন করে তোলা। এটি একটি অলাভজনক উদ্যোগ।

কম্পিউটার কীভাবে ভাষা পড়ে, বলে এবং বোঝে তা দেখে এআইকে জটিল বাংলা ভাষা শেখানোর জন্য বড় আকারের মেশিন লার্নিং ডেটাসেট তৈরি করছেন এই দল। তাদের এই ডেটাসেট বিভিন্ন বাংলাভাষী জনসংখ্যা থেকে নেওয়া হচ্ছে।

যেহেতু কথোপকথনমূলক বাংলা ডেটাসেট তৈরির একটি মূল অংশ বৈচিত্র্য, তাই বেঙ্গলি ডট এআই যত বেশি সম্ভব মানুষের কাছ থেকে ভয়েস ডেটা সংগ্রহের চেষ্টা করছে। বর্তমানে সামাজিক যোগাযোগমাধ্যমে তারা 'বক বক' নামে একটি বিশেষ প্রচারণা চালাচ্ছে। বিশ্বের যেকোন স্থান থেকে বাংলাভাষীরা এই পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য তাদের 'ভয়েস ডেটা' প্রদানের মাধ্যমে অবদান রাখতে পারে।

'বক বক'-এ অংশ নেবেন যেভাবে

'বক বক'-এ আপনার অবদান রাখতে কন্ট্রিবিউট প্ল্যাটফরমে লগইন করুন এবং উচ্চস্বরে ও স্পষ্টভাবে স্ক্রিনে প্রদর্শিত বাক্য পড়ুন। বাংলা ডেটাবেসের এই ক্রমাগত বিকাশে আপনার অবদানের চিহ্ন হিসেবে, বেঙ্গলি ডট এআই অবদানকারীদের কিছু সম্মানী দিয়ে থাকে।
এতে অংশ নিতে লিঙ্কে দেওয়া পদ্ধতি অনুসরণ করুন: 

https://commonvoice.mozilla.org/bn/speak

বেঙ্গলি ডট এআই-এর কো-অর্ডিনেটর আসিফ সুস্মিত ডেইলি স্টারকে বলেন, '২০২২ সালের ২১ ফেব্রুয়ারি থেকে প্রায় ২২ হাজার জনেরও বেশি লোকের কাছ থেকে ২ হাজার ঘণ্টার ডেটা সংগ্রহ করা হয়েছে, যা একটি ইন্ডাস্ট্রি-গ্রেড স্পিচ রিকগনিশন মডেল প্রশিক্ষণের মানদণ্ডের সমান।'

তবে তাদের লক্ষ্য আরও ওপরে। তারা চায় ১০ হাজার ঘণ্টার ডেটা সংগ্রহ করতে যাতে করে ভাষার আরও সূক্ষ্ম এবং বৈচিত্র্যপূর্ণ বিষয়গুলোও অন্তর্ভুক্ত করা যায়। এতে করে গবেষকরা তাদের নিজস্ব এআইগুলোকে আরও ভালোভাবে প্রশিক্ষণ দিতে পারবেন।

বক বক-এ, আপনি পাবলিক ডোমেন গবেষণা ডেটাসেটের জন্য আপনার ভয়েস ডেটা প্রদান করতে পারেন। বেঙ্গলি ডট এআই একটি সর্বজনীনভাবে উপলব্ধ স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম তৈরির পরিকল্পনা করছে। তাত্ত্বিকভাবে এই এআই আলেক্সা ও সিরির মতোই কথোপকথনমূলক বাংলা বুঝতে সক্ষম হবে।

অন্যান্য প্রকল্প

বেঙ্গলি ডট এআইয়ের যাত্রা ২০১৮ সালে নামতাডিবির মাধ্যমে শুরু হয়েছিল। নামতাডিবি একটি ডেটাসেট যেখানে হাতে লেখা বাংলা সংখ্যার ৮৫ হাজারটিরও বেশি ছবি রয়েছে। ভৌগোলিক, লিঙ্গ এবং বয়সভিত্তিক পক্ষপাতমুক্ত বাংলা সংখ্যা শনাক্তকরণ অ্যালগরিদম তৈরির জন্য ডেটাসেটটি সংকলিত হয়েছিল।

২০২০ সালে বেঙ্গলি ডট এআই ৫ লাখেরও বেশি হাতে লেখা বাংলা গ্রাফিমের প্রথম ডেটাসেট প্রকাশ করে এবং গুগলের সহযোগিতায় একটি আন্তর্জাতিক ক্যাগল প্রতিযোগিতা চালু করে। প্রতিযোগিতাটিতে সারা বিশ্ব থেকে ভিন্ন ভিন্ন ভাষাভাষীর ২ হাজারটিরও বেশি দল ছিল। এই দলগুলোর মধ্যে এনভিডিয়া এবং এইচটুও ডট এআই এর মতো বেশ কিছু বড় বড় দলও ছিল। বাংলায় অপটিক্যাল ক্যারেক্টার শনাক্তকরণের বিষয়টি সমাধানের জন্য দলগুলো সেখানে একসঙ্গে কাজ করেছিল।

২০২১ সাল পর্যন্ত বেঙ্গলি ডট এআই অনেকগুলো পার্শ্ব প্রকল্প চালু করেছে। যার মধ্যে প্রায় সবগুলো প্রকল্পই ভাষার মেশিন লার্নিং ও প্রাকৃতিক ভাষা প্রক্রিয়াকরণের অগ্রগতি সম্পর্কিত ছিল। এর মধ্যে সর্বজনীনভাবে পাওয়া যায় এমন প্রকল্পগুলোর মধ্যে রয়েছে: একটি বাংলা অভিধান যা স্বয়ংক্রিয়ভাবে কথার মধ্যের টীকা বিশ্লেষণ করতে পারে, একটি ট্রান্সক্রাইবার বা প্রতিলিপিকারী যা ভিন্ন বর্ণমালায় প্রকাশ করা বা বিকৃত ধরনের বাংলা টেক্সটকে লক্ষ্য করে তৈরি এবং 'বেঠিক' নামে একটি ওপেনসোর্স বাংলা বানান পরীক্ষক যা উচ্চমাত্রার বাংলা টাইপিং ত্রুটি চিহ্নিত করতে ও ঠিক করতে পারে। শাবিপ্রবি এবং ব্র্যাক বিশ্ববিদ্যালয়ের ৪০ জন শিক্ষার্থীর একটি দল এবং বিভিন্ন ক্ষেত্রের স্বেচ্ছাসেবী গবেষক নিয়ে তৈরি হয়েছে 'বেঠিক', যা আগামী মাসের মধ্যে সর্বজনীনভাবে ব্যবহারযোগ্য হবে।

বর্তমানে বেঙ্গলি ডট এআইয়ে ৬ হাজারেরও বেশি আন্তর্জাতিক গবেষক কাজ করছেন। যারা সবাই অসম্ভব বলে মনে করা- বাংলা ভাষা-সম্পর্কিত প্রযুক্তির সার্বজনীনকরণের বিষয়টি অর্জনের লক্ষ্যে কাজ করছেন। কয়েক হাজার বাংলাভাষীদের কাছ থেকে পাওয়া ডেটাবেসের মাধ্যমে তারা এমন একটি এআই তৈরির লক্ষ্যে কাজ করছেন যা হবে সর্বজনীনভাবে ব্যবহারযোগ্য এবং 'সংশোধনযোগ্য'।

অনুবাদ করেছেন আহমেদ বিন কাদের অনি

Comments

The Daily Star  | English

At least 30 hurt as clashes engulf part of Old Dhaka

Suhrawardy college, hospital vandalised as protests over student’s death turn violent

1h ago