কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও: থাকতে পারে যেসব ঝুঁকি

ছবি: সংগৃহীত

জেনারেটিভ এআই নিয়ে আলোচনার অনেকটা অংশই বর্তমানে দখল করে আছে চ্যাটজিপিটি। জেনারেটিভ এআইয়ের ক্ষেত্রে চ্যাটজিপিটির মতো ল্যাংগুয়েজ মডেলের বাইরেও অনেককিছু আছে, যা সবাইকে চমকে দিতে পারে।

কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টেক্সট থেকে ছবি তৈরির প্রযুক্তি এখন গণমাধ্যম ও সামাজিক যোগাযোগমাধ্যমে ভালো সাড়া ফেলছে। 

কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও কী?

আপনি কেমন ভিডিও তৈরি করতে চান, তার শুধু লিখিত নির্দেশনা থেকেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে কয়েক মিনিটের মধ্যেই ভিডিওটি তৈরি হয়ে যাবে। হ্যাঁ, ব্যাপারটা এতটাই সহজ। মার্কিন স্টার্টআপ প্রতিষ্ঠান 'রানওয়ে' এ ক্ষেত্রে এখনো পর্যন্ত উল্লেখযোগ্য সফলতা দেখাতে পেরেছে। 

এটা কী নতুন কিছু?

একদম নতুন, তেমনটা বলা যাবে না। চ্যাটজিপিটির নির্মাতা প্রতিষ্ঠান ওপেনএআইয়ের অনুরূপ একটি প্রযুক্তি আছে, যার নাম 'ডাল-ই'। ডাল-ই'র সাহায্যে অবশ্য লিখিত নির্দেশনা থেকে ছবি তৈরি করা যাচ্ছে। এই প্রযুক্তিটিও জেনারেটিভ এআই ল্যাংগুয়েজ মডেল ব্যবহার করে। কোনা নির্দিষ্ট ছবি তৈরির নির্দেশ পেলে ডাল-ই একাধিক ছবি তৈরি করে, যাতে ব্যবহারকারীরা তাদের পছন্দমতো ছবিটি বাছাই করতে পারে। 

বড় বড় প্রযুক্তি প্রতিষ্ঠানগুলো টেক্সট-টু-ভিডিও প্রযুক্তি নিয়ে কাজ করছে?

সাম্প্রতিক বছরগুলোতে বড় বড় প্রতিষ্ঠানগুলো কৃত্রিম বুদ্ধিমত্তার ওপর বিশাল অঙ্কের বিনিয়োগ করছে, যার মধ্যে টেক্সট-টু-ভিডিও প্রযুক্তিও আছে। ২০২২ সালের সেপ্টেম্বরে ফেসবুকের মূল প্রতিষ্ঠান মেটা 'মেক-এ-ভিডিও' নামের একটি প্রযুক্তির ঘোষণা দেয়। মেটার এই প্রযুক্তির সাহায্যে জেনারেটিভ এআই ব্যবহার করে মাত্র কয়েক শব্দ বা লাইনের নির্দেশনা থেকে ভিডিও তৈরি করা সম্ভব। তবে এই ভিডিওতে কোনো শব্দ থাকবে না। মেটার প্রধান নির্বাহী মার্ক জাকারবার্গ তখন প্রযুক্তিটি সম্পর্কে বলেছিলেন, 'কৃত্রিম বুদ্ধিমত্তার সাহায্যে ছবি তৈরির চেয়ে ভিডিও তৈরি অনেক কঠিন। কারণ, এখানে প্রতিটি পিক্সেল ঠিক করতে হয়।' 

মেটার মাত্র এক সপ্তাহ পরে গুগলও অনুরূপ একটি প্রযুক্তির ঘোষণা দেয়। গুগলের প্রযুক্তিটির নাম 'ইমাজেন ভিডিও (Imagen Video)'। লিখিত নির্দেশনা থেকে হাই ডেফিনিশন ভিডিও করা যাবে গুগলের এই প্রযুক্তির সাহায্যে। 

দীর্ঘ ভিডিও তৈরির জন্য গুগল 'ফেনাকি' নামের আরেকটি প্রযুক্তির ঘোষণা দেয় তখন। এই দীর্ঘ ভিডিওগুলোও লিখিত নির্দেশনার সাহায্যেই তৈরি করা যাবে। 

এ ক্ষেত্রে বাধাগুলো কী?

বাধা অনেক। অপারেশনাল থেকে নৈতিক- সবদিক থেকেই বাধা আছে। অনেকে বিষয়টি নিয়ে এখনো বিভ্রান্ত। সম্ভবত এখনো জেনারেটিভ এআই ব্যবহার করে টেক্সট-টু-ভিডিও প্রযুক্তিগুলো অনেকটাই ডেমো ভার্সনে আছে, তাই এই বিভ্রান্তি। প্রাথমিকভাবে মনে হতে পারে শুধু টেক্সট থেকে ভিডিও তৈরি করাটা হয়তো খুবই সোজা। কিন্তু যথার্থ ভিডিও তৈরি করতে হলে  ব্যবহারকারীকে সুনির্দিষ্ট নির্দেশনা দিতে হবে। নির্দেশনা যত নির্দিষ্ট ও ভালো হবে, ভিডিও তত ভালো হবে। 

এরপর আসে নৈতিক বাধা। কৃত্রিম বুদ্ধিমত্তার এসব ভিডিওগুলো ভবিষ্যতে মিথ্যা তথ্য ছড়ানোর অন্যতম হাতিয়ার হিসেবে ব্যবহৃত হতে পারে। বর্তমানেই ডিপফেক (কৃত্রিমভাবে চেহারা, ছবি ও কণ্ঠ পরিবর্তন করা, যা অনেকটা আসলের মতোই মনে হয়) ভুয়া তথ্য ছড়ানোর ক্ষেত্রে একটি বড় সমস্যা। জেনারেটিভ এআই ভিডিও আসলে এই সমস্যা আরও বাড়তে পারে। যদি সঠিকভাবে প্রযুক্তিটি তৈরি করা না হয় কিংবা যথাযথ নিয়ন্ত্রণ না থাকে, তাহলে এআই ভিডিওর সাহায্যে ভুয়া তথ্য ছড়ানোটা আরও সহজ হয়ে যাবে, যার ব্যাপক খারাপ পড়বে সর্বত্র। 
 
সূত্র: গ্যাজেটস নাউ
গ্রন্থনা: আহমেদ হিমেল

 

Comments

The Daily Star  | English

The ceasefire that couldn't heal: Reflections from a survivor

I can’t forget the days in Gaza’s hospitals—the sight of dismembered children and the cries from phosphorus burns.

6h ago