কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও: থাকতে পারে যেসব ঝুঁকি

ছবি: সংগৃহীত

জেনারেটিভ এআই নিয়ে আলোচনার অনেকটা অংশই বর্তমানে দখল করে আছে চ্যাটজিপিটি। জেনারেটিভ এআইয়ের ক্ষেত্রে চ্যাটজিপিটির মতো ল্যাংগুয়েজ মডেলের বাইরেও অনেককিছু আছে, যা সবাইকে চমকে দিতে পারে।

কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে টেক্সট থেকে ছবি তৈরির প্রযুক্তি এখন গণমাধ্যম ও সামাজিক যোগাযোগমাধ্যমে ভালো সাড়া ফেলছে। 

কৃত্রিম বুদ্ধিমত্তার টেক্সট-টু-ভিডিও কী?

আপনি কেমন ভিডিও তৈরি করতে চান, তার শুধু লিখিত নির্দেশনা থেকেই কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে কয়েক মিনিটের মধ্যেই ভিডিওটি তৈরি হয়ে যাবে। হ্যাঁ, ব্যাপারটা এতটাই সহজ। মার্কিন স্টার্টআপ প্রতিষ্ঠান 'রানওয়ে' এ ক্ষেত্রে এখনো পর্যন্ত উল্লেখযোগ্য সফলতা দেখাতে পেরেছে। 

এটা কী নতুন কিছু?

একদম নতুন, তেমনটা বলা যাবে না। চ্যাটজিপিটির নির্মাতা প্রতিষ্ঠান ওপেনএআইয়ের অনুরূপ একটি প্রযুক্তি আছে, যার নাম 'ডাল-ই'। ডাল-ই'র সাহায্যে অবশ্য লিখিত নির্দেশনা থেকে ছবি তৈরি করা যাচ্ছে। এই প্রযুক্তিটিও জেনারেটিভ এআই ল্যাংগুয়েজ মডেল ব্যবহার করে। কোনা নির্দিষ্ট ছবি তৈরির নির্দেশ পেলে ডাল-ই একাধিক ছবি তৈরি করে, যাতে ব্যবহারকারীরা তাদের পছন্দমতো ছবিটি বাছাই করতে পারে। 

বড় বড় প্রযুক্তি প্রতিষ্ঠানগুলো টেক্সট-টু-ভিডিও প্রযুক্তি নিয়ে কাজ করছে?

সাম্প্রতিক বছরগুলোতে বড় বড় প্রতিষ্ঠানগুলো কৃত্রিম বুদ্ধিমত্তার ওপর বিশাল অঙ্কের বিনিয়োগ করছে, যার মধ্যে টেক্সট-টু-ভিডিও প্রযুক্তিও আছে। ২০২২ সালের সেপ্টেম্বরে ফেসবুকের মূল প্রতিষ্ঠান মেটা 'মেক-এ-ভিডিও' নামের একটি প্রযুক্তির ঘোষণা দেয়। মেটার এই প্রযুক্তির সাহায্যে জেনারেটিভ এআই ব্যবহার করে মাত্র কয়েক শব্দ বা লাইনের নির্দেশনা থেকে ভিডিও তৈরি করা সম্ভব। তবে এই ভিডিওতে কোনো শব্দ থাকবে না। মেটার প্রধান নির্বাহী মার্ক জাকারবার্গ তখন প্রযুক্তিটি সম্পর্কে বলেছিলেন, 'কৃত্রিম বুদ্ধিমত্তার সাহায্যে ছবি তৈরির চেয়ে ভিডিও তৈরি অনেক কঠিন। কারণ, এখানে প্রতিটি পিক্সেল ঠিক করতে হয়।' 

মেটার মাত্র এক সপ্তাহ পরে গুগলও অনুরূপ একটি প্রযুক্তির ঘোষণা দেয়। গুগলের প্রযুক্তিটির নাম 'ইমাজেন ভিডিও (Imagen Video)'। লিখিত নির্দেশনা থেকে হাই ডেফিনিশন ভিডিও করা যাবে গুগলের এই প্রযুক্তির সাহায্যে। 

দীর্ঘ ভিডিও তৈরির জন্য গুগল 'ফেনাকি' নামের আরেকটি প্রযুক্তির ঘোষণা দেয় তখন। এই দীর্ঘ ভিডিওগুলোও লিখিত নির্দেশনার সাহায্যেই তৈরি করা যাবে। 

এ ক্ষেত্রে বাধাগুলো কী?

বাধা অনেক। অপারেশনাল থেকে নৈতিক- সবদিক থেকেই বাধা আছে। অনেকে বিষয়টি নিয়ে এখনো বিভ্রান্ত। সম্ভবত এখনো জেনারেটিভ এআই ব্যবহার করে টেক্সট-টু-ভিডিও প্রযুক্তিগুলো অনেকটাই ডেমো ভার্সনে আছে, তাই এই বিভ্রান্তি। প্রাথমিকভাবে মনে হতে পারে শুধু টেক্সট থেকে ভিডিও তৈরি করাটা হয়তো খুবই সোজা। কিন্তু যথার্থ ভিডিও তৈরি করতে হলে  ব্যবহারকারীকে সুনির্দিষ্ট নির্দেশনা দিতে হবে। নির্দেশনা যত নির্দিষ্ট ও ভালো হবে, ভিডিও তত ভালো হবে। 

এরপর আসে নৈতিক বাধা। কৃত্রিম বুদ্ধিমত্তার এসব ভিডিওগুলো ভবিষ্যতে মিথ্যা তথ্য ছড়ানোর অন্যতম হাতিয়ার হিসেবে ব্যবহৃত হতে পারে। বর্তমানেই ডিপফেক (কৃত্রিমভাবে চেহারা, ছবি ও কণ্ঠ পরিবর্তন করা, যা অনেকটা আসলের মতোই মনে হয়) ভুয়া তথ্য ছড়ানোর ক্ষেত্রে একটি বড় সমস্যা। জেনারেটিভ এআই ভিডিও আসলে এই সমস্যা আরও বাড়তে পারে। যদি সঠিকভাবে প্রযুক্তিটি তৈরি করা না হয় কিংবা যথাযথ নিয়ন্ত্রণ না থাকে, তাহলে এআই ভিডিওর সাহায্যে ভুয়া তথ্য ছড়ানোটা আরও সহজ হয়ে যাবে, যার ব্যাপক খারাপ পড়বে সর্বত্র। 
 
সূত্র: গ্যাজেটস নাউ
গ্রন্থনা: আহমেদ হিমেল

 

Comments

The Daily Star  | English

Rohingya influx hits 1.5 lakh in 18 months

Bangladesh has received nearly 150,000 Rohingyas over the past 18 months, marking the largest influx since 2017, according to the United Nations High Commissioner for Refugees (UNHCR).

29m ago