https://www.bigganchinta.com/technology/klg6kn5mn6
প্রকাশ: ২৪ জুলাই ২০২৫, ২১: ০০
ডিপ লার্নিং। এই বিশেষ ধরনের অ্যালগরিদম বদলে দিয়েছে কৃত্রিম বুদ্ধিমত্তার খোলনলচে। ২০২৪ সালে নোবেলজয়ী জিওফ্রি হিন্টন এই ধারণার প্রবর্তন করেন। কীভাবে এআই জগতে উত্থান হলো ডিপ লার্নিংয়ের, কীভাবে এটি প্রভাব রাখছে আমাদের জীবনে, সেই কাহিনি…
ছবি: ডিপ লার্নিং, প্রতীকী ছবি
২০০৬ সালে ফেই-ফেই লি এবং তাঁর দল স্ট্যানফোর্ড বিশ্ববিদ্যালয়ে তৈরি করেন ‘ইমেজনেট’ নামের বিশাল এক ডেটাসেট। এই ডেটাসেটে ছিল লাখ লাখ ছবির তথ্য, যার প্রতিটির সঙ্গে ছিল সুস্পষ্ট লেবেল। এর লক্ষ্য ছিল বড় আকারের ভিজ্যুয়াল ডেটাসেট সরবরাহ করা, যার অভাবে আগে নিউরাল নেটওয়ার্ক ট্রেনিং বাধাগ্রস্ত হয়েছিল। এই ডেটাসেট তৈরির মাধ্যমে মেশিন লার্নিং গবেষণায় ডেটার ঘাটতি অনেকটাই মিটে গেল। (বিস্তারিত পড়ুন: কৃত্রিম বুদ্ধিমত্তা ছবি শনাক্ত করতে শিখল কীভাবে-১ ও ২)। ঠিক একই সময়ে গ্রাফিকস প্রসেসিং ইউনিট বা জিপিইউর শক্তি ব্যাপকভাবে বাড়তে থাকে। বিশেষ করে এনভিডিয়ার জিপিইউ প্যারালাল কম্পিউটিংয়ের জন্য খুব উপযোগী প্রমাণিত হয়। কিছু গবেষক বুঝতে পারেন, এই জিপিইউগুলো দিয়ে নিউরাল নেটওয়ার্ককে আগের তুলনায় অনেক দ্রুত প্রশিক্ষণ দেওয়া সম্ভব।
২০০৯ সালের দিকে পরিচালিত এক গবেষণায় দেখা যায়, বড় ডেটাসেট (যেমন ইমেজনেট) এবং জিপিইউর মাধ্যমে প্রশিক্ষিত নিউরাল নেটওয়ার্কের কার্যক্ষমতা নাটকীয়ভাবে বেড়ে যায়। এই যুগান্তকারী আবিষ্কার নিউরাল নেটওয়ার্ক গবেষণায় নতুন উদ্দীপনার সৃষ্টি করে। ২০০৯ সালের দিকে দেখা গেল, বক্তৃতা বা কথাবার্তা থেকে স্বয়ংক্রিয়ভাবে বাক্য লেখার কাজেও ডিপ নিউরাল নেটওয়ার্ক অভূতপূর্ব ফল দিচ্ছে। এতদিন এই কাজে ব্যবহৃত হতো পরিসংখ্যানভিত্তিক কিছু মডেল (যেমন হিডেন মারকোভ মডেল), কিন্তু হিন্টন ও মাইক্রোসফটের গবেষকরা মিলে এমন এক ডিপ নেটওয়ার্ক তৈরি করলেন, যা মানুষের ভাষণকে লেখা বাক্যে রূপান্তর করতে আগের সব পদ্ধতির চেয়ে অনেক বেশি নিখুঁত। এরপর যেন বন্যার স্রোত নেমে এল—বড় বড় প্রযুক্তি প্রতিষ্ঠান বুঝতে পারল, এতদিন পাশ কাটিয়ে চলা এই ‘ডিপ লার্নিং’ পদ্ধতিই আসলে কৃত্রিম বুদ্ধিমত্তার ভবিষ্যৎ।
<aside> 💡
প্রতিযোগিতার ফলাফল ছিল বিস্ময়কর। অ্যালেক্সনেটের ভুলের হার ছিল মাত্র ১৬%, যেখানে অন্য দলগুলোর ভুলের হার ছিল প্রায় ২৬% বা তার বেশি। এই বিশাল ব্যবধান গবেষকদের হতবাক করে দেয়।
</aside>
২০১২ সাল ছিল ডিপ লার্নিং প্রযুক্তির ইতিহাসে সবচেয়ে গুরুত্বপূর্ণ বছর। সেই বছর ইমেজনেট লার্জ স্কেল ভিজ্যুয়াল রিকগনিশন চ্যালেঞ্জে (ILSVRC) টরন্টো বিশ্ববিদ্যালয় থেকে জিওফ্রি হিন্টনের নেতৃত্বাধীন দল অংশ নেয়। হিন্টনের এই দলে ছিলেন তাঁর ছাত্র অ্যালেক্স ক্রিজেভস্কি এবং ইলিয়া সাটস্কেভার। তাঁদের মডেল ছিল এক বিশাল ডিপ কনভোল্যুশনাল নিউরাল নেটওয়ার্ক। এটির প্রশিক্ষণের জন্য তাঁরা ব্যবহার করেছিলেন অত্যাধুনিক জিপিইউ, সাধারণ প্রসেসরের চেয়ে অনেক দ্রুত এটি গাণিতিক গণনা সামলে নিতে পারত। দীর্ঘ সময় ধরে সেই মডেলটিকে লাখ লাখ ছবি দিয়ে প্রশিক্ষণ দেওয়া হলো। তাঁদের তৈরি নিউরাল নেটওয়ার্কের নাম ছিল অ্যালেক্সনেট। এটি ছিল একটি ডিপ কনভোল্যুশনাল নিউরাল নেটওয়ার্ক বা সিএনএন। এই মডেলটি ইমেজনেটে থাকা লাখ লাখ ছবির তথ্য থেকে নিজেই ছবি চিনতে শিখেছিল।
সময়ের সঙ্গে সঙ্গে প্রতিযোগিতার চূড়ান্ত দিন ঘনিয়ে এল। হিন্টনের দলের সবাই কিছুটা উত্তেজিত ছিলেন, কারণ তাঁরা জানতেন, তাঁদের মডেল অন্যদের চেয়ে ভালো করছে; কিন্তু কতটা ভালো, তা নিশ্চিত ছিলেন না। ফলাফল ঘোষণা করার জন্য এক সম্মেলন হলে পৃথিবীর নানা প্রান্ত থেকে আসা কৃত্রিম বুদ্ধিমত্তা গবেষকেরা জড়ো হলেন। বিচারকমণ্ডলী যখন বিজয়ীর নাম ডাকলেন, শোনা গেল টরন্টো বিশ্ববিদ্যালয়ের হিন্টনের দলের নাম। কয়েক মুহূর্তের জন্য হলঘরে একধরনের নিস্তব্ধ বিস্ময় নেমে এল, তারপর করতালিতে ফেটে পড়ল সবাই। হিন্টন শান্ত হাসিমুখে তাঁর ছাত্র অ্যালেক্স ও ইলিয়াকে পাশে নিয়ে মঞ্চে উঠলেন। প্রতিযোগিতার ফলাফল ছিল বিস্ময়কর। অ্যালেক্সনেটের ভুলের হার ছিল মাত্র ১৬%, যেখানে অন্য দলগুলোর ভুলের হার ছিল প্রায় ২৬% বা তার বেশি। এই বিশাল ব্যবধান গবেষকদের হতবাক করে দেয়। এই সাফল্যকে অনেকেই কৃত্রিম বুদ্ধিমত্তা গবেষণায় ‘ইউরেকা মুহূর্ত’ হিসেবে উল্লেখ করেন। অর্থাৎ এক যুগান্তকারী পরিবর্তনের সূচনা। এক লাফে যেন কম্পিউটার ভিশন এক দশক এগিয়ে গেল। সেই সম্মেলনের হলে উপস্থিত গবেষকেরা অবাক হয়ে দেখলেন, এতদিন যার ওপর কেউ তেমন ভরসা করেনি, সেই নিউরাল নেটওয়ার্কই সবার সেরা হয়ে উঠেছে। অনেকেই ছুটে এসে হিন্টনকে অভিনন্দন জানালেন। তরুণ গবেষকেরা মুগ্ধ হয়ে দেখল, যাঁর আইডিয়াকে বইয়ে পড়ে অবাস্তব মনে হতো, তিনি বাস্তবে প্রমাণ করে দিলেন এর কার্যকারিতা।
<aside> 💡
ভাষান্তরের জগতে এল বিপ্লব—ডিপ লার্নিংয়ের জোরে কম্পিউটার এখন বাংলায় বলা বাক্য ইংরেজিতে প্রায় মানুষের মতো স্বাভাবিকভাবে অনুবাদ করতে পারে।
</aside>
ছবি: ২০১২ সালের ইমেজনেট প্রতিযোগিতায় সবচেয়ে ভালো ফলাফল করে অ্যালেক্সনেট
২০১২ সালের ইমেজনেট প্রতিযোগিতায় সবচেয়ে ভালো ফলাফল করে অ্যালেক্সনেট ২০১২ সালের ইমেজনেট প্রতিযোগিতায় সবচেয়ে ভালো ফলাফল করে অ্যালেক্সনেট এই বিপ্লবের পর থেকে ডিপ লার্নিং প্রযুক্তি কম্পিউটারবিজ্ঞান এবং প্রযুক্তি জগতের কেন্দ্রে চলে আসে। গুগল, ফেসবুক, মাইক্রোসফট, অ্যামাজন, এবং এনভিডিয়ার মতো কোম্পানিগুলো ব্যাপকভাবে ডিপ লার্নিং প্রযুক্তি গ্রহণ ও উন্নয়নে বিনিয়োগ করতে শুরু করে। গুগল তাদের সেবাগুলো—যেমন গুগল ফটোস, ইউটিউব, গুগল ট্রান্সলেট এবং গুগল অ্যাসিস্ট্যান্টের জন্য ডিপ লার্নিং ব্যবহার করতে শুরু করে। ফেসবুক ছবির ট্যাগিং, ভিডিও এবং কনটেন্ট সাজেশনে, অ্যামাজন প্রোডাক্ট সাজেশনে এবং মাইক্রোসফট তাদের কর্টানা এবং আজুর সেবায় ব্যাপকভাবে ডিপ লার্নিং ব্যবহার শুরু করে।