1. কন্টেন্টে যান
  2. মূল মেন্যুতে যান
  3. আরো ডয়চে ভেলে সাইটে যান

এআই-র সাহায্যে ভারতে ১২১ ভাষার ডেটাবেস হচ্ছে

৬ ডিসেম্বর ২০২৩

ভারতে চালু ১২১টি ভাষার মানুষের কাছে অনুবাদের মাধ্যমে পৌঁছে যাবে যে কোনো তথ্য৷ ইংরেজির উপর নির্ভরশীলতা কমবে৷

https://p.dw.com/p/4Zpba
স্মার্টফোনে ডিসপ্লে করা এআই ও চ্যাটজিপিটি।
এআই, চ্যাটজিপিটি-র সাহায্যে এই ডেটাবেস তৈরি করা হচ্ছে। ছবি: Jonathan Raa/NurPhoto/picture alliance

দক্ষিণ ভারতের রাজ্য কর্ণাটকের একটি গ্রামের মানুষ কয়েক সপ্তাহ ধরে একটার পর একটা বাক্য কন্নড় ভাষায় বলে যাচ্ছিলেন৷ আর তা একটি অ্যাপে তুলে নেয়া হচ্ছিল৷ এই অ্যাপটি হলো টিবি-র জন্য দেশের প্রথম কৃত্রিম মেধা বা এআই-ভিত্তিক চ্যাটবট৷

ভারতে চার কোটি মানুষ কন্নড় বলেন৷ দেশের ২২টি স্বীকৃত সরকারি ভাষার মধ্যে কন্নড় একটি৷ ভারতে এমন ১২১টি ভাষা আছে, যা ১০ হাজার বা তার বেশি মানুষ ব্যবহার করেন৷ কিন্তু খুব কম ভাষাই ন্যাচরাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি)-তে আছে৷

এনএলপি হলো এআই-এর একটি শাখা, যার মাধ্যমে কম্পিউটার কথ্য ও লিখিত ভাষা বুঝতে পারে৷ তাই এনএলপি-তে তথ্য না থাকলে সেই ভাষাকে কম্পিউটার বা নেটবাহিত বিভিন্ন মাধ্যম মানুষের কাছে পৌঁছে দিতে পারে না৷ ফলে কোটি কোটি ভারতীয় নিজের ভাষায় প্রয়োজনীয় তথ্য জানা থেকে বঞ্চিত হচ্ছেন এবং আর্থিক সুবিধাও পাচ্ছেন না৷

এবার এই খামতিটুকু দূর করতে উদ্যোগী হয়েছে, মাইক্রোসফট, গুগলের মতো সংস্থাগুলি৷ তারা ১২১টি ভারতীয় ভাষায় লিখিত ও কথ্য ডেটা সংগ্রহ করছে, যার মাধ্যমে নিজের ভাষায় সব তথ্য ভারতীয়দের কাছে পৌঁছে যায়৷

মাইক্রোসফট রিসার্চ ইন্ডিয়ার প্রধান গবেষক কালিকা বালি বলেছেন, ‘‘কৃত্রিম মেধাভিত্তিক টুলগুলিকে যদি সকলের কাছে পৌঁছাতে হয়, তাহলে ইংরেজি, ফরাসি, স্প্যানিশ ভাষার বাইরের মানুষদের কাছে যেতে হবে৷'' কালিকা জানিয়েছেন, ‘‘ভারতীয় ভাষাগুলির যদি বিশাল ডেটাবেস তৈরি করতে হয়, তাহলে ১০ বছর সময় লেগে যাবে৷ তাই আমরা পর্যায়ক্রমে কাজটা করতে পারি৷ চ্যাটজিপিটি ও লামার মতো এআই মডেলের সাহায্যে তা করা সম্ভব৷''

মাইক্রোসফট বা গুগলের জন্য ডেটা বা তথ্য সংগ্রহ করছে টেক ফার্ম কারিয়া৷ কর্ণাটকের ওই গ্রামের মানুষের মতো বিভিন্ন জায়গায় মানুষরা তাদের ভাষায় সমানে কথা বলছেন৷ তা রেকর্ড করা হচ্ছে৷ পরে শিক্ষা, স্বাস্থ্য ও অন্য পরিষেবার ক্ষেত্রে এই তথ্য ব্যবহার করবে কৃত্রিম মেধা ভিত্তিক টুলগুলি৷

ভারত সরকারও চাইছে, ডিজিটালি আরো বেশি পরিষেবা মানুষের কাছে পৌঁছে দিতে৷ তারাও একটা ভাষার তথ্যভাণ্ডার গড়ে তুলতে চাইছে৷ এআইয়ের মাধ্যমে ভাষা অনুবাদ ব্যবস্থা ভাষিনী টুলের মাধ্যমে তারা  করতে চাইছে৷ এর ফলে এআই টুল তৈরির জন্য স্থানীয় ভাষায় ওপেন ডেটা সোর্স তৈরি থাকছে৷

এই প্ল্যাটফর্মে অংশ নেয়ার জন্য মানুষকে এগিয়ে আসতে বলা হচ্ছে৷ তারা নিজের ভাষায় বাক্য বলছেন৷ টেক্সট অনুবাদ করছেন৷ ভাষিনীতে কয়েক লাখ ভারতীয় অংশ নিয়েছেন৷

মুম্বইয়ের কম্পিউটেশন ফর ইন্ডিয়ান ল্যাঙ্গুয়েজ টেকনলজি ল্যাবের প্রধান পুষ্পক ভট্টাচার্য বলেছেন, ‘‘সরকার বিভিন্ন ভারতীয় ভাষায় ডেটা সেট তৈরির কাজে খুবই গুরুত্ব দিচ্ছে৷ শিক্ষা, পর্যটন ও আদালতে এই অনুবাদ টুলগুলির ব্যবহার শুরু হয়ে গেছে৷''

তিনি জানিয়েছেন, ‘‘এর মধ্যে চ্যালেঞ্জও আছে৷ অনেক ভারতীয় ভাষায় কথা বলার একটা ঐতিহ্য আছে, কিন্তু ইলেকট্রনিক রেকর্ড বেশি নেই৷ তাছাড়া প্রচুর কোড মিক্সিং আছে৷ তাছাড়া যে সব ভাষা খুব প্রচলিত নয় বা খুব বেশি মানুষ কথা বলেন না, তার তথ্য সংগ্রহ করার জন্য বিশেষ তাগিদ দরকার৷''

এনএলপি-তে কয়টা ভাষা?

গোটা বিশ্বে সাত হাজারের বেশি ভাষা প্রচলিত আছে৷ তার মধ্যে এনএলপি-তে আছে একশটিরও কম ভাষা৷ এখানে সবচেয়ে বেশি গুরুত্ব পেয়েছে ইংরেজি ভাষা৷

চ্যাটজিপিটি ও গুগল বার্ডে শুধু ইংরেজি ব্যবহার হয়৷ অ্যামাজন অ্যালেক্সা নয়টি ভাষা ব্যবহার করে৷ তার মধ্যে ইউরোপের বাইরে তিনটি ভাষাই আছে, আরবি, হিন্দি ও জাপানি৷

সরকার ও স্টার্ট আপ কোম্পানিগুলি অন্য ভাষাগুলি যাতে এখানে আসে, তার জন্য কাজ করছে৷

কালিকা বালি মনে করেন, ‘‘ভারতে ক্রাউডসোর্সিং একটা উপযুক্ত ও ভালো পদ্ধতি৷'' কালিকার নাম টাইম ম্যাগাজিনে এআই-র ক্ষেত্রে সবচেয়ে প্রভাবশালী একশ জনের তালিকায় আছে৷ তিনি জানিয়েছেন, ‘‘ভারতীয় ভাষার তথ্য সংগ্রহের সময় তার ভাষাগত, সাংস্কৃতিক, আর্থ-সামাজিক বিষয়টা মাথায় রাখতে হবে৷''

অলাভজনক সংস্থা কারিয়া গরিবি রেখার নিচে থাকা মানুষদের দিয়ে কাজটা করায়৷ এক ঘণ্টার তথ্যের জন্য তাদের পাঁচ ডলার দেয়া হয়৷ এই সব তথ্যের একটা অংশের মালিকানা ওই মানুষদের কাছে থাকে, যাতে তারা ভবিষ্যতে রয়্যালটি পেতে পারে৷

বালি জানিয়েছেন, ‘‘আগে ওড়িয়া ভাষার ডেটা তিন থেকে চার ডলারে কেনা যেত৷ এখন তা কিনতে ৪০ ডলার লাগে৷''

গ্রামের কণ্ঠ

ভারতে ১১ শতংশের মতো মানুষ ইংরাজি ভাষায় কথা বলতে পারেন৷ একটা বড় অংশই ইংরেজি লিখতে বা পড়তে পারেন না৷ তাই বেশ কিছু এআই মডেল স্পিচ ও স্পিচ রেকগনিশনের উপর জোর দিয়েছে৷

গুগলের প্রজেক্ট ‘বাণী' বা ‘ভয়েস' ১০ লাখ ভারতীয়র স্পিচ ডেটা সংগ্রহ করেছে৷ তারা সেটা ওপেন সোর্সিং করেছে, যাতে স্পিচ রেকগনিশনে কাজে লাগে ও স্পিচ টু স্পিচ অনুবাদ করা যেতে পারে৷

বেঙ্গালুরুর একস্টেপ ফাউন্ডেশনের অনুবাদ টুল ভারত ও বাংলাদেশের সুপ্রিম কোর্টে ব্যবহার করা হচ্ছে৷ এআইফরভারত ‘যুগলবন্দি' বলে একটা টুল চালু করেছে৷ তারা এবং এআই ভিত্তিক চ্যাটবট সরকারের জনকল্যাণ প্রকল্প নিয়ে বিভিন্ন ভারতীয় ভাষায় প্রশ্নের জবাব দিতে পারে৷

‘গ্রাম বাণী' নামে সামাজিক প্রকল্প কৃষকদের কাছে তাদের বিভিন্ন প্রশ্নের জবাব দিচ্ছে ও কল্যাণ প্রকল্প সম্পর্কে জানাচ্ছে৷ তারা এআই ভিত্তিক চ্যাটবট ব্যবহার করেই এটা করছে৷ অটোমেটিক স্পিচ রেকগনিশন প্রযুক্তি ব্যবহার করার ফলে তৃণমূল স্তরের মানুষকে তাদের ভাষায় সব তথ্য দেয়া সম্ভব হচ্ছে৷

সময় বদলে যাবে

এই যে এআইয়ের সাহায্যে বিভিন্ন ভারতীয় ভাষার ডেটাবেস তৈরি হচ্ছে, তারপর কথ্য বা লিখিতভাবে তার ব্যবহার করা হবে, অন্য ভাষা থেকে অনুবাদ পৌঁছে যাবে সাধারণ মানুষের কাছে, তাতে কী উপকার হবে? এআই নিয়ে কাজ করেন একটি বেসরকারি সংস্থার কর্মী সৃজনী৷ তিনি ডিডাব্লিউকে বলেছেন, ‘‘ভারতে চালু ১২১টি ভাষায় কথা বলা মানুষের কাছে দিগন্ত খুলে যাবে৷ ইংরেজি জানতেই হবে এমন কোনো বাধ্যবাধকতাও সাধারণ মানুষের থাকবে না৷ অনুবাদের মাধ্যমে তাদের ভাষায় সবকিছু পৌঁছে যাবে৷''

সৃজনী বলেছেন, ‘‘বিশ্বজুড়ে যে তথ্যবিস্ফোরণ চলছে, তার অংশ হতে পারা, নিজের ভাষায় তা মানুষের কাছে পৌঁছে যাওয়া একটা বিশাল ব্যাপার৷ এখনই এআই প্রায় নিখুঁতভাবে লিপ সিংক করে অনুবাদ করে দিতে পারে৷ এআই এখন আমাদের অন্য দুনিয়ায় নিয়ে যাচ্ছে৷ ভারতের মানুষ যদি নিজের ভাষায় সেই দুনিয়ায় পৌঁছতে পারেন, তার থেকে ভালো তো আর কিছু হতে পারে না৷''

জিএইচ/জেডএইচ (থমসন রয়টার্স)