বাংলা, আমাদের মাতৃভাষা, যার সম্মান বাঁচাতে প্রাণ বাজি রেখেছিলেন ভাষাশহিদেরা। প্রতিবেশী বাংলাদেশের সেই ভাষা আন্দোলন পৃথিবীকে নতুনভাবে ভাবতে শিখিয়েছিল। ভাষা আন্দোলনের কথা উঠলে আমাদের দেশের বরাক উপত্যকার নামও উঠে আসে এক সারিতে। নানা ভাষা নানা মতের মিলনভূমি ভারতবর্ষ, যার সংবিধান স্বীকৃত ভাষার সংখ্যাই ২২। দেশের নানা প্রান্তে ছড়িয়ে থাকা এমনই অজস্র মাতৃভাষা নিয়ে ভাষা-প্রযুক্তির মাধ্যমে পৃথিবীর বিভিন্ন দেশকে নতুন করে ভাবতে শেখাচ্ছে আমাদের দেশ। প্রযুক্তিকে হাতিয়ার করে গড়ে তুলছে বিশ্বজনীন আন্দোলন।

বাংলার ভাষা প্রযুক্তির প্রত্যক্ষ ব্যবহারের কথা বলতে গেলে প্রথমেই আসে ‘অভ্র’ কি-বোর্ডের কথা, যা গত দশকে কম্পিউটারে কাজ করা বাঙালি মাত্রই ব্যবহার করেছেন বলা চলে। যদিও এটিই বাংলার  প্রথম কি-বোর্ড নয়, তার আগে (এবং পরেও) অনেক বাংলা কি-বোর্ড এসেছে, কিন্তু জনপ্রিয়তায় ‘অভ্র’ আজও অপ্রতিদ্বন্দ্বী। অভ্র শুধু আমাদের বাংলা অক্ষর লিখতেই সাহায্য করে না, তার পাশাপাশি বানান শোধরাতেও সাহায্য করে। অর্থাৎ এই প্রযুক্তিতে একই সঙ্গে রয়েছে বাংলা কিবোর্ড এবং স্পেল-চেকার। ময়মনসিংহ মেডিকেল কলেজের তৎকালীন ছাত্র মেহদী হাসান খান ২০০৩ সালে অভ্র কি-বোর্ড তৈরি করেন এবং এটিকে বিনামূল্যে ব্যবহারের জন্য উন্মুক্ত করে দেন। 

সময়ের সাথে সাথে গুগল, ফেসবুক, মাইক্রোসফট ইত্যাদি সব তথ্য-প্রযুক্তি সংস্থাগুলিই পাল্লা দিয়ে বাংলা এবং অন্যান্য ভারতীয় ভাষার প্রযুক্তিগত বিভেদ মুছে দিতে উদ্যত হয়েছে, তথ্য-প্রযুক্তি দিয়ে নানা ভাষাভাষী মানুষদের কাছে পৌঁছনোর চেষ্টা করে চলেছে। অবশ্য বাংলা এবং হিন্দি নিয়েই কাজ হয়েছে বেশি। এই দুটি ভাষা পৃথিবীর প্রথম দশটি বাচ্য ভাষার অন্যতম, সেটিও এই তৎপরতার একটি প্রধান কারণ।

Avro Keyboard

আমরা জানি, একটি ভাষার বিবর্তন হয় নানা ভাবে। যুগের সঙ্গে তাল মিলিয়ে ভাষা বিবর্তনের পাশাপাশি প্রযুক্তি এবং তৎসংলগ্ন ভাষাপ্রযুক্তিও বদলাচ্ছে এবং সাধারণ মানুষের কাছে অত্যন্ত প্রাসঙ্গিক হয়ে দাঁড়াচ্ছে সে বদল। মর্যাদাপূর্ণ আন্তর্জাতিক ভাষাগুলোর মাধ্যমে (আমাদের দেশের ক্ষেত্রে যা ইংরাজি) বিভিন্ন ধরনের তথ্য আদান-প্রদান বেশি হলেও অন্তর্জালে ভারতীয় ভাষাদের উপস্থিতিও বেড়েই চলেছে। ১৯৫০ সালে আলেন টুরিং মানব-ভাষা প্রক্রিয়াকরণের (Natural Language Processing) যে পথ খুলে দিয়েছিলেন তা কৃত্রিম ধী-এর (AI) একটি অন্যতম উপকরণ। এর ফলে কম্পিউটার আমাদের ভাষা শুধু বুঝতেই পারবে না, সেই ভাষায় আমাদের সঙ্গে তাল মিলিয়ে মানুষের মতো কথা বলতে পারবে; এমনকি ‘গুপী গাইন বাঘা বাইন’-এর ভূতের রাজার মত বিভিন্ন কাজও করে দিতে পারবে (অবশ্যই অসাধ্যসাধন করা যাবে না)।

এবার আসা যাক বাংলা ভাষা এবং বর্তমান তথ্য-প্রযুক্তি জগতে তার স্থান নিয়ে। বাংলা বর্ণমালা নিয়ে ভাষা-প্রযুক্তির উন্নয়নকাজে বিভিন্ন গবেষণাগার, সংস্থা এবং কোম্পানির সহযোগিতা জড়িত। তবে এক্ষেত্রে প্রযুক্তি-বিকাশের মূল কেন্দ্রস্থল হিসেবে অবশ্যই আমাদের দেশের থেকে অনেকটা এগিয়ে রয়েছে বাংলাদেশ, কারণ বাংলা ভাষা সে দেশের জাতীয় ভাষা।

আরও পড়ুন: তোরা বাংলা শিখে করবি কী তা বল!

বাংলাদেশের একটি সরকারি প্রতিষ্ঠান, বাংলাদেশ কম্পিউটার কাউন্সিল (বিসিসি) বাংলা কি-বোর্ড, ওসিআর সফ্টওয়্যার এবং অন্যান্য ভাষা-প্রযুক্তি সরঞ্জামগুলির বিকাশে গুরুত্বপূর্ণ ভূমিকা পালন করেছে। বাংলাদেশের আরও একটি সংস্থা ‘সেন্টার ফর রিসার্চ অন বাংলা ল্যাঙ্গুয়েজ প্রসেসিং’ (সিআরবিএলপি) বাংলা বাক্যের পদ-চিহ্নকারী (Part-of-speech tagger), নামবাচক-শব্দ-সনাক্তকরণ (Named-Entity-Recognition) এবং মনোভাব নির্দেশক (sentiment analyzer) ইত্যাদি বিভিন্ন টুল তৈরি করেছে। এছাড়া ইন্টারন্যাশনাল সেন্টার ফর কম্পিউটার রিসোর্সেস অ্যান্ড ডেভেলপমেন্ট (ICCRD), মার্কিন যুক্তরাষ্ট্র ভিত্তিক একটি সংস্থা (বাংলা OCR সফটওয়্যার তৈরির সাথে জড়িত) এবং বাংলাদেশ অ্যাসোসিয়েশন অফ সফটওয়্যার অ্যান্ড ইনফরমেশন সার্ভিসেস (বেসিস) বাংলা ভাষার প্রযুক্তির উন্নয়নে গুরুত্বপূর্ণ ভূমিকা পালন করেছে।

Language movement Bangladesh
বাংলাদেশ ভাষা আন্দোলন

বর্তমান সময়ে দাঁড়িয়ে দেখতে গেলে ভাষা প্রযুক্তির ক্ষেত্রে সবথেকে গুরুত্বপূর্ণ বিষয় হচ্ছে ল্যাঙ্গুয়েজ কর্পোরা, যার উপর ভিত্তি করে কম্পিউটারকে ভাষা শেখানো হয়। এর সাহায্যে নানা জটিল কাজ, যেমন কৃত্রিম অনুবাদ (machine translation), বক্তা চেনা (speaker identification), এবং মানবিক-ভাষা-প্রক্রিয়াকরণ (NLP) প্রভৃতি সম্ভব হয়। একটি ভাষা কর্পাস হল লিখিত বা বাচ্য তথ্যের বিরাট সংগ্রহ যাতে মানুষের দ্বারা বিভিন্ন ট্যাগের সংযোজনে তথ্য অন্তর্ভুক্ত করা হয়, যেমন পার্ট-অফ-স্পিচ ট্যাগ, নামবাচক বিশেষ্য সনাক্তকরণ (Named-Entity-Recognition) ট্যাগ এবং পারসিং ট্যাগ।

বাংলা ভাষার ক্ষেত্রে যে যে কর্পাস আছে তাদের মধ্যে উল্লেখযোগ্য হল বাংলা ট্রিব্যাঙ্ক (CRBLP দ্বারা তৈরি করা হয়েছে)। এটিতে ৫০০০০ এরও বেশি শব্দ রয়েছে। পাশাপাশি বক্তব্যের অংশ, বাক্যাংশ গঠন এবং নামযুক্ত সত্তার জন্য টীকা অন্তর্ভুক্ত রয়েছে এতে। বাংলা উইকিপিডিয়া কর্পাস (>1.6 মিলিয়ন শব্দ) রয়েছে যা মেশিন অনুবাদ এবং অনুভূতি বিশ্লেষণ সহ বিভিন্ন গবেষণা প্রকল্পের জন্য ব্যবহৃত হয়। এছাড়াও রয়েছে বাংলা স্পিচ ডেটাবেস, বাংলা সংবাদ কর্পাস, বাংলা ব্রডকাস্ট নিউজ কর্পাস। 

ভারতবর্ষে বাংলা ভাষার উপর কাজ চলছে বিভিন্ন আইআইটি (প্রধানত বম্বে, খড়গপুর, মাদ্রাজ), ট্রিপল-আইটি এবং C-DAC গুলিতে। বেসরকারি সংস্থা যেমন গুগল, মাইক্রোসফ্ট, আমাজন ইত্যাদিও কোমর বেঁধে নেমে পড়েছে ভারতীয় ভাষা এবং সেই ভাষায় কথা বলা মানুষদের আপন করে নিতে। এ বিষয়ে ভারতে যাঁদের কাজ উল্লেখযোগ্য তাঁদের মধ্যে আছেন অধ্যাপক পুষ্পক ভট্টাচার্য, ড. মনোজিৎ চৌধুরী, অধ্যাপক নীলাদ্রি শেখর দাশ, অধ্যাপক সুদেষ্ণা সরকার। 

Bengali Language

ডিপ-লার্নিং এবং স্নায়বিক জাল (neural network) এসে আমাদের ভাষাকে প্রায় গুলে খেতে বসেছে। আজকে চ্যাট-GPT এবং বিভিন্ন কৃত্রিম chatbot যা যা কাজ করতে সক্ষম হচ্ছে তা সত্যিই অকল্পনীয়। এই রকম বৃহৎ-ভাষা-কাঠামো (Large Language Model) বাংলা বা অন্যান্য ভারতীয় ভাষায় তৈরি করতে গেলে যে বিপুল এবং যে মানের তথ্য প্রয়োজন তা হয়ত বাংলা ভাষায় পাওয়া ভীষণই মুশকিল, এবং তার চাহিদাও হয়ত ইংরেজি ভাষার মত হবে না। তবু আশা করা যায়, প্রযুক্তিক্ষেত্রে বাংলা ভাষার ব্যবহার বৃদ্ধি পাবে, ভাষা-প্রযুক্তির হাত ধরে আমাদের মাতৃভাষা ততই দীর্ঘজীবী হবে এবং তা বেঁচে থাকবে মানুষের দৈনন্দিন জীবনের একটি গুরুত্বপূর্ণ অঙ্গ হয়ে। 

ছবি সৌজন্য: flickr, Wikipedia, The Independent,

Anustup Bhattacharya author

অনুষ্টুপ ভট্টাচার্য লেখক এবং সঙ্গীতশিল্পী, ITC সঙ্গীত রিসার্চ অকাডেমির প্রাক্তন স্কলার। বর্তমানে আইআইটি বম্বেতে ভাষাবিজ্ঞানের উপর গবেষণায় রত।

Leave a Reply

Your email address will not be published. Required fields are marked *