ডাটা (Data), বিগ ডাটা (Big Data) ও মেটা ডাটা (Meta Data) ?

ডাটা (Data):

ধরুন আপনি ইলেকট্রনিক জাহাজে (Air Bus)করে বাংলাদেশ থেকে নরওয়ে তে যাচ্ছেন ডিএইচআইএস ২ দেখার জন্য। একবার কি ভেবে দেখেছেন যে প্রতি সেকেন্ড এ বিমানে কি পরিমান তথ্যের (অনেক শ্রেণীবদ্ধ ডাটার সমন্বয়) প্রয়োজন হচ্ছে অথবা কি পরিমান তথ্য সে জমা করছে? অর্থাৎ ফ্লাইট ডাটা রেকর্ডার বা এফডিআর, যেটি বিমানের ওড়া, ওঠানামা, বিমানের মধ্যের তাপমাত্রা, পরিবেশ, চাপ বা তাপের পরিবর্তন, সময়, শব্দ ইত্যাদি নানা বিষয় নিজের সিস্টেমের মধ্যে রেকর্ড করে রাখে। আর যেখানে তথ্য গুলো জমা রাখে তাকে ‘ব্ল্যাক বক্স’বলে যা আমরা সবাই জানি। এটিকে ব্ল্যাক বক্স নামে ডাকা হলেও এর আসল নাম হলো ফ্লাইট রেকর্ডার আর এটির রং অনেকটা কমলা ধরণের। তাহলে আপনার নরওয়ে যেতে ১৫ ঘণ্টায় কি পরিমান তথ্য ফ্লাইট রেকর্ডারে জমা হবে? আসলে আমরা এই তথ্য গুলোকেই ডাটা বলছি।

প্রতি মুহূর্তে দুনিয়াতে যা ঘটছে সবই ডাটা বা তথ্য। সহজ না? ফেসবুক স্ট্যাটাস দিচ্ছেন, ইউটিউবে ভিডিও আপলোড করছেন, কোথাও রেজিস্ট্রেশন করছেন, কোন জরিপ করছেন, দৈনিক ঘটে যাওয়া কিছু ঘটনা রেকর্ড করে রাখছেন এসবই ডাটা। আবার গবেষকগণ তাদের গবেষণার বিভিন্ন ধাপে নানা রকম তথ্য পাচ্ছেন এবং সেগুলোর লগ রাখছেন, আবহাওয়া অধিদপ্তর প্রতিদিনকার তথ্য কোথাও জমা করছে, দুর্গম কোন এলাকায় ডেপলয় করা কোন সেন্সর বা রোবট ডাটা সেন্স করে রেকর্ড করে যাচ্ছে এসবও ডাটা। কোন সুপার শপে ঘটে যাওয়া সব ট্র্যাঞ্জেকশন, ব্যাংকে ঘটমান বিভিন্ন ক্রেতা বিক্রেতার ট্র্যাঞ্জেকশন, অনলাইনে ক্রেডিট কার্ড ইউজ করে কেনা কাটা এসবও ডাটা।

সিরিয়াস কথা হচ্ছে – datum ল্যাটিন শব্দ থেকেই Data শব্দের উৎপত্তি। datum কিন্তু সিঙ্গুলার ফর্ম। data হচ্ছে এর প্লুরাল ফর্ম। তো, datum মানে হচ্ছে সিঙ্গেল কোন এন্টিটি বা সিঙ্গেল কোন একটা ঘটনার অবস্থান(বিন্দু)। এজন্য datum কে data points বলা হয়। তার মানে, data দিয়ে আসলে অনেক গুলো data points কেই বোঝানো হয়। টেকনিক্যালি Data কে Dataset হিসেবেও লেখা হয়। তাই Dataset মানেও হচ্ছে কিছু Data Point এর কালেকশন। যাই হোক খুশির খবর হচ্ছে, বর্তমানে Data শব্দকে একবচন বা বহুবচন দুভাবেই প্রকাশ করা হয়। ঝামেলা কম।

আবার বলি, ডাটা হচ্ছে কালেকশন অফ ফ্যাক্টস যেমন নাম্বার, শব্দ, পরিমাণ, পর্যবেক্ষণ এমনকি কোন কিছুর বর্ণনা। দুরকম ডাটা আছে – কোয়ালিটেটিভ ও কোয়ান্টিটেটিভ। আমার অনেক টাকা আছে, ওর চুল অনেক লম্বা; এসব কোয়ালিটেটিভ ডাটার উদাহরণ। দ্বিতীয় প্রকারের ডাটা আবার দু রকম হয় – ডিসক্রিট এবং কন্টিনিউয়াস। আমার দুটো পা, তার কাছে ১০০ টাকা আছে এগুলো ডিসক্রিট এবং সে ৫৬৫ মিলিমিটার লম্বা, আজ ২৩ মিমি বৃষ্টি হয়েছে এসব কন্টিনিউয়াস ডাটার উদাহরণ।

ডাটার কিছু বৈশিষ্ট্য আছে যেগুলো নিচের মত –

১) অনেক বিশাল পরিমাণে হতে পারে – আর তাই এসব অ্যানালাইসিসের জন্য ঠিক করা অ্যাল্গরিদমকে স্কেল্যাবল হতে হবে। নাহলে দেখা যাবে আপনার অ্যালগরিদম কম ডাটার উপর ঠিকি দ্রুত কাজ করতে পারে কিন্তু বেশি ডাটা নিয়ে হিসাব করতে গেলেই হ্যাং হয়ে বসে থাকে। (কমপ্লেক্সিটি অফ অ্যালগরিদম এর দরকার মনে পরে যাবে) ২) হাই ডাইমেনশনালিটি – ডাটা হতে পারে হাজার হাজার ডাইমেনশন সম্পন্ন। হুম হাজার হাজার। ৩) খুবি জটিল প্রকৃতির – যেমন সেন্সর ডাটা, বিভিন্ন ডাটা স্ট্রিম (সাউন্ড), টাইম সিরিজ ডাটা, টেম্পরাল ডাটা, সিকোয়েন্স ডাটা ইত্যাদি। মাল্টিমিডিয়া ডাটা, টেক্সট বা ওয়েব ডাটা। গ্রাফ ডাটা বা সোশাল নেটওয়ার্ক ডাটা ইত্যাদি ইত্যাদি। Source


বিগ ডাটা (Big Data)

আপানকে বলা হল সমগ্র বাংলাদেশ এ গত ১০ ঘণ্টায় কি পরিমাণ বিদ্যুৎ খরচ হয়েছে অথবা সব সরকারি বা বেসরকারি বাংকে কি পরিমাণ transactions হয়েছে। আপনার পক্ষে কি আন্দাজ করা সম্ভব যে কত গিগাবাইটস ডাটা এসব transactions এ জমা হয়েছে? প্রায় অসম্ভব!

বর্তমান বিশ্বের শতকরা ৮০ ভাগ ইনফরমেশন এখন আনস্ট্রাকচার্ড(Unstructured), আনস্ট্রাকচার্ড ডাটা স্ট্রাকচার্ড(Structured) ডাটা থেকে প্রায় ১৫ গুণ হারে বাড়ছে। ইনফরমেশনগুলো এক্সেস পাওয়া যেন সবার গণতান্ত্রিক অধিকার হয়ে দাঁড়িয়েছে , মানে সবার জন্য ইনফরমেশন গুলো এভেইল্যাবল। ২০২০ সালের মধ্যে ডাটা ক্রিয়েটিং রেট হবে ৪৪ ট্রিলিয়ন গিগাবাইটস। [ফোর্বস ] আর এই বিভিন্ন ওয়েবে, সেন্সরের মাধ্যমে, পরিবেশগত এবং আমাদের দ্বারা সৃষ্ট সব ডাটার সমষ্টিকে বলা হয় বিগ ডাটা। এই ডাটার পরিমাণ এত বেশি যে সেগুলোকে গুটিকয়েক সাধারণ কম্পিউটার দ্বারা বিশ্লেষণ করা অসম্ভব (আংশিকভাবে সম্ভব হলেও তা বেশ কষ্টসাধ্য)। এসব বিষয় নিয়ে কাজ করে থাকেন ডাটা সায়েন্টিষ্টরা, নানান রিসার্চার, যারা এসব ডাটাকে অ্যানালাইসিস করেন।

আর এই আনস্ট্রাকচার্ড বা স্ট্রাকচার্ড ডাটা কেই বিগ ডাটা বলা হয়।


মেটা ডাটা (Meta Data)

ধরুন, আপনি একটি সফটওয়্যার বানাতে চান। যে সফটওয়্যারটি বাংলাদেশ এর ক্যান্সার রুগীর প্রতি সপ্তাহের বা প্রতি মাসের ডাটা ক্লিনিক থেকে, উপজেলা থেকে ও জেলা লেভেল থেকে সংগ্রহ করবে এবং সেই ডাটা অনুসারে আপনি এমআইএস এ বসে বিভিন্ন ধরনের সিধান্ত গ্রহন করবেন।

চলুন দেখা যাক সফটওয়্যারটি তৈরি করতে আপনার কোন কোন বিষয় প্রয়োজন পরবেঃ প্রথমত আপনি ক্যান্সার রুগীর কি ধরনের ডাটা সংগ্রহ করতে চান তা নির্ধারণ করতে হবে যেমন রুগীর নাম, পিতার নাম/ স্বামীর নাম, বয়স, কোথায় থাকেন ইত্যাদি ইত্যাদি, কোন কোন প্রতিষ্ঠান থেকে তথ্য আসবে সেসব প্রতিষ্ঠানের বিস্তারিত তথ্য… আরও অনেক কিছু। এখানে রুগীর ক্যান্সার সম্পর্কিত তথ্য সমুহ সংগ্রহ করার পূর্বে আপানকে যেসব ডাটা নিয়ে কাজ করতে হবে সে সব ডাটাকেই মেটা ডাটা বলে। অর্থাৎ ডাটা সম্পর্কিত ডাটাকে মেটা ডাটা বলে। আরও একভাবে বলা যেতে পারে, ডাটাসমূহ একে অপরের সাথে কিভাবে সম্পর্কযুক্ত থাকে, তা যে ডাটার মাধ্যমে বর্ণিত থাকে তাকে মেটা ডাটা বলে। নীচের চিত্র থেকে ডিএইচআইএস ২ তে যেসব মেটা ডাটা আছে তা সম্পর্কে জানতে পারবেন।

ডাটা (Data):

ধরুন আপনি ইলেকট্রনিক জাহাজে (Air Bus)করে বাংলাদেশ থেকে নরওয়ে তে যাচ্ছেন ডিএইচআইএস ২ দেখার জন্য। একবার কি ভেবে দেখেছেন যে প্রতি সেকেন্ড এ বিমানে কি পরিমান তথ্যের (অনেক শ্রেণীবদ্ধ ডাটার সমন্বয়) প্রয়োজন হচ্ছে অথবা কি পরিমান তথ্য সে জমা করছে? অর্থাৎ ফ্লাইট ডাটা রেকর্ডার বা এফডিআর, যেটি বিমানের ওড়া, ওঠানামা, বিমানের মধ্যের তাপমাত্রা, পরিবেশ, চাপ বা তাপের পরিবর্তন, সময়, শব্দ ইত্যাদি নানা বিষয় নিজের সিস্টেমের মধ্যে রেকর্ড করে রাখে। আর যেখানে তথ্য গুলো জমা রাখে তাকে ‘ব্ল্যাক বক্স’বলে যা আমরা সবাই জানি। এটিকে ব্ল্যাক বক্স নামে ডাকা হলেও এর আসল নাম হলো ফ্লাইট রেকর্ডার আর এটির রং অনেকটা কমলা ধরণের। তাহলে আপনার নরওয়ে যেতে ১৫ ঘণ্টায় কি পরিমান তথ্য ফ্লাইট রেকর্ডারে জমা হবে? আসলে আমরা এই তথ্য গুলোকেই ডাটা বলছি।

প্রতি মুহূর্তে দুনিয়াতে যা ঘটছে সবই ডাটা বা তথ্য। সহজ না? ফেসবুক স্ট্যাটাস দিচ্ছেন, ইউটিউবে ভিডিও আপলোড করছেন, কোথাও রেজিস্ট্রেশন করছেন, কোন জরিপ করছেন, দৈনিক ঘটে যাওয়া কিছু ঘটনা রেকর্ড করে রাখছেন এসবই ডাটা। আবার গবেষকগণ তাদের গবেষণার বিভিন্ন ধাপে নানা রকম তথ্য পাচ্ছেন এবং সেগুলোর লগ রাখছেন, আবহাওয়া অধিদপ্তর প্রতিদিনকার তথ্য কোথাও জমা করছে, দুর্গম কোন এলাকায় ডেপলয় করা কোন সেন্সর বা রোবট ডাটা সেন্স করে রেকর্ড করে যাচ্ছে এসবও ডাটা। কোন সুপার শপে ঘটে যাওয়া সব ট্র্যাঞ্জেকশন, ব্যাংকে ঘটমান বিভিন্ন ক্রেতা বিক্রেতার ট্র্যাঞ্জেকশন, অনলাইনে ক্রেডিট কার্ড ইউজ করে কেনা কাটা এসবও ডাটা।

সিরিয়াস কথা হচ্ছে – datum ল্যাটিন শব্দ থেকেই Data শব্দের উৎপত্তি। datum কিন্তু সিঙ্গুলার ফর্ম। data হচ্ছে এর প্লুরাল ফর্ম। তো, datum মানে হচ্ছে সিঙ্গেল কোন এন্টিটি বা সিঙ্গেল কোন একটা ঘটনার অবস্থান(বিন্দু)। এজন্য datum কে data points বলা হয়। তার মানে, data দিয়ে আসলে অনেক গুলো data points কেই বোঝানো হয়। টেকনিক্যালি Data কে Dataset হিসেবেও লেখা হয়। তাই Dataset মানেও হচ্ছে কিছু Data Point এর কালেকশন। যাই হোক খুশির খবর হচ্ছে, বর্তমানে Data শব্দকে একবচন বা বহুবচন দুভাবেই প্রকাশ করা হয়। ঝামেলা কম।

আবার বলি, ডাটা হচ্ছে কালেকশন অফ ফ্যাক্টস যেমন নাম্বার, শব্দ, পরিমাণ, পর্যবেক্ষণ এমনকি কোন কিছুর বর্ণনা। দুরকম ডাটা আছে – কোয়ালিটেটিভ ও কোয়ান্টিটেটিভ। আমার অনেক টাকা আছে, ওর চুল অনেক লম্বা; এসব কোয়ালিটেটিভ ডাটার উদাহরণ। দ্বিতীয় প্রকারের ডাটা আবার দু রকম হয় – ডিসক্রিট এবং কন্টিনিউয়াস। আমার দুটো পা, তার কাছে ১০০ টাকা আছে এগুলো ডিসক্রিট এবং সে ৫৬৫ মিলিমিটার লম্বা, আজ ২৩ মিমি বৃষ্টি হয়েছে এসব কন্টিনিউয়াস ডাটার উদাহরণ।

ডাটার কিছু বৈশিষ্ট্য আছে যেগুলো নিচের মত –

১) অনেক বিশাল পরিমাণে হতে পারে – আর তাই এসব অ্যানালাইসিসের জন্য ঠিক করা অ্যাল্গরিদমকে স্কেল্যাবল হতে হবে। নাহলে দেখা যাবে আপনার অ্যালগরিদম কম ডাটার উপর ঠিকি দ্রুত কাজ করতে পারে কিন্তু বেশি ডাটা নিয়ে হিসাব করতে গেলেই হ্যাং হয়ে বসে থাকে। (কমপ্লেক্সিটি অফ অ্যালগরিদম এর দরকার মনে পরে যাবে) ২) হাই ডাইমেনশনালিটি – ডাটা হতে পারে হাজার হাজার ডাইমেনশন সম্পন্ন। হুম হাজার হাজার। ৩) খুবি জটিল প্রকৃতির – যেমন সেন্সর ডাটা, বিভিন্ন ডাটা স্ট্রিম (সাউন্ড), টাইম সিরিজ ডাটা, টেম্পরাল ডাটা, সিকোয়েন্স ডাটা ইত্যাদি। মাল্টিমিডিয়া ডাটা, টেক্সট বা ওয়েব ডাটা। গ্রাফ ডাটা বা সোশাল নেটওয়ার্ক ডাটা ইত্যাদি ইত্যাদি। Source


বিগ ডাটা (Big Data)

আপানকে বলা হল সমগ্র বাংলাদেশ এ গত ১০ ঘণ্টায় কি পরিমাণ বিদ্যুৎ খরচ হয়েছে অথবা সব সরকারি বা বেসরকারি বাংকে কি পরিমাণ transactions হয়েছে। আপনার পক্ষে কি আন্দাজ করা সম্ভব যে কত গিগাবাইটস ডাটা এসব transactions এ জমা হয়েছে? প্রায় অসম্ভব!

বর্তমান বিশ্বের শতকরা ৮০ ভাগ ইনফরমেশন এখন আনস্ট্রাকচার্ড(Unstructured), আনস্ট্রাকচার্ড ডাটা স্ট্রাকচার্ড(Structured) ডাটা থেকে প্রায় ১৫ গুণ হারে বাড়ছে। ইনফরমেশনগুলো এক্সেস পাওয়া যেন সবার গণতান্ত্রিক অধিকার হয়ে দাঁড়িয়েছে , মানে সবার জন্য ইনফরমেশন গুলো এভেইল্যাবল। ২০২০ সালের মধ্যে ডাটা ক্রিয়েটিং রেট হবে ৪৪ ট্রিলিয়ন গিগাবাইটস। [ফোর্বস ] আর এই বিভিন্ন ওয়েবে, সেন্সরের মাধ্যমে, পরিবেশগত এবং আমাদের দ্বারা সৃষ্ট সব ডাটার সমষ্টিকে বলা হয় বিগ ডাটা। এই ডাটার পরিমাণ এত বেশি যে সেগুলোকে গুটিকয়েক সাধারণ কম্পিউটার দ্বারা বিশ্লেষণ করা অসম্ভব (আংশিকভাবে সম্ভব হলেও তা বেশ কষ্টসাধ্য)। এসব বিষয় নিয়ে কাজ করে থাকেন ডাটা সায়েন্টিষ্টরা, নানান রিসার্চার, যারা এসব ডাটাকে অ্যানালাইসিস করেন।

আর এই আনস্ট্রাকচার্ড বা স্ট্রাকচার্ড ডাটা কেই বিগ ডাটা বলা হয়।


মেটা ডাটা (Meta Data)

ধরুন, আপনি একটি সফটওয়্যার বানাতে চান। যে সফটওয়্যারটি বাংলাদেশ এর ক্যান্সার রুগীর প্রতি সপ্তাহের বা প্রতি মাসের ডাটা ক্লিনিক থেকে, উপজেলা থেকে ও জেলা লেভেল থেকে সংগ্রহ করবে এবং সেই ডাটা অনুসারে আপনি এমআইএস এ বসে বিভিন্ন ধরনের সিধান্ত গ্রহন করবেন।

চলুন দেখা যাক সফটওয়্যারটি তৈরি করতে আপনার কোন কোন বিষয় প্রয়োজন পরবেঃ প্রথমত আপনি ক্যান্সার রুগীর কি ধরনের ডাটা সংগ্রহ করতে চান তা নির্ধারণ করতে হবে যেমন রুগীর নাম, পিতার নাম/ স্বামীর নাম, বয়স, কোথায় থাকেন ইত্যাদি ইত্যাদি, কোন কোন প্রতিষ্ঠান থেকে তথ্য আসবে সেসব প্রতিষ্ঠানের বিস্তারিত তথ্য… আরও অনেক কিছু। এখানে রুগীর ক্যান্সার সম্পর্কিত তথ্য সমুহ সংগ্রহ করার পূর্বে আপানকে যেসব ডাটা নিয়ে কাজ করতে হবে সে সব ডাটাকেই মেটা ডাটা বলে। অর্থাৎ ডাটা সম্পর্কিত ডাটাকে মেটা ডাটা বলে। আরও একভাবে বলা যেতে পারে, ডাটাসমূহ একে অপরের সাথে কিভাবে সম্পর্কযুক্ত থাকে, তা যে ডাটার মাধ্যমে বর্ণিত থাকে তাকে মেটা ডাটা বলে। নীচের চিত্র থেকে ডিএইচআইএস ২ তে যেসব মেটা ডাটা আছে তা সম্পর্কে জানতে পারবেন।