بیگ دیتا (Big Data) یا کلان داده چیست و چه کاربردهایی دارد؟
در این مقاله آموزشی شما را با مفاهیم ابتدایی بیگ دیتا آشنا می سازیم و به کاربردهای مختلف آن می پردازیم. هر کمپانی یا شرکت که با داده ها سر و کار دارد به زودی به سمت big data خواهد رفت.
مقدمه ای در مورد آشنایی با Big Data
واژه های بیگ دیتا یا کلان داده همانطور که از نام آنها می توان حدس زد به داده های عظیم و کلان اشاره دارند. در این مقاله کاربردی به جنبه های مختلف Big Data در دنیای امروز می پردازیم. در این دنیای دیجیتال که زندگی می کنیم هر لحظه در حال تولید داده در زمینه های مختلف هستیم. فرضا اگر تصمیم به سفر داشته باشیم به طور مستقیم و غیر مستقیم در حال تولید داده هستیم. برای خرید بلیط سفر یا رزرو هتل به جستجو در وب سایت های مختلف می پردازیم. انجام این اعمال همگی به عنوان داده در نظر گرفته می شوند، که این داده ها را سایت های مختلف گردآوری می کنند و با استفاده از این داده ها می توانند در سفرهای بعدی بر اساس علایق ما پیشنهاداتی ارائه نمایند.
ما حتی در زمان ورزش کردن نیز در حال تولید داده هستیم. با وجود گوشی ها و ساعت های هوشمند اعمالی همچون Body Tracking میسر شده است. به این مفهوم که از طریق ثبت و ردیابی فعالیت های بدنی ورزشکار، داده تولید می شود. مورد بعدی تولید محتوا در وب سایت هایی همچون Youtube می باشد که منابع عظیم تولید داده محسوب می شوند. در این گونه وب سایت ها، تولید کنندگان محتوا و کاربرانی که با مشاهده محتوا اقدام به انجام اعمالی همچون لایک، کامنت گذاری و غیره می کنند، در حال تولید داده هستند. مثلا اگر کاربر در یوتیوب یک محتوای ویدیویی را لایک کند، سیستم های پیشنهاد دهنده ویدیوهای مشابهی را جهت مشاهده به کاربر توصیه می کنند.
ویژگی خاص بیگ دیتا
بیگ دیتا دارای ویژگی های خاصی شامل سرعت (Velocity)، حجم (Bolume)، تنوع (Bariety و ارزش (Balue) است که در ادامه به بررسی و معرفی هرکدام از آن ها خواهیم پرداخت.
ویژگی Volume یا حجم دیتا در کلان داده
اولین ویژگی در داده های حجیم، Bolume می باشد که به حجم دیتا اشاره می کند. به این مفهوم که حجم دیتا به قدری سرسام آور است که با استفاده از سیستم های سنتی نمی توان اقدام به ذخیره سازی آنها نمود. فرضا در بستر یوتیوب تصور کنید در دقیقه چه حجمی از دیتا شامل ویدیو، کامنت، تصویر، استوری و غیره آپلود می گردد. کاربران به راحتی در حال استفاده از یوتیوب می باشند ولی در پشت پرده اتفاقات عظیمی رخ می دهد. یک سیستم فوق العاده در پس زمینه این حجم عظیم از دیتا را به صورت شبانه روزی مدیریت می کند.
همچنین اگر گوگل را در نظر بگیریم تصور حجم دیتای ذخیره شده در این غول فناوری بسیار مشکل است. در هر ثانیه جستجوهای بیشماری در موتور جستجوی گوگل صورت می پذیرد و تمام جستجوها نیز از لحاظ رفتاری آنالیز می شوند. نمونه بعدی تلسکوپ های فضایی می باشند که از طریق آنها، ناسا از اعماق کهکشان ها و سیارات اقدام به جمع آوری دیتا می کند. مسلما دریافت، ذخیره سازی و آنالیز این داده ها کار ساده ای نیست و نیاز به یک سیستمی است که بتوان این حجم از دیتا را در مقیاس کلان مدیریت کند.
ویژگی Velocity یا سرعت انتشار داده ها در بیگ دیتا
ویژگی دوم کلان داده ها velocity است که به سرعت تولید دیتا دلالت دارد. شبکه های اجتماعی از قبیل اینستاگرام، تلگرام و غیره در هر ثانیه و لحظه حجم زیادی از دیتا را تولید می کنند. این دیتا شامل ویدیو، عکس، متن، صوت و غیره می باشند. نمونه دیگر دیتاهایی هستند که سیستم های هواشناسی از طریق سنسورهای خود تولید کرده و به سیستم های مرکزی ارسال می کنند.
نمونه بارز Belocity را می توان در بستر فیسبوک، یوتیوب، توییتر و گوگل جستجو کرد. روزانه 900 میلیون عکس در بستر فیسبوک آپلود می شود. همچنین 500 میلیون توییت در بستر توییتر پست می گردد. شاهد 400 هزار ساعت آپلود ویدیو در بستر یوتیوب هستم. در گوگل نیز 3.5 میلیارد جستجو انجام می شود. این نمونه ها مصادیق بارزی از ویژگی Belocity هستند که در این پلتفرم ها وجود دارند.
ویژگی Variety یا تنوع دیتا در Big Data
ویژگی سوم در بیگ دیتا، Variety است که به تنوع دیتا می پردازد. این داده ها می تواند توسط انسان یا ماشین تولید شده باشند. داده ها به صورت ساختار یافته، نیمه ساختار یافته و بدون ساختار وجود دارند. این داده های متنوع شامل صوت، متن، عکس، ویدیو و انواع دیگر دیتا می باشند که روزانه در فضای حقیقی و مجازی با آنها در ارتباط هستیم. اما نکته جالب اینجاست که بایستی در Big Data این قابلیت وجود داشته باشد که انواع مختلف داده ها با حفظ تنوع به دسته های مختلف و صحیح طبقه بندی شوند. به عنوان مثال در تلگرام داده هایی با داده هایی از قبیل صوت، عکس، ویدیو، متن، ایموجی و غیره سر و کار داریم که تمام آنها به Variety یا تنوع داده اشاره می کنند.
Value یا ارزش مهمترین ویژگی در بیگ دیتا
ویژگی چهارم در بیگ دیتا، Value یا ارزش است که مهمترین ویژگی محسوب می شود. بایستی بتوانیم از این حجم عظیم داده ای که داریم value استخراج کنیم. به این صورت که الگوی مد نظر را به درستی از دیتا استخراج کرده و فرآیند تصمیم گیری (Decision) و طراحی استراتژی تصمیم گیری (Decision Strategy Design) به نحو احسن صورت گیرد. به این ترتیب در مصرف منابع و هزینه ها صرفه جویی می شود. اینجاست که قابلیت های Big Data نمایان می شود.
دروازه های ورود به Big Data
در یک تعریف عامیانه، بیگ دیتا به حجم بزرگی از داده ها اطلاق می شود. ولی بهتر است این گونه تعریف شود که هنگامی با حجم زیادی از داده ها سر و کار داریم یا زمانی که آنالیز داده ها بسیار پیچیده شود به طوری که دیگر نتوان از روش های معمول استفاده نمود؛ وارد دنیای Big Data می شویم. حتی برخی اوقات، حجم کمی از داده ها آن چنان آنالیز پیچیده ای دارند که عملا بایستی وارد مباحث Big Data شویم.
در برخی موارد نیز جنس داده ها از انواع متفاوتی هستند و ترکیب آنها باعث می شود این گونه داده ها را نیز Big Data نامید. نرم افزار ناوبری Waze یک مثال ملموس در این رابطه می باشد که در ادامه به بررسی آن می پردازیم.
مراحل استفاده Waze از بیگ دیتا
Waze نرم افزاری است که در چندین مرحله از بیگ دیتا استفاده می نماید.
- در مرحله اول، Waze از بخش های مختلف دیتا جمع آوری می کند. کاربران دیتایی از قبیل سرعت در اتوبان ها، مکان فعلی و غیره را برای Waze ارسال می کنند. همچنین دیتای سازمان های ترافیکی که نرم افزار به آن دسترسی دارد یا سازمان های شهرداری که ساخت و سازهای مختلفی در شهرها انجام می دهند دارای جنس های متفاوتی هستند. برای یکپارچه سازی این داده ها عملا Waze از روش های Big Data استفاده می کند.
- مرحله دوم مربوط به ذخیره سازی داده هاست. حجم بزرگ چنین دادهایی از جنس های متفاوت که در کنار یکدیگر قرار گرفته اند و عملا در مرحله یکپارچه سازی تمیز (Clean) شده اند، نیاز به محلی برای ذخیره سازی دارند. در این مرحله بایستی با روش های Big Data عملیات ذخیره سازی صورت پذیرد.
- در مرحله بعدی، نوبت آنالیز به سبک Big Data است که مهمترین مرحله محسوب می شود. این حجم از داده ها باید با متدهای آماری روز دنیا آنالیز شده و بهترین مسیر گزارش شود. حتی محاسبات آماری به قدری پیچیده هستند که به تنهایی جزء آنالیزهای Big Data محسوب می شوند.
- مرحله آخر که از حساسیت کمتری برخوردار است، نمایش داده ها می باشد. خیلی از اوقات نمایش داده ها نیز به سمت نمایش Big Data سوق داده می شود. این سبک نمایش از طریق اپلیکیشن Waze به کاربر ارائه می شود.
آینده بیگ دیتا
هر کسب و کاری که به تولید، آنالیز و استفاده از دیتا می پردازد در آینده ای نزدیک با حجم زیادی از داده ها روبرو خواهد شد. در چنین شرایطی روشهای آماری آنالیز داده ها پیچیده تر می شوند. در نتیجه عملا هر کمپانی یا شرکت که با داده ها سر و کار دارد به زودی به سمت Big Data خواهد رفت. حوزه هایی همچون پزشکی، ورزش، بازاریابی، پیش بینی بازارهای مالی و غیره در آینده به شدت به Big Data وابسته خواهند شد.
در حال حاضر شرکت هایی در کشور ما وجود دارند که بر روی پیش بینی قیمت سهام، انواع بازارهای مالی و رفتار مشتری از طریق جمع آوری دیتای کاربران شبکه های اجتماعی فعالیت می کنند. عملا نزدیک ترین صنایعی که از Big Data استفاده می کنند شامل صنعت های بازاریابی و بازارهای مالی همچون بورس هستند. در صنعت بازاریابی با توجه داده های بازار در حجم خیلی زیاد و همینطور دیتایی که مصرف کنندگان در شبکه های اجتماعی انتشار می دهند که می تواند منعکس کننده رفتار آنها در آینده باشد، داده ها مورد آنالیز قرار می گیرند.
در گذشته فقط به تحلیل دیتاهای بورس اوراق بهادار و فاکتورهای اقتصادی پرداخته می شد. ولی در حال حاضر به کار بردن ذهنیت تمام مخاطبینی که در شبکه های اجتماعی دائما در حال تولید دیتا هستند اهمیت دارد. چنین داده هایی می توانند در پیش بینی قیمت سهام تاثیرگذار باشند و عملا به دنیای Big Data جهت پیش بینی قیمت سهام وارد می شویم.