Big Data

کلان داده چیست ؟

«داده بزرگ» یکی از رایج ترین کلمات در عصر کنونی ما است ، اما واقعا به چه معناست ؟

 در اینجا یک تعریف ساده و سریع از کلان داده آورده شده است . داده‌های بزرگ : به داده‌هایی گفته می شود که بیش از حد بزرگ و پیچیده هستند و نمی‌توان آن‌ها را با روش‌های سنتی پردازش و ذخیره‌سازی داده ، مدیریت کرد . در حالی که این یک تعریف سریع است که می توانید از آن به عنوان یک اکتشاف استفاده کنید و داشتن درک عمیق تر و کامل تر از کلان داده مفید خواهد بود. بیایید به برخی از مفاهیمی که زیربنای داده های بزرگ هستند ، مانند ذخیره سازی ، ساختار و پردازش نگاهی بیندازیم .

کلان داده چقدر است؟

به این سادگی نیست که بگوییم “هر داده ای بیش از اندازه “X” داده بزرگ است ، محیطی که داده ها در آن مدیریت می شوند یک عامل بسیار مهم در تعیین اینکه چه چیزی به عنوان کلان داده معرفی می شود ، واجد شرایط است . اندازه ای که داده ها برای در نظر گرفتن کلان داده ها باید داشته باشند ، به زمینه یا وظیفه ای که داده ها در آن استفاده می شوند بستگی دارد . دو مجموعه داده با اندازه های بسیار متفاوت را می توان در زمینه های مختلف “داده های بزرگ” در نظر گرفت.

دقیق تر، اگر بخواهید یک فایل 200 مگابایتی را به عنوان پیوست ایمیل ارسال کنید ، نمی توانید این کار را انجام دهید . در این زمینه، فایل 200 مگابایتی را می توان کلان داده در نظر گرفت . در مقابل ، کپی کردن یک فایل 200 مگابایتی در دستگاه دیگری در همان LAN ممکن است به هیچ وجه زمان نبرد و در این زمینه ، به عنوان داده بزرگ در نظر گرفته نمی شود .

با این حال ، بیایید فرض کنیم که برای استفاده در آموزش برنامه های بینایی کامپیوتری ، ویدئوی 15 ترابایتی باید از قبل پردازش شود . در این حالت ، فایل‌های ویدیویی فضای زیادی را اشغال می‌کنند که حتی یک کامپیوتر قدرتمند هم زمان زیادی را برای پردازش همه آنها به کار می‌برد ؛ بنابراین پردازش معمولاً بین چندین رایانه متصل به هم توزیع می‌شود تا زمان پردازش کاهش یابد. این 15 ترابایت داده ویدیویی قطعاً به عنوان داده های بزرگ واجد شرایط است .

انواع ساختارهای کلان داده

کلان داده ها در سه دسته ساختار متفاوت قرار می گیرند : داده های بدون ساختار ، نیمه ساختار یافته و داده های ساخت یافته .

داده‌های بدون ساختار : داده‌هایی هستند که ساختار قابل تعریفی ندارند ؛ به این معنی که داده‌ها اساساً فقط در یک مجموعه بزرگ قرار می گیرند . نمونه هایی از داده های بدون ساختار یک پایگاه داده پر از تصاویر بدون برچسب است .

داده های نیمه ساختار یافته : داده هایی هستند که ساختار رسمی ندارند ، اما در یک ساختار سست موجودند . برای مثال : داده‌های ایمیل ممکن است به عنوان داده‌های نیمه ساختاریافته در نظر گرفته شوند ، زیرا می‌توانید به داده‌های موجود در ایمیل‌های فردی مراجعه کنید ، اما الگوهای داده‌های رسمی ایجاد نشده‌اند .

داده‌های ساختاریافته : داده‌هایی هستند که ساختار رسمی دارند و نقاط داده بر اساس ویژگی‌های مختلف طبقه‌بندی می‌شوند . یکی از نمونه‌های داده‌های ساختاریافته ، صفحه‌گسترده اکسل حاوی اطلاعات تماس مانند نام ، ایمیل ، شماره تلفن و وب‌سایت است .

معیارهایی برای ارزیابی کلان داده ها

کلان داده ها را می توان بر حسب سه معیار مختلف تحلیل کرد : حجم ، سرعت ، تنوع
حجم : به اندازه داده ها اشاره دارد . اندازه متوسط ​​مجموعه داده ها اغلب در حال افزایش است . به عنوان مثال : بزرگترین هارد دیسک در سال 2006 یک هارد دیسک 750 گیگابایتی بود . در مقابل تصور می‌شود فیس‌بوک بیش از 500 ترابایت داده در روز تولید می‌کند و بزرگترین هارد دیسک مصرفی موجود امروزی یک هارد دیسک 16 ترابایتی است . آنچه در یک دوره به عنوان کلان داده گفته می شود ، ممکن است در دوره دیگر کلان داده نباشد . امروزه داده های بیشتری تولید می شود ؛ زیرا اشیاء اطراف ما به حسگرها ، دوربین ها ، میکروفون ها و سایر دستگاه های جمع آوری کلان داده مجهز می شوند .

 سرعت : به سرعت حرکت داده ها اشاره دارد یا به عبارت دیگر چه مقدار داده در یک دوره زمانی معین تولید می شود .  جریان های رسانه های اجتماعی در هر دقیقه صدها هزار پست و نظر ایجاد می کنند ، در حالی که صندوق ورودی ایمیل شما احتمالاً فعالیت بسیار کمتری خواهد داشت . جریان‌های کلان داده ، جریان‌هایی هستند که اغلب صدها هزار یا میلیون‌ها رویداد را در زمان واقعی کم و بیش مدیریت می‌کنند . نمونه‌هایی از این جریان‌های داده ، پلتفرم‌های بازی آنلاین و الگوریتم‌های معاملاتی سهام با فرکانس بالا هستند .

تنوع : تنوع به انواع مختلف داده های موجود در مجموعه داده ها اشاره دارد . داده ها می توانند از فرمت های مختلفی مانند صدا ، تصویر ، متن ، عکس یا شماره سریال تشکیل شوند . 
به طور کلی ، پایگاه‌های داده سنتی به گونه‌ای قالب‌بندی می‌شوند که یک یا فقط چند نوع داده را مدیریت کنند . به بیان دیگر ، پایگاه‌های داده سنتی به گونه‌ای طراحی شده‌اند که داده‌هایی نسبتاً همگن و از ساختاری سازگار و قابل پیش‌بینی نگهداری می‌کنند . همانطور که برنامه‌ها متنوع‌تر می‌شوند ، پر از ویژگی‌های مختلف می‌گردند و توسط افراد بیشتری مورد استفاده قرار می‌گیرند. پایگاه‌های داده برای ذخیره انواع بیشتری از داده‌ها باید تکامل می‌یابند . پایگاه های داده بدون ساختار ، برای نگهداری داده های بزرگ ایده آل هستند ؛ زیرا می توانند انواع داده های متعددی را که به یکدیگر مرتبط نیستند ، نگهداری کنند .

روش‌های مدیریت کلان داده

 پلتفرم ها و ابزارهای مختلفی برای تسهیل تجزیه و تحلیل داده های بزرگ طراحی شده اند . برای استخراج الگوهای معنی دار از داده ها ، مجموعه های بزرگ داده باید تجزیه و تحلیل شوند. کاری که می تواند با ابزارهای سنتی تجزیه و تحلیل داده‌ها ، کاملاً چالش برانگیز باشد . در پاسخ به نیاز ، به ابزارهایی برای تجزیه و تحلیل حجم زیادی از داده ها ، شرکت های مختلفی ابزارهای تجزیه و تحلیل کلان داده را ایجاد کرده اند . ابزارهای تجزیه و تحلیل کلان داده ها شامل سیستم هایی مانند ZOHO Analytics ، Cloudera و Microsoft BI است .
|
https://www.unite.ai/what-is-big-data/

امتیاز بدهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *