Big Data
کلان داده چیست ؟
«داده بزرگ» یکی از رایج ترین کلمات در عصر کنونی ما است ، اما واقعا به چه معناست ؟
در اینجا یک تعریف ساده و سریع از کلان داده آورده شده است . دادههای بزرگ : به دادههایی گفته می شود که بیش از حد بزرگ و پیچیده هستند و نمیتوان آنها را با روشهای سنتی پردازش و ذخیرهسازی داده ، مدیریت کرد . در حالی که این یک تعریف سریع است که می توانید از آن به عنوان یک اکتشاف استفاده کنید و داشتن درک عمیق تر و کامل تر از کلان داده مفید خواهد بود. بیایید به برخی از مفاهیمی که زیربنای داده های بزرگ هستند ، مانند ذخیره سازی ، ساختار و پردازش نگاهی بیندازیم .
کلان داده چقدر است؟
به این سادگی نیست که بگوییم “هر داده ای بیش از اندازه “X” داده بزرگ است ، محیطی که داده ها در آن مدیریت می شوند یک عامل بسیار مهم در تعیین اینکه چه چیزی به عنوان کلان داده معرفی می شود ، واجد شرایط است . اندازه ای که داده ها برای در نظر گرفتن کلان داده ها باید داشته باشند ، به زمینه یا وظیفه ای که داده ها در آن استفاده می شوند بستگی دارد . دو مجموعه داده با اندازه های بسیار متفاوت را می توان در زمینه های مختلف “داده های بزرگ” در نظر گرفت.
دقیق تر، اگر بخواهید یک فایل 200 مگابایتی را به عنوان پیوست ایمیل ارسال کنید ، نمی توانید این کار را انجام دهید . در این زمینه، فایل 200 مگابایتی را می توان کلان داده در نظر گرفت . در مقابل ، کپی کردن یک فایل 200 مگابایتی در دستگاه دیگری در همان LAN ممکن است به هیچ وجه زمان نبرد و در این زمینه ، به عنوان داده بزرگ در نظر گرفته نمی شود .
با این حال ، بیایید فرض کنیم که برای استفاده در آموزش برنامه های بینایی کامپیوتری ، ویدئوی 15 ترابایتی باید از قبل پردازش شود . در این حالت ، فایلهای ویدیویی فضای زیادی را اشغال میکنند که حتی یک کامپیوتر قدرتمند هم زمان زیادی را برای پردازش همه آنها به کار میبرد ؛ بنابراین پردازش معمولاً بین چندین رایانه متصل به هم توزیع میشود تا زمان پردازش کاهش یابد. این 15 ترابایت داده ویدیویی قطعاً به عنوان داده های بزرگ واجد شرایط است .
انواع ساختارهای کلان داده
کلان داده ها در سه دسته ساختار متفاوت قرار می گیرند : داده های بدون ساختار ، نیمه ساختار یافته و داده های ساخت یافته .
دادههای بدون ساختار : دادههایی هستند که ساختار قابل تعریفی ندارند ؛ به این معنی که دادهها اساساً فقط در یک مجموعه بزرگ قرار می گیرند . نمونه هایی از داده های بدون ساختار یک پایگاه داده پر از تصاویر بدون برچسب است .
داده های نیمه ساختار یافته : داده هایی هستند که ساختار رسمی ندارند ، اما در یک ساختار سست موجودند . برای مثال : دادههای ایمیل ممکن است به عنوان دادههای نیمه ساختاریافته در نظر گرفته شوند ، زیرا میتوانید به دادههای موجود در ایمیلهای فردی مراجعه کنید ، اما الگوهای دادههای رسمی ایجاد نشدهاند .
دادههای ساختاریافته : دادههایی هستند که ساختار رسمی دارند و نقاط داده بر اساس ویژگیهای مختلف طبقهبندی میشوند . یکی از نمونههای دادههای ساختاریافته ، صفحهگسترده اکسل حاوی اطلاعات تماس مانند نام ، ایمیل ، شماره تلفن و وبسایت است .
معیارهایی برای ارزیابی کلان داده ها
کلان داده ها را می توان بر حسب سه معیار مختلف تحلیل کرد : حجم ، سرعت ، تنوع
حجم : به اندازه داده ها اشاره دارد . اندازه متوسط مجموعه داده ها اغلب در حال افزایش است . به عنوان مثال : بزرگترین هارد دیسک در سال 2006 یک هارد دیسک 750 گیگابایتی بود . در مقابل تصور میشود فیسبوک بیش از 500 ترابایت داده در روز تولید میکند و بزرگترین هارد دیسک مصرفی موجود امروزی یک هارد دیسک 16 ترابایتی است . آنچه در یک دوره به عنوان کلان داده گفته می شود ، ممکن است در دوره دیگر کلان داده نباشد . امروزه داده های بیشتری تولید می شود ؛ زیرا اشیاء اطراف ما به حسگرها ، دوربین ها ، میکروفون ها و سایر دستگاه های جمع آوری کلان داده مجهز می شوند .
سرعت : به سرعت حرکت داده ها اشاره دارد یا به عبارت دیگر چه مقدار داده در یک دوره زمانی معین تولید می شود . جریان های رسانه های اجتماعی در هر دقیقه صدها هزار پست و نظر ایجاد می کنند ، در حالی که صندوق ورودی ایمیل شما احتمالاً فعالیت بسیار کمتری خواهد داشت . جریانهای کلان داده ، جریانهایی هستند که اغلب صدها هزار یا میلیونها رویداد را در زمان واقعی کم و بیش مدیریت میکنند . نمونههایی از این جریانهای داده ، پلتفرمهای بازی آنلاین و الگوریتمهای معاملاتی سهام با فرکانس بالا هستند .
تنوع : تنوع به انواع مختلف داده های موجود در مجموعه داده ها اشاره دارد . داده ها می توانند از فرمت های مختلفی مانند صدا ، تصویر ، متن ، عکس یا شماره سریال تشکیل شوند .
به طور کلی ، پایگاههای داده سنتی به گونهای قالببندی میشوند که یک یا فقط چند نوع داده را مدیریت کنند . به بیان دیگر ، پایگاههای داده سنتی به گونهای طراحی شدهاند که دادههایی نسبتاً همگن و از ساختاری سازگار و قابل پیشبینی نگهداری میکنند . همانطور که برنامهها متنوعتر میشوند ، پر از ویژگیهای مختلف میگردند و توسط افراد بیشتری مورد استفاده قرار میگیرند. پایگاههای داده برای ذخیره انواع بیشتری از دادهها باید تکامل مییابند . پایگاه های داده بدون ساختار ، برای نگهداری داده های بزرگ ایده آل هستند ؛ زیرا می توانند انواع داده های متعددی را که به یکدیگر مرتبط نیستند ، نگهداری کنند .
روشهای مدیریت کلان داده
پلتفرم ها و ابزارهای مختلفی برای تسهیل تجزیه و تحلیل داده های بزرگ طراحی شده اند . برای استخراج الگوهای معنی دار از داده ها ، مجموعه های بزرگ داده باید تجزیه و تحلیل شوند. کاری که می تواند با ابزارهای سنتی تجزیه و تحلیل دادهها ، کاملاً چالش برانگیز باشد . در پاسخ به نیاز ، به ابزارهایی برای تجزیه و تحلیل حجم زیادی از داده ها ، شرکت های مختلفی ابزارهای تجزیه و تحلیل کلان داده را ایجاد کرده اند . ابزارهای تجزیه و تحلیل کلان داده ها شامل سیستم هایی مانند ZOHO Analytics ، Cloudera و Microsoft BI است .
|
https://www.unite.ai/what-is-big-data/