داده کاوی چیست ؟

چه تفاوتی میان دیتا ماینینگ با آنالیز آماری وجود دارد ؟

داده کاوی در چه مشاغلی کاربرد دارد ؟

اصول و قواعد دیتا ماینینگ چیست؟

چه نرم افزارهایی برای داده کاوی مورد نیاز است؟

آیا شما هم از دسته افرادی هستید که برای تحلیل آماری و دیتا ماینینگ ، تفاوتی قائل نیستید ؟ یا نمی توانید به خوبی این دو موضوع را از هم تفکیک کنید ؟

در این مقاله می خواهیم پاسخ  پرسش های مطرح شده در حوزه دیتا ماینینگ را بیان کنیم تا بتوانید به یک تفکیک و دید کلی از این علم  برسیم .

داده کاوی چیست ؟

داده کاوی که در زبان انگلیسی به آن Data Mining گفته می‌شود ، به معنای استخراج اطلاعات پنهان  ، الگوها و یا روابط مشخص در مقدار و حجم بسیار بزرگی از داده ها  که ممکن است در یک یا چندین پایگاه داده وجود داشته باشد ، گفته می شود .

به عبارت دیگر با علم داده کاوی می توانید ، بانک های اطلاعاتی و همچنین مجموعه بزرگ داده ها را پس از استخراج داده ها مورد تحلیل قرار دهید .

امروزه پایه و مبنای بسیاری از تصمیمات مهم سازمان ها ، دیتا ماینینگ است . به کمک علم دیتا ماینینگ می توانیم سامانه‌ هایی را ارتقا و توسعه دهیم که می‌توانند از میان میلیونها و میلیاردها دیتا و رکوردهای اطلاعاتی ،  روابط پنهان را شناسایی و آن را برای ما آشکار کنند .

اما در اینجا به یک سوال مهم می‌رسیم :

تفاوت های میان داده کاوی و آنالیز آماری در چیست ؟

دیتا ماینینگ یکی از شاخه های توسعه یافته و پیچیده آمار است . اما این علم با آنالیزهای آماری معمول و رایج بسیار تفاوت دارد . برای بهتر متوجه شدن موضوع در زیر برخی از مهم ترین تفاوت های دیتا ماینینگ و آنالیز آماری را بیان می کنیم :

آنالیز آماری :

در آنالیز آماری ، آمار شناسان فقط می توانند از داده های عددی استفاده کنند و باید با یک فرضیه و حدس و گمان کار خود را شروع کنند . سپس این افراد باید در صدد ایجاد رابطه هایی باشند که با فرضیه ای که در ابتدا برای خود در نظر گرفتند مرتبط باشد . آمار شناسان در طول روند آنالیز می‌توانند داده های نادرست و نا مرتبط را شناسایی و مشخص کنند .  در انتها نیز آنها نتایج تلاش ‌های خود را تفسیر و برای مدیران بیان می کنند .

داده کاوی :

اولین تفاوت دیتا ماینینگ با آنالیز آماری این است که برای داده کاوی فقط محدود به داده های عددی نیستید ، بلکه با انواع مختلف داده مانند : متنی ، عددی و …  سر و کار دارید.  همچنین برای شروع داده کاوی هیچ فرضیه و حدس و گمانی را در نظر نمی گیرید و الگوریتم‌های این حوزه ،  به طور اتوماتیک روابط میان داده ها را ایجاد می کنند .

البته برای انجام داده کاوی نیاز به داده های درست و صحیح دارید و نتایجی هم که از طریق دیتا ماینینگ به دست می آید نسبتاً نتایج پیچیده ای  هستند . برای اینکه این نتایج را به مدیران ارائه کنید ، احتیاج به چند متخصص در این زمینه دارید .

در روش تحلیل آماری ، مفسر ممکن است  مثلا متوجه یک مدل رفتاری گردد که با این الگو باعث کلاهبرداری بیمه  شود . بر اساس همین فرضیه و گمان ، مفسر آنالیز آماری ،  به طرح سوالاتی می پردازد تا این موضوع را بررسی کند . اگر نتایج به دست آمده از نظر مفسر مناسب نبود و فرضیه او را اثبات نمی کرد ، در این هنگام مفسر آنالیز آماری فرضیه خود را یا باید اصلاح کند و یا اینکه فرضیه دیگری را برگزیده و مجدداً از نو تمام مراحل را دنبال کند .

این روش چند عیب بزرگ دارد :

اول اینکه آنالیز آماری بسیار وقت گیر و زمان‌بر است .

دوم اگر مفسر قدرت تجزیه و تحلیل خوبی نداشته باشد ، ممکن است  نتواند داده‌ها را به خوبی تحلیل کند و متوجه داستان واقعی کلاه برداری  نشود.

سوم فرض بر اینکه در دو مورد اول هیچ مشکلی نباشد ،  ولی شیوه آنالیز آماری هیچ مدل های کلاهبرداری دیگری را که مفسر به آنها مشکوک نشده و در لیست فرایض خود قرار نداده را پیدا نخواهد کرد .

در روش دیتا ماینینگ ، یک مفسر سیستم‌های پردازش و تجزیه اطلاعات را ساخته است و پس از سپری نمودن مراحلی مانند : جمع‌آوری داده‌ها  و یکپارچه و هماهنگ سازی داده ها ،  به داده کاوی مشغول می شود .

سیستم های دیتا ماینینگ تمام الگوهای غیر عادی را که از حالت عادی و نرمال خارج هستند و ممکن است باعث کلاه برداری شوند را پیدا می کنند .

نتایج به دست آمده از داده کاوی نشان دهنده حالت های مختلفی است که مفسر باید در مراحل بعدی در مورد آنها تحقیق کند .

در انتها با استفاده از الگوهایی که به دست می آیند ، می‌توانند مشتریانی را که ممکن است کلاهبرداری کنند را پیش بینی کنند .

ویژگی ها و امتیازهای اصلی  علم داده کاوی در مقابل آنالیز آماری را می توان در موارد زیر پیدا نمود :

پیدا کردن اتوماتیک الگو ها

پیش بینی احتمالی از نتایج و خروجی های به دست آمده

ارائه اطلاعات اجرایی و کاربردی

تمرکز بر داده های بزرگ و مجموعه بانک های اطلاعاتی و غیره

کاربرد های داده کاوی

حوزه داده کاوی استفاده و کاربردهای بسیاری دارد که ما در زیر به چند نمونه از این موارد اشاره خواهیم نمود :

شاخه تجاری :

یکی از موارد استفاده زیاد از علم داده کاوی در حیطه کسب و کار است که برایتان با دو مثال این کاربرد را بیشتر توضیح می دهیم.

یک از جاهایی که بسیار از علم داده کاوی استفاده می‌شود ، می‌توان به فروشگاه‌ های زنجیره ‌ای بزرگ اشاره کرد . در این فروشگاه ‌ها سعی می‌شود با استفاده از داده کاوی ارتباط ‌های میان محصولات خریداری شده توسط مشتریان معلوم و مشخص گردد . اغلب فروشگاه‌ های زنجیره‌ای علاقه ‌مند هستند تا بدانند که چه محصولاتی با یکدیگر معمولاً به فروش می رسند .

برای مثال در یک عملیات داده کاوی بسیار بزرگ در یکی از فروشگاه‌ های زنجیره‌ ای در آمریکای شمالی که بر روی حجم بزرگی از اطلاعات و داده ‌های فروش انجام گرفت ، مشخص شد که اکثر مشتریانی که تلویزیون خریداری می کنند ، گلدان کریستالی هم می خرند .

مثال دیگری از کاربرد داده کاوی در تجارت را می‌توان برای یک شرکت بزرگ تولید و عرضه پوشاک در اروپا بیان کرد ، نتایج و آثار داده کاوی در این شرکت بزرگ مشخص کرد که افرادی که کروات  های ابریشمی خریداری کرده‌اند ، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند .

همان طور که می بنید به وضوح از این مثال ها برداشت می‌شود که این طرز استفاده از علم داده کاوی می تواند به فروشگاه ها در برگزاری هوشمندانه نمایشگاه‌ های فروش و چگونگی ارائه اجناس به مشتریان بسیار کمک کند .

شاخه پزشکی :

بیمارستان ها و کارخانه های داروسازی از دیگر موارد استفاده کننده  ، داده کاوی  هستند . این مراکز و کارخانه ها برای پیدا کردن الگوهای پیدا نشده و ناشناخته تاثیر داروها بر بیماری های مختلف و گروه های مختلف سنی از این علم استفاده می کنند .

شاخه بانکداری :

با استفاده از علم داده کاوی می توان در زمینه های مالی و بانکی ، مشتریان پر خطر و سودجو را بر اساس معیارهای مختلفی مانند : سن ، میزان درآمد ، وضعیت محل سکونت و نوع شغل و … را شناسایی کرد .

همانطور که می‌بینید ، وظیفه علم داده کاوی استخراج دانش از منابع با ارزشی است که در لا به لای حجم گسترده و زیادی از اطلاعات پنهان شده و احتیاج به کشف دارند .

دیتا ماینینگ اطلاعات سال های گذشته شرکت شما را مرور می کند و نتایج بازخوردهای تصمیماتی که در سال های گذشته گرفته اید را به شما نشان می دهد . به این ترتیب به شما می گوید  کدام یک از تصمیمات اجرا شده به سود بیشتر دست یافته و کدام تصمیمات شما باعث زیان در کسب و کارتان شده است .

خوب است بدانید که  در ابتدای فرایند دیتا ماینینگ معمولا مشکلات سازمان یا شرکت شما پیدا خواهد شد ، اما در پایان به وسیله هوش مصنوعی راهکارهایی برای حل این مشکلات .

راه های کاهش تقلب در آزمون آنلاین
راههای کاهش تقلب در آزمون آنلاین
استراتژی های نظرسنجی مشتریان چه کاربردی دارند؟
استراتژی های نظرسنجی مشتریان چه کاربردی دارند؟
فهرست