داده کاوی چیست؟

 

داده کاوی چیست ؟

 

چه تفاوتی میان دیتا ماینینگ با آنالیز آماری وجود دارد؟

داده کاوی در چه مشاغلی کاربرد دارد؟

اصول و قواعد دیتا ماینینگ چیست؟

چه نرم افزارهایی برای داده کاوی مورد نیاز است؟

آیا شما هم از دسته افرادی هستید که برای تحلیل آماری و دیتا ماینینگ، تفاوتی قائل نیستید؟ یا نمی توانید به خوبی این دو موضوع را از هم تفکیک کنید؟

در این مقاله می خواهیم پاسخ  پرسش های مطرح شده در حوزه دیتا ماینینگ را بیان کنیم تا بتوانید به یک تفکیک و دید کلی از این علم  برسیم.

داده کاوی چیست؟

داده کاوی که در زبان انگلیسی به آن Data Mining گفته می‌شود، به معنای استخراج اطلاعات پنهان، الگوها و یا روابط مشخص در مقدار و حجم بسیار بزرگی از اطلاعات که ممکن است در یک یا چندین پایگاه داده وجود داشته باشد، می باشد.

به عبارت دیگر با علم داده کاوی می توانید، بانک های اطلاعاتی و همچنین مجموعه بزرگ اطلاعات را پس از استخراج مورد تحلیل قرار دهید.

امروزه پایه و مبنای بسیاری از تصمیمات مهم سازمان ها، دیتا ماینینگ است. به کمک علم دیتا ماینینگ می توانیم سامانه‌ هایی را ارتقا و توسعه دهیم که می‌توانند از میان میلیونها و میلیاردها دیتا و رکوردهای اطلاعاتی،  روابط پنهان را شناسایی و آن را برای ما آشکار کنند.

اما در اینجا به یک سوال مهم می‌رسیم:

تفاوت های میان داده کاوی و آنالیز آماری در چیست؟

دیتا ماینینگ یکی از شاخه های توسعه یافته و پیچیده آمار است . اما این علم با آنالیزهای آماری معمول و رایج بسیار تفاوت دارد . برای بهتر متوجه شدن موضوع در زیر برخی از مهم ترین تفاوت های دیتا ماینینگ و آنالیز آماری را بیان می کنیم:

آنالیز آماری:

در آنالیز آماری ، آمار شناسان فقط می توانند از دیتای عددی استفاده کنند و باید با یک فرضیه و حدس و گمان کار خود را شروع کنند. سپس این افراد باید در صدد ایجاد رابطه هایی باشند که با فرضیه ای که در ابتدا برای خود در نظر گرفتند مرتبط باشد. آمار شناسان در طول روند آنالیز می‌توانند اطلاعات نادرست و نا مرتبط را شناسایی و مشخص کنند.  در انتها نیز آنها نتایج تلاش ‌های خود را تفسیر و برای مدیران بیان می کنند.

داده کاوی:

اولین تفاوت دیتا ماینینگ با آنالیز آماری این است که برای داده کاوی فقط محدود به عدد نیستید، بلکه با انواع مختلف دیتا مانند: متنی، عددی و …  سر و کار دارید.  همچنین برای شروع داده کاوی هیچ فرضیه و حدس و گمانی را در نظر نمی گیرید و الگوریتم‌های این حوزه، به طور اتوماتیک روابط میان داده ها را ایجاد می کنند.

البته برای انجام داده کاوی نیاز به اطلاعات درست و صحیح دارید و نتایجی هم که از طریق دیتا ماینینگ به دست می آید نسبتاً نتایج پیچیده ای  هستند. برای اینکه این نتایج را به مدیران ارائه کنید، احتیاج به چند متخصص در این زمینه دارید.

در روش تحلیل آماری، مفسر ممکن است  مثلا متوجه یک مدل رفتاری گردد که با این الگو باعث کلاهبرداری بیمه  شود . بر اساس همین فرضیه و گمان، مفسر آنالیز آماری،  به طرح سوالاتی می پردازد تا این موضوع را بررسی کند . اگر نتایج به دست آمده از نظر مفسر مناسب نبود و فرضیه او را اثبات نمی کرد، در این هنگام مفسر آنالیز آماری فرضیه خود را یا باید اصلاح کند و یا اینکه فرضیه دیگری را برگزیده و مجدداً از نو تمام مراحل را دنبال کند.

این روش چند عیب بزرگ دارد:

اول اینکه آنالیز آماری بسیار وقت گیر و زمان‌بر است.

دوم اگر مفسر قدرت تجزیه و تحلیل خوبی نداشته باشد، ممکن است  نتواند تحلیل درستی داشته باشد و متوجه داستان واقعی کلاه برداری  نشود.

سوم فرض بر اینکه در دو مورد اول هیچ مشکلی نباشد،  ولی شیوه آنالیز آماری هیچ مدل های کلاهبرداری دیگری را که مفسر به آنها مشکوک نشده و در لیست فرایض خود قرار نداده را پیدا نخواهد کرد.

در روش دیتا ماینینگ ، یک مفسر سیستم‌های پردازش و تجزیه اطلاعات را ساخته است و پس از سپری نمودن مراحلی مانند: جمع‌آوری اطلاعات  و یکپارچه و هماهنگ سازی آنها،  به داده کاوی مشغول می شود.

سیستم های دیتا ماینینگ تمام الگوهای غیر عادی را که از حالت عادی و نرمال خارج هستند و ممکن است باعث کلاه برداری شوند را پیدا می کنند.

نتایج به دست آمده از داده کاوی نشان دهنده حالت های مختلفی است که مفسر باید در مراحل بعدی در مورد آنها تحقیق کند.

در انتها با استفاده از الگوهایی که به دست می آیند ، می‌توانند مشتریانی را که ممکن است کلاهبرداری کنند را پیش بینی کنند.

ویژگی ها و امتیازهای اصلی  علم داده کاوی در مقابل آنالیز آماری را می توان در موارد زیر پیدا نمود:

پیدا کردن اتوماتیک الگو ها

پیش بینی احتمالی از نتایج و خروجی های به دست آمده

ارائه اطلاعات اجرایی و کاربردی

تمرکز بر داده های بزرگ و مجموعه بانک های اطلاعاتی و غیره

کاربرد های داده کاوی

حوزه داده کاوی استفاده و کاربردهای بسیاری دارد که ما در زیر به چند نمونه از این موارد اشاره خواهیم نمود:

شاخه تجاری:

یکی از موارد استفاده زیاد از علم داده کاوی در حیطه کسب و کار است که برایتان با دو مثال این کاربرد را بیشتر توضیح می دهیم.

یک از جاهایی که بسیار از علم داده کاوی استفاده می‌شود ، می‌توان به فروشگاه‌ های زنجیره ‌ای بزرگ اشاره کرد . در این فروشگاه ‌ها سعی می‌شود با استفاده از داده کاوی ارتباط ‌های میان محصولات خریداری شده توسط مشتریان معلوم و مشخص گردد . اغلب فروشگاه‌ های زنجیره‌ای علاقه ‌مند هستند تا بدانند که چه محصولاتی با یکدیگر معمولاً به فروش می رسند.

برای مثال در یک عملیات داده کاوی بسیار بزرگ در یکی از فروشگاه‌ های زنجیره‌ ای در آمریکای شمالی که بر روی حجم بزرگی از اطلاعات فروش انجام گرفت، مشخص شد که اکثر مشتریانی که تلویزیون خریداری می کنند ، گلدان کریستالی هم می خرند.

مثال دیگری از کاربرد داده کاوی در تجارت را می‌توان برای یک شرکت بزرگ تولید و عرضه پوشاک در اروپا بیان کرد ، نتایج و آثار داده کاوی در این شرکت بزرگ مشخص کرد که افرادی که کروات  های ابریشمی خریداری کرده‌اند ، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.

همان طور که می بنید به وضوح از این مثال ها برداشت می‌شود که این طرز استفاده از علم داده کاوی می تواند به فروشگاه ها در برگزاری هوشمندانه نمایشگاه‌ های فروش و چگونگی ارائه اجناس به مشتریان بسیار کمک کند.

شاخه پزشکی:

بیمارستان ها و کارخانه های داروسازی از دیگر موارد استفاده کننده  ، داده کاوی  هستند . این مراکز و کارخانه ها برای پیدا کردن الگوهای پیدا نشده و ناشناخته تاثیر داروها بر بیماری های مختلف و گروه های مختلف سنی از این علم استفاده می کنند.

شاخه بانکداری:

با استفاده از علم داده کاوی می توان در زمینه های مالی و بانکی ، مشتریان پر خطر و سودجو را بر اساس معیارهای مختلفی مانند : سن ، میزان درآمد ، وضعیت محل سکونت و نوع شغل و … را شناسایی کرد.

همانطور که می‌بینید ، وظیفه علم داده کاوی استخراج دانش از منابع با ارزشی است که در لا به لای حجم گسترده و زیادی از اطلاعات پنهان شده و احتیاج به کشف دارند.

دیتا ماینینگ اطلاعات سال های گذشته شرکت شما را مرور می کند و نتایج بازخوردهای تصمیماتی که در سال های گذشته گرفته اید را به شما نشان می دهد . به این ترتیب به شما می گوید  کدام یک از تصمیمات اجرا شده به سود بیشتر دست یافته و کدام تصمیمات شما باعث زیان در کسب و کارتان شده است.

خوب است بدانید که  در ابتدای فرایند دیتا ماینینگ معمولا مشکلات سازمان یا شرکت شما پیدا خواهد شد، اما در پایان به وسیله هوش مصنوعی راهکارهایی برای حل این مشکلات.

مراحل و فرایندهای حل مسئله با داده کاوی

مراحل اصلی حل مسئله با استفاده از علم داده کاوی در شش مرحله به علاوه تعامل و ارتباط نزدیک با کارفرما صورت می گیرد :

مرحله اول) درک کسب و کار

مدیران برای اتخاذ تصمیم‌های مناسب در هنگام ایجاد مدل های داده کاوی ،نیاز دارند که در ابتدا باید به درک صحیحی برسند. در این مرحله برخی از الزامات در رابطه با کسب و کار مانند : تعریف قالب و چهارچوب مسئله ، تعریف معیارهای مورد استفاده برای ارزیابی الگو و تعریف اهداف مشخص برای یک پروژه داده کاوی تعیین می‌گردد .

این فعالیت ها در قالب سوالات بسیاری مطرح می‌شوند و برای پاسخ به این سوالات ممکن است نیاز به انجام تحقیقات و بررسی در حوزه دسترس‌پذیری وجود داشته باشد.

پیشنهاد مطالعه: فرم ساز آنلاین پرسال

به عبارت دیگر نیاز مدیران با توجه به اطلاعات در دسترس ، پاسخ گویی شود . همچنین اگر نتوانند نیازهای مدیران را تأمین کنند، ممکن است که نیاز به تعریف یک پروژه جدید باشد.

مرحله دوم) درک و بررسی

در این مرحله متخصص داده کاوی، اطلاعات موجود در کسب و کار یا سازمان را از کارفرما و یا مدیر سازمان تقاضا می‌کند و سپس در ادامه به بررسی آنها می پردازد.

متخصص داده کاوی هم با توجه به اندازه و کیفیت، مسئله و مشکل مطرح شده در مرحله قبل را تعدیل کرده تا نتیجه روند داده کاوی سازمان واقع بینانه تر شود.

برای هر تحلیلی در دنیای داده کاوی نیاز است دیتاست مناسب آن را فراهم آورید. مثلا فرض کنید در مورد رده‌ بندی می‌خواهید تحلیلی انجام دهید، در نتیجه باید به دنبال دیتاستی باشید که Lable  یا برچسب خورده باشد.

انواع مختلفی در دیتاست ها وجود دارد که به طور خلاصه می توانیم دیتاست ها را به موارد زیر دسته بندی کرد:

دیتاست کمی  ( Quantitative ): این دیتاست  برای اندازه گیری ها یا شمارش  هایی است که با فرمت عددی ذخیره شده باشند .

دیتاست کیفی (  Qualitative  ):  دسته ها مانند دسته مدارک تحصیلی از قبیل : دیپلم ، فوق دیپلم ، لیسانس ، فوق لیسانس ، دکترا و …  یا گروه رنگ ها مانند : زرد ، قرمز ، آبی و … از دسته کیفی دیتاست ها محسوب می شود .

دیتاست ترتیبی ( Ordinal ): این دیتاست ها برای داده هایی است که یک ترکیب طبیعی را دنبال می‌کنند مانند : اندازه لباس S  و M و L و XL و XXL  یا مدارج تحصیلی مانند: دبستان، راهنمایی، دبیرستان، کارشناسی، کارشناسی ارشد و دکترا از جمله موارد این دسته می باشند.

دیتاست اسمی ( nominal ): اسامی دسته ‌ها مانند وضعیت تاهل، جنسیت، از نوع اسمی می باشند.

مرحله سوم) آماده سازی

ممکن است اطلاعات در کل سازمان توزیع شده  و در قالب های مختلفی نیز ذخیره گردیده باشند و یا ممکن است ناسازگاری ها و تناقض هایی مانند ورودی های نادرست وجود داشته باشد.

برای این که داده کاوی درستی انجام شود، نیاز به تمیز سازی و پاک سازی وجود دارد. برای تمیز سازی نیاز دارید تا چهار مرحله را سپری کنید:

یک) مجتمع کردن

دو) از نو سازی گمشده

سه) استانداردسازی و یک شکل سازی

چهار) و در نهایت نرمال سازی

این نکته را به خاطر داشته باشید، فرایند پاکسازی فقط به حذف اطلاعات نامناسب یا وارد کردن مجدد مقادیر از دست رفته اطلاق نمی شود، بلکه در مرحله پاکسازی، کشف روابط پنهان شده، شناسایی دقیق تر منابع و همچنین تعیین مناسب ترین ستون ها برای استفاده در آنالیز هم قرار دارد.

اطلاعات ناقص، اطلاعات غلط و نادرست و داده های ورودی در ظاهر از یکدیگر مجزا هستند، اما در واقع بسیار به هم پیوسته و با یکدیگر ارتباط دارند. به همین دلیل این توانایی را دارند تاثیری فراتر از حد انتظار بر روی نتایج داده کاوی داشته باشند. از همین رو خوب است بدانید یک داده با کیفیت را برای اینکه بتوان تحلیل کرد باید ویژگی های زیر را داشته باشد:

یک) ارزش یا اعتبار داشته باشد.

دو) دقت لازم را داشته باشد.

سه) پایداری داشته باشد.

چهار) یکپارچگی داشته باشند.

پنج) بردار زمانی آن، اعتبار داشته باشد.

پیشنهاد مطالعه: نکات مهم و طلایی برای طراحی و اجرای پرسشنامه

مرحله چهارم) مدل سازی

مرحله چهارم اصول داده کاوی ،  مدل سازی است. با توجه به متد های مختلف موجود مدل های متفاوتی ایجاد شده و از این مدلها ، بهترین شان از نظر متخصص داده کاوی برگزیده و انتخاب می‌شوند.

پردازش یک مدل را Training  می‌نامند و در واقع این عمل برای به کارگیری یک الگوریتم ریاضی خاص، برای یک ساختار بوده که هدفش استخراج الگوها از آن ساختار است.

انواع الگوهای یافت شده در روند Training  به عواملی از قبیل: انتخاب، الگوریتم های انتخاب شده و همچنین چگونگی پیکربندی سیستم های داده کاوی بستگی دارد.

مرحله پنجم) تست و ارزیابی مدل

قبل از اینکه در محیط عملیاتی  مدل انتخاب شده را پیاده سازی کنید، باید نحوه عملکرد آن مدل مورد بررسی قرار گیرد.

علاوه بر آن در زمان تهیه مدل معمولاً بهتر است چندین مدل با پیکربندی های گوناگون ارائه شوند تا پس از تست نمودن آنها بتوانید به مدلی که بهترین نتیجه و پاسخ را در رابطه با مشکلات فراهم می‌آورد برسید.

مدل های ساخته شده امتحان و بررسی می شوند و از بین آنها بهترین مدلی که پاسخی برای مسئله و مشکل مرحله یک را مطرح کند، انتخاب می‌شود. سپس در ادامه با تعامل و تبادل نظر با کارفرما میزان اثرگذاری مدل انتخاب شده بررسی و ارزیابی می‌شود.

اگر مدل انتخاب شده نتواند کمکی به من حل مسئله کند، لازم است کل فرایند از مرحله یک دوباره انجام شود.

مرحله ششم) توسعه و بسط مدل نهایی

در صورتی که ارزیابی ها رضایت بخش باشند، راه حل هایی در قالب توسعه مدل نهایی ارائه می شوند که مشکلات بیان شده در مرحله  یک را برطرف و حل می کنند.

مدل نهایی به شخص متخصص داده کاوی نشان می‌دهد که رفتار و عملکرد مجموعه کسب و کار کارفرما در حوزه مشکلات بیان شده در مرحله یک چگونه است.

انواع روش های داده کاوی

در علم داده کاوی از الگوریتم ها و روش های مختلفی استفاده می شود، اما به طور کلی شیوه های اصلی داده کاوی به سه دسته تقسیم می‌شوند:  توصیفی، پیش‌بینی و تجویزی.

مدل سازی توصیفی

آشکارسازی موارد مشابه یا گروه ‌های مشترک در اطلاعات موجود، با هدف تشخیص دلایل موفقیت یا شکست. مانند دسته بندی مشتریان بر اساس ترجیحات و علایق محصول.

مدل سازی پیش بینانه

این شیوه به طرز عمیق‌تری به دسته بندی رویدادها در زمان آینده می پردازد و تلاش می کند ، نتایج ناشناخته را زودتر برآورد کند. به عنوان مثال با استفاده از امتیاز اعتباری فرد، میزان احتمال بازپرداخت اقساط وی را تخمین و برآورد می کند.

مدل سازی تجویزی

این شیوه در نظر دارد تا همگام با رشد داده های بدون ساختار در اینترنت مثلاً فیلدهای کامنت و … حرکت کند.

نرم افزارها و ابزارهای داده کاوی

یکی از مهم ترین و کارآمدترین زبان های برنامه نویسی در زمینه تحلیل و استنتاج آماری نرم افزار r است. زبان برنامه نویسی r امکانات زیادی در زمینه انجام عملیات داده کاوی و همچنین پیاده سازی الگوریتم های مربوط به آن را دارد.

از دیگر ابزارهای کاربردی و رایج در حوزه داده کاوی، نرم افزار اکسل است که به صورت پیش فرض و در بعضی مواقع با افزودن برخی از پلاگین های تجاری، امکان اجرای عملیات داده کاوی را با استفاده از این نرم افزار خواهید داشت.

با مطالعه  مطالب  بالا  احتمالاً  تا به الان به دید جامعی از فرایند های داده کاوی رسیده‌اید.

تمام این صحبت ها گفته شد تا بگوییم داده کاوی به دو دلیل بسیار مهم سودآور است:

یک) عملیات داده کاوی منجر به تصمیمات واقع‌بینانه در کسب وکار می شود.

دو) و همچنین استفاده از این فناوری باعث تکرار تصمیمات سودآور اتفاق افتاده در گذشته می شود.

اگر از علم داده کاوی برای کسب و کارتان استفاده کنید، مجبور خواهید شد تصمیمات احساسی در کسب و کارتان را فراموش کنید. تمام تصمیمات خود را بر اساس حقایق و واقعیت‌ ها اتخاذ کنید. به این ترتیب ضررهایی که به دلیل نا آگاهی مدیران به سازمان یا شرکت تحمیل می شود، حذف شده و به صفر می‌رسند.

تیم پشتیبانی و داده کاوی پرسال

یکی دیگر از شاخه هایی که پرسال در زمینه آن به صورت تخصصی فعالیت می کند، مبحث داده کاوی می باشد. به این ترتیب که  شما می توانید پروژه های خود را به تیم متخصص داده کاوی پرسال، واگذار کنید تا تمام روابط پیدا و پنهان را برای شما آشکار کند. به این ترتیب نه تنها در ساخت و طراحی و منتشر کردن پرسشنامه هایتان مشکلی نخواهید داشت بلکه می توانید مستقیما آن ها را به تیم تخصصی داده کاوی ما بسپارید تا با خیال راحت نتیجه ای قابل اتکا و عالی به دست آورید.

برای تماس و دریافت مشاوره می توانید با شماره تلفن های 09913464704  و  09913464705 تماس حاصل فرمایید.

توجه : جهت برگذاری آزمون آنلاین میتوانید از صفحه فوق استفاده نمایید.

راه های کاهش تقلب در آزمون آنلاین
تقلب در آزمون آنلاین
دسته بندی مشتریان چگونه انجام می شود ؟
دسته بندی مشتریان چگونه انجام می شود ؟
فهرست