داده کاوی (Data Mining)

Iman Gom

مدیر بازنشسته
کاربر ممتاز
سلام به دوستان

واقعا خوشحال شدم اینجا هم دارن در مورد داده کاوی بحث میکنم خواهش میکنم نگاهی به لینک زیر بندازید

http://forum.exceliran.com/thread-640.html

من دارم اون نرم افزار و آموزشی رو که در این تایپکی که لینکش رو گزاشتین دانلود می کنم و توضیحاتتون در مورد داده کاوی رو خوندم . اما اگر بگید چه امکاناتی رو داره ، بیشتر بقیه هم دانلود می کنند .
 

vatanparast

عضو جدید
ممنون از آقا ایمان ، 2 تا افزونه در رابطه با داده کاوی اونجا مطرح شده که دومی هنوز یک مقدار ایراد تو مراحل نصب داریم اگه از نظرات شما و دوستان استفاده کنیم ممنون میشم ، خود من هم فعلا دارم مباحث تئوری می خونم و هنوز وارد بحث نرم افزاری نشدم به مرور نکات و موضوعاتی که بهش برسم مطرح میکنم ، از بقیه دوستان علاقه مند هم خواهش میکنم هر جور اطلاعاتی که دارن هرچند از نظر خودشون کم باشه مطرح کنن
 

Iman Gom

مدیر بازنشسته
کاربر ممتاز
ممنون از آقا ایمان ، 2 تا افزونه در رابطه با داده کاوی اونجا مطرح شده که دومی هنوز یک مقدار ایراد تو مراحل نصب داریم اگه از نظرات شما و دوستان استفاده کنیم ممنون میشم ، خود من هم فعلا دارم مباحث تئوری می خونم و هنوز وارد بحث نرم افزاری نشدم به مرور نکات و موضوعاتی که بهش برسم مطرح میکنم ، از بقیه دوستان علاقه مند هم خواهش میکنم هر جور اطلاعاتی که دارن هرچند از نظر خودشون کم باشه مطرح کنن

اگه کتابی سراغ دارید ، معرفی کنید ما هم بخونیم . یا منابع دیگه ؛ تا ما هم بعد از اینکه باهاش کامل آشنا شدیم با نرم افزارش کار کنیم . مرسی
 

Iman Gom

مدیر بازنشسته
کاربر ممتاز
تو ایران کجا ها واقعا از داده کاوی استفاده می کنن ؟
 

vatanparast

عضو جدید
سلام
نمیدونم چرا لینکی که گذاشتم ***** شده واقعا باید برای این وضعیت تاسف خورد ،لینک مربوط هس به وبلاگ خانم دکتر ونوس شکورنیا عضو هیئت علمی دانشگاه پلی تکنیک که کار های ارزنده ای در زمینه داده کاوی انجام دادن و اطلاعات مفیدی تو وبلاگشون هست ، جالبه مثل اینکه تحقیق و پژوهش هم کم کم داره ممنوع میشه
 

Iman Gom

مدیر بازنشسته
کاربر ممتاز
سلام
نمیدونم چرا لینکی که گذاشتم ***** شده واقعا باید برای این وضعیت تاسف خورد ،لینک مربوط هس به وبلاگ خانم دکتر ونوس شکورنیا عضو هیئت علمی دانشگاه پلی تکنیک که کار های ارزنده ای در زمینه داده کاوی انجام دادن و اطلاعات مفیدی تو وبلاگشون هست ، جالبه مثل اینکه تحقیق و پژوهش هم کم کم داره ممنوع میشه

نه کلا دامین های blogspo*t ***** هستن .
 

babak 123

عضو جدید
کاربر ممتاز
داده کاوی چیست؟
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمندو .... میباشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده بوده به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن به منظور استخراج اطلاعات مي باشد. داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند. ‌فرایند داده ‌كاوی شامل سه مرحله می باشد :
1. كاوش اولیه
2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید
3. بهره برداری.
گام1 : كاوش
معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها‌با‌حجم‌عظیمی‌از ‌متغييرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مساله تحلیلی‌، این‌مرحله‌به‌مدل‌هاي‌‌ ‌پیش بیني ساده یا مدل‌های‌آماری‌و‌گرافیكی برای شناسایی متغیرهاي مورد نظر و مرحله 2:ساخت و احراز اعتبار مدل
این‌مرحله‌به‍ بررسی‌مدل‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیك‌های‌متعددی‌برای‌ر سیدن‌به‌این‌هدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برای مجموعه داده‌های یكسان‌‌به‌كار‌می‌روند‌ تا‌كارآیی‌شان‌با‌هم مقایسه‌شود ،‌سپس مدلی كه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning

مرحله 3 : بهره برداری
آخرین‌مرحله‌مدلی‌راكه‌د رمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌هاي‌خروجی‌های مورد انتظاررا تولید نماید.داده كاوی‌به‌عنوان‌ابزار‌مدی ریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است . اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیاز دارد .
مفاهیم اساسی در داده كاوی
Bagging:
این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting:
این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .
Meta-Learning :
این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.


برای راهنمایی نرم افزار اینجا را ببینید .

این هم یک مطلب دیگر درباره پنج تا از بهترین نرم افزار های داده کاوی
http://www.junauza.com/2010/11/free-data-mining-software.html
 
آخرین ویرایش:

vatanparast

عضو جدید
معرفی استاندارد Java Data Mining (JDM)-JSR73 برای داده‌کاوی

معرفی استاندارد Java Data Mining (JDM)-JSR73 برای داده‌کاوی

معرفی استاندارد Java Data Mining (JDM)-JSR73 برای داده‌کاوی

چکیده
اهمیت استانداردها در دنیای جاوا به حدی است که حتی سرویس دهنده ها و چارچوب های تجاری نیز دیر یا زود خود را با آن منطبق می نمایند. پیروی از استانداردها و API ها به جای استفاده از محصولات؛ امکان تغییر محیط اجرا را در هر زمان با کمترین هزینه فراهم می آورد.
در این راستا JDM به عنوان یک استانداردِ جاوا برای داده‌کاوی طراحی شده است. JDM یک استاندارد از API جاوا برای داده‌کاویست که انجمن جاوا (JCP) [1] آنرا توسعه داده است. JDM واسط های جاوایی را تعریف می نماید که هر شرکت سازنده و عرضه کننده می تواند آنها را برای موتور داده‌کاوی خویش پیاده سازی نماید. در این مقاله به معرفی اجمالی استانداردJDM ضرروت استفاده از استاندارد ها، معرفی API جاوا برای داده‌کاوی، ارائه ضمائم اراکل در JDM و اشیای اصلی موجود در API داده‌کاوی در JDM ، پرداخته شده است.
کلمات کلیدی
استاندارد(JSR-73) JDM Java Data Mining:، Java Community Process: JCP، داده‌کاوی
1. مقدمه
بطور کلی مهمترین معیار انتخاب فن آوریها استاندارد بودن آنها است (استاندارد JCP) و استفاده از پیاده‌سازی کدآزاد و معمول، مورد نظر می‌باشد. JCP بزرگترین تشکل در دنیای جاوا می باشد. این تشکل در سال 1998 توسط شرکت Sun Microsystems پایه‌گذاری شد. هدف JCP توسعه مشخصه و استاندارد برای نیازها و فن آوری های جدید بر روی سکوی جاوا و نیز توسعه پیاده سازی مرجعِ[2] این مشخصه ها است. این تشکل که هم اکنون در حدود 1400 عضو حقوقی و حقیقی دارد و نگارش نهایی بیش از 180 مشخصه را منتشر کرده است، نقش بسیار تعیین‌کننده‌ای در آینده دنیای جاوا دارد. توسعه مشخصه ها که JSR نام دارند و با یک شماره مشخص می شوند، توسط یک عضو رهبری میشود و گروهی از اعضا در آن مشارکت دارند.[4]
اهمیت استانداردها در دنیای جاوا به حدی است که حتی سرویس دهنده ها و چارچوب های تجاری نیز دیر یا زود خود را با آن منطبق می‌نمایند. پیروی از استانداردها و API ها به جای استفاده از محصولات؛ امکان تغییر محیط اجرا را در هر زمان با کمترین هزینه فراهم می‌آورد. در این راستا JDM به عنوان یک استانداردِ جاوا برای داده‌کاوی طراحی شده است. JDM یک استاندارد از API جاوا برای داده‌کاویست که انجمن جاوا (JCP) آنرا توسعه داده است. JDM واسط های جاوایی را تعریف می نماید که هر شرکت سازنده و عرضه کننده می تواند آنها را برای موتور داده‌کاوی خویش پیاده سازی نماید. [3]
واژه استراتژی به معنای "برنامه ریزی بلند مدت ازیک عملکرد طراحی شده به منظور دستیابی به هدفی خاص" می باشد و تاکتیک به معنای " روش یا عملی برای به اتمام رساندنِ اهداف" می باشد. [1]
در این تحقیق، به بیان ویژگیها و مشخصاتِ تصمیمات استراتژیک اتخاذ شده‌ی JDM پرداخته شده است. JDM، دسترسی به داده‌کاوی را برای توسعه دهندگان جاوایی و برنامه های مبتنی بر جاوا[3] میسر می سازد. این استراتژی با استفاده از اهداف دهگانه ای توصیف می گردد. از مزایای استانداردهای داده‌کاوی این است که تشکل‌های تحلیلی پیشرفته‌ای را پیشنهاد می دهند.
2. معرفی استاندارد JDM
درگذشته، الگوریتم‌های داده‌کاوی توسط کدهای خامی به برنامه‌ها متصل می شدند یا بصورت بسته‌ای در یک واسط گرافیکی کاربر[4] در اختیار کاربر نهایی قرار می گرفتند در نتیجه تعبیه‌کردن داده‌کاوی در برنامه‌ها با برنامه‌های داده‌کاوی تجاری بسیار دشوار بود. چراکه این API ها مبتنی بر استاندارد نبوده و انتخاب نمودن راه‌حل‌های چندین شرکت عرضه‌کننده میسر نبود. بنابراین با مبتنی براستاندارد شدن API ها بکارگیری توابع داده‌کاوی ساده‌تر گشت و ریسک انتخاب راه حل‌های یک عرضه کننده‌ی مشخص، کاهش یافت و در عین حال دسترس پذیریِ داده‌کاوی را برای توسعه دهندگان برنامه‌ها میسر ساخت. استاندرادِ JDM بود که این موارد را محقق ساخت.[7]
با استفاده از چارچوبِ توسعه پذیرِ JDM، عرضه کنندگان بر قابلیت ها، خودکارسازی، کارایی و کاهش هزینه تمرکز نموده و نیز قادرند الگوریتم ها و توابع جدیدی را به موتور داده‌کاوی بیفزایند و از الگوهای آشنایی بهره مند گردند.
درحین طراحیِ JDM، استانداردهای متعدد داده‌کاوی شاملِ DM-PMML، ابرداده انباره داده ی OMG برای داده‌کاوی[5]DM-PMML، و [6]ISO-SQL/MM مورد بازبینی قرار گرفته تا درجه اطمینان قابلیت انتقالِ برنامه ها تضمین شود. [8]
با تکمیل JDM(JSR-73)، شرکت های سازنده و عرضه کننده، از استاندارد قدرتمندی برای جاوا و وب سوریس ها در ساخت برنامه‌های داده‌کاوی بهره مند می شوند. گروه خبره ای شامل کمپانی های Sun، Oracle، SPSS، IBM و چندین عرضه کننده دیگر نسخه بعدیِ JDM، یا همان JDM 2.0 (JSR-247) را در JCP توسعه می دهند. [2]
JDM شامل واسطهایی است که توابع کاوشی نظیر دسته بندی، رگرسیون، خوشه بندی، اهمیت مشخصه[7] و قوانین وابستگی را به همراه الگوریتم های کاوشی مانند نیو بیز[8]، ماشینهای بردار پشتیبانی[9]، درخت تصمیم، شبکه های عصبی و K-Means راپشتیبانی می نماید[3].
این توابع، وظایف و زمینه هایِ کاری داده‌کاوی را بصورت همروند[10] و ناهمروند[11] اجرا می نمایند به طوریکه ساخت[12] و بکاربردن[13] آنها را در حالت‌های دسته ای و بلادرنگ[14] در برداشته و در عین حال برای هر تابع کاوشی مناسب هستند. با استفاده ازامکان وارد کردن و خارج کردنِ[15] در آن، نمایش مدلهای متعدد را توسطِ PMML پشتیبانی می نماید و نیز می تواند برای ابرداده‌ی JDM ، توسط شِمایِJDM XML استفاده گردد. کاربران قادرند از واسط های JDM که پشتیبانی کننده‌یِ ماتریس آشفتگی[16]، صعود و ROC[17] ، رده بندی[18] و نمایشِ قوانین و آمار می باشند، بهره مند گردند. JDM مشخصه هایی از واسطهای وب سرویس های مبتنی بر مدل های JDM UML را دربردارد، بنابراین طراحی معماری های سرویس گرا[19] نیز در آن مهیا شده است و در حال حاضر اعضایِ JDM میتوانند سرمایه خود را در سرویس دهنده‌ی JDM ، هم برای جاوا و هم برای واسط وب سرویس ها، با استفاده از ابرداده ها و ساختار اشیاء بکار گیرند.[7], [5]
3. ضرورت استفاده از استاندارد JDM
از نظر تاریخی، داده‌کاوی دامنه‌ی وسیعِ آماری و تحلیل‌های داده را همراه داشته و کسب و‌کار‌های پیچیده اغلب خودشان الگوریتم های اختصاصی را توسعه داده و یا الگوریتم های منتشر شده را با بکارگیری افراد خبره در ریاضیات پیشرفته و آموزش ماشین[20] پیاده سازی نموده‌اند. درحال حاضر تکنولوژی داده‌کاوی تکامل یافته است، ابزارهای تجاری آن وارد بازار شده است. اگرچه داده‌کاوی فن آوری است که میتواند رفتارها را توصیف نموده و خروجی ها را پیش بینی نماید؛ ولی به همان اندازه که بصورت خودکار روابط پنهان درون اشیاء را طبقه‌بندی و استخراج می نماید، باید بتواند به سادگی در دسترس باشد تا برنامه‌های داده‌کاوی افزایش یابند. اگرچه ابزارهای تجاری از مدت‌ها قبل، دسترسی به فن آوری های خام را میسر نموده اند ولی هنوز برای بسیاری از کسب و کارها بدست آوردن یا کسب نمودن مزایای داده‌کاوی دشوار است. [7]
در بسیاری از ابزارهای داده‌کاوی واسط های گرافیکی پیچیده‌ای برای انجام فرایند داده‌کاوی تعبیه شده است و این اغلب منجر به این مشکل میشود که چگونه نتایج در فرایند‌های کسب وکار و یا در برنامه ها استقرار یابند. برای حل این مشکل، عرضه کنندگان داده‌کاوی API [21]هایی را تولید نموده اند تا بتواند محصولات خود را بصورت برنامه ای[22] کنترل نمایند. این API ها از زبانهای برنامه نویسی سنتی نظیر C و جاوا استفاده مینمایند. [8]
واسط های JDM بصورت مشخصه های کاملاً جاوایی[23] تعریف شده اند بگونه ای که هر سرویس دهنده و سرویس گیرنده بتوانند آنها را پیاده‌سازی نمایند.
JDM بصورت آزاد بوده و هست و استاندارد آن توسط چند عرضه کننده[24] ارائه شده است. یک استاندارد، باز[25] تعریف میشود تا مشخصه ها بصورت عمومی به منظور دستیابی به وظیفه ای خاص در دسترس باشند. استفاده از استانداردها سازگاری بین اجزای نرم افزاری و سخت‌افزاری مختلف را افزایش می دهد. . [1]
اهداف استراتژیک JDM عبارتند از:

  1. منجر به ایجاد تشکل بزرگی از توسعه دهندگان می شود.
  2. واسطی استاندارد می باشد.
  3. دارای پذیرش همه جانبه درمیان مصرف کنندگان و عرضه کنندگان می باشد.
  4. توسعه پذیر و تعمیم پذیر می باشد.
  5. بصورتی کوچک آغاز شده و بصورت عملکردی توسعه می یابد.
  6. استفاده از داده‌کاوی را برای تازه کاران تسهیل نموده و نیز کنترل هایی را در اختیار افراد خبره قرار میدهد..
  7. محدودیت‌های تطابق را برای پیاده سازی‌های شرکت‌های عرضه کننده تشخیص میدهد.
  8. نیازمندیهای واقعی برنامه‌های صنعتی را پشتیبانی می نماید.
  9. عرضه کنندگان و معماران آنرا در سایر دامنه‌های توسعه بکار میگیرند.
  10. سایر استاندارد‌های داده‌کاوی را بکار می گیرد. [7]
مرور کلیِ بسته های جاواییِ تعریف شده توسط استانداردها در جدول 1 ارائه شده است. [6]
توصیف
بسته
اشیای پشتیبانی کننده تمامی بسته های JDM را تعریف می نماید.
javax.datamining
اشیای پشتیبانی کننده از بسیاری اشیای کاوشی سطح بالا را تعریف می نماید. برای جلوگیری از وابستگی های چرخه ای بسته[26] معرفی شده است.
javax.datamining.base
اشیایی را که از اتصال به موتور داده‌کاوی و وظایف اجرایی پشتیبانی می کنند ، تعریف می‌نماید.
javax.datamining.resource
اشیایی را تعریف می کند که از داده های منطقی و فیزیکی، امضای مدل[27] ، رده بندی[28] ، مجموعه مقوله ها و ماتریس طبقه بندی اَبَرکلاس کلی[29] پشتیبانی می کنند.
javax.datamining.data
اشیای پشتیبانی کننده از آمار مشخصه ها را تعریف می نماید
javax.datamining.statistics
اشیای پشتیبانی کننده از قوانین و اجزای پیش بینی شده آنها را تعریف می نماید
javax.datamining.rules
اشیای پشتیبانی کننده از وظایف ساخت ،محاسبات آماری، وارد و صادر نمودن را تعریف می نماید .این وظیفه دارای یک زیر بسته اختیاری[30]جهت بکار گیریِ عمده در مورد توابع نظارتی و خوشه بندی است .
javax.datamining.task


اشیای پشتیبانی کننده از تنظیمات ساخت و مدلی به منظور وابستگی را تعریف می نماید.
javax.datamining.association
اشیای پشتیبانی کننده از تنظیمات ساخت و مدلی به منظور خوشه بندی را تعریف می نماید.
javax.datamining.clustering

اشیای پشتیبانی کننده از تنظیمات ساخت و مدلی به منظور اهمیت مشخصه را تعریف می‌نماید.
javax.datamining.attributeimportance


اشیای پشتیبانی کننده از تنظیمات ساخت و مدل هایی برای توابع یادگیری نظارت شده ، به ویژه دسته بندی و رگرسیون را به همراه بسته های اختیاری متناظر تعریف می نماید.
همچنین شامل یک وظیفه آزمون معمول برای توابع دسته بندی و رگرسیون نیز می باشد.
javax.datamining.supervised

اشیای پشتیبانی کننده از تنظیماتی است که مخصوص الگوریتم ها می باشند. بسته الگوریتم دارای زیر بسته های اختیاری برای الگوریتم های مختلف می باشد.
javax.datamining.algorithm

اشیای پشتیبانی کننده از جزئیات نمایش مدل های مختلف را تعریف می نماید. جزئیات مدل دارای زیربسته های اختیاری برای جزئیات مدل های متفاوت نیز می باشد.
javax.datamining.modeldetail


4. استاندارهای داده‌کاوی چه کاری انجام میدهند؟
تکامل استانداردهای داده‌کاوی همگام با بازار و فن آوری پیش می رود. با استاندارد سازی نمایشِ[31] مدل‌ها که از طریق [32]PMML انجام میگردد، کاربران از پتانسیل بیشتری به منظور تغییر مدل‌ها، توسط عرضه کنندگان[33] مختلفِ سیستم هایِ داده‌کاوی برخوردار می باشند. با استاندارد سازیِ عملیاتِ کاوش که از طریق JDM انجام میگردد، در مورد پارامترهای ورودی و نتایج خروجی منجر می شود که کاربران پتانسیل مناسبی به منظور توسعه بیشترِ برنامه های قابل انتقال[34] داشته باشند. علاوه‌بر‌این تبادلِ تنظیمات و اشیا مدل ها، توسط عرضه‌کنندگان انجام میگردد. همچنین توسعه دهندگان برنامه های تحلیلیِ پیشرفته قادرند الگوی[35] منفردی را آموزش دیده و سایر عرضه‌کنندگان از آن الگو بهره مند گردند. برنامه هایی که سیستمهای کاوشیِ عرضه‌کنندگان متعدد را بکار می گیرند، توسط چارچوبی معمول، که می تواند توابع را از هر سیستم کاوشی فراخوانی نماید، ساده‌سازی شده‌اند.
استانداردهای توسعه پذیرِ داده‌کاوی نظیرِ JDM ، چارچوبی را به منظور یکپارچه سازی محصولات اختصاصی[36] با الگوریتمهای در حال تکامل و توابع داده‌کاوی مهیا می سازند. عرضه کنندگان قابلیت های عملکردی را فراهم نموده تا درنهایت تعاریف، اشیاء و عملکردهای معمول تحتِ چارچوب، مجدداً مورد استفاده واقع شوند.
استاندارد JDM موجب می شود تا معماری برنامه‌ها، انعطاف پذیرتر شده، بطوریکه برای توسعه دهندگان برنامه‌های کاربردی و کسب وکارها انتخاب مناسبتری را فراهم می سازد تا به سمت راه‌حل‌هایِ جامعِ داده‌کاوی سوق داده شوند. بنابراین از قفل گذاریِ عرضه‌کنندگان رهایی یافته و راه‌حل‌های آن توسط چندین عرضه کننده پشتیبانی می گردد.
باخرید بیشتر نرم افزارهایی که دربرگیرنده توسعه برنامه های کاربردی جامع می باشند، مدیریت کسب وکار نگران مباحث مرتبط با قفل‌گذاری شرکتهای عرضه کننده میشود. این موضوع بعد از سرمایه گزاری در زمان، منابع و پول در پروژه هایی اتفاق می‌افتدکه از واسط‌های تجاری اختصاصی استفاده می نمایند. اگر نرم افزاری که بخشی از کلیدِ راه حل را پشتیبانی می‌نماید تغییر کند، این امر منجر به دوباره نویسی بخش عمده ای از برنامه می گردد. این هزینه ها موجب بیم مدیریت از انتخاب راه‌حل های معین یا راه‌حل هایی که متعلق به پروژه خاصی هستند، میگردد؛ و به سمت انتخابِ راه حل های استاندارد موجود و دردسترس سوق داده می شوند.[7]
شکل 1 ، برنامه ای را نشان میدهد که در آن از JDMِ پیاده سازی شده توسط عرضه کننده‌ی1، استفاده شده است و کاربر قادر است برنامه را بگونه ای بنویسد تا بتواند عرضه کننده‌ی2 را برگزیند؛ صرف نظر از اینکه تغییرات چشمگیری در برنامه ایجاد گردد. این موضوع بیانگر عدم وابستگی به قفل‌گذاری عرضه کننده می باشد.
http://www.www.www.iran-eng.ir/image/gif;base64,R0lGODlhAQABAPAAAP///wAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==



شکل1: عدم وابستگی به قفل‌گذاری عرضه کننده
همچنین استفاده از JDM در برنامه های داده‌کاوی سبب می شود که بتوان از یک راه‌حلی که توسط چند عرضه کننده پشتیبانی می شود، بهره گرفت. درنتیجه می توان بهترین ویژگیهای مجموعه ای از ابزارهای ارائه شده توسط عرضه‌کنندگان را بکارگرفت. شکل 2، بیانگر این موضوع می باشد.
http://www.www.www.iran-eng.ir/image/gif;base64,R0lGODlhAQABAPAAAP///wAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==




شکل2: راه حل داده‌کاوی که توسط چند عرضه کننده ارائه شده است.


راه حل هایی که توسط چند عرضه کننده پشتیبانی می شوند امکان ایجاد برنامه های توزیع شده را به گونه ای میسر می سازند که در آنها امکان تعویضِ اشیاء داده‌کاوی بین برنامه‌ها و محصولات عرضه‌کنندگان، وجود دارد. شکل3، یک برنامه ی ساخته شده را نشان می دهد که از عرضه کننده‌ی1، برای ساخت مدل ها استفاده کرده است. این مدل ها می توانند خارج شده و سپس به برنامه ای دیگر نظیر بصری سازیِ برنامه و یا برنامه‌ی بکاربستن و استقرار آن وارد شوند. این موضوع بیانگر قابلیت انتقال و همکاری[37] در برنامه‌های داده‌کاوی مبتنی بر استاندارد JDM می باشد.

http://www.www.www.iran-eng.ir/image/gif;base64,R0lGODlhAQABAPAAAP///wAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==

شکل 3: قابلیت انتقال و همکاری در بین برنامه های داده‌کاوی
در این حالت، عرضه کننده‌ی 3، بصری سازی گرافیکیِ سطح بالایی از مدل ها را فراهم می سازد که درآن مدلها از طریق یک برنامه بصری سازیِ سفارشی نمایش داده می شوند، در حالیکه عرضه کننده‌ی 2، برای بکار بستن مدل ها با استفاده از موتوری با کارایی بالا استفاده شده است.


5.API جاوا برای داده‌کاوی
با توجه به اینکه مهاجرت کلیه محصولات جاواییِ developers.sun.com و java.sun.com به سمت فن آوری های Oracle ، درحال انجام می باشد، لذا در این بخش به معرفی API جاوای داده‌کاوی که توسط Oracle ، پیاده سازی شده است پرداخته می‌شود.
API جاوا برای داده‌کاوی اراکل، پیاده سازی اراکل، از استاندارد JDM Java API (JSR-73) می باشد. یک API [38] سبک و کم حجم است که با استفاده از قابلیتهای فراوان توکار پایگاه داده‌ی داده‌کاوی اراکل توسعه داده شده است. API جاوای داده‌کاوی اراکل، ضمائم خاص اراکل را به منظور فراهم نمودن تمام ویژگی های داده‌کاوی موجود در پایگاه داده، پیاده سازی می نماید. تمامی ضمائم به گونه ای طراحی شده اند که مورد قبول چارچوب[39] توسعه استاندارد های JDM باشند. تمامی توابع و الگوریتم های کاوشی موجود در پایگاه داده از طریق API جاوای داده‌کاوی اراکل عرضه می شوند.
پایگاه داده اراکل 10.2.0.1 برای نخستین بار API مبتنی بر استاندارد 1.0JDM را ارائه نمود که جایگزین API جاوای قدیمی که منحصر به اراکل بود در نگارش های قبلی گردید. نسخه 10.2.0.2 پایگاه داده، پشتیبانی استاندارد های JDM را از طریق پیاده‌سازیAPI جاوایی داده‌کاوی اراکلِ مبتنی بر JDM1.1 توسعه داد.
در این نسخه API جاوا برای داده‌کاوی با JDM 1.1 سازگار بود و قابلیت های داده‌کاوی جدیدی را در پایگاه داده سرویس دهنده به عنوان ضمائم داده‌کاوی فراهم نموده است. همچنین این نسخه شامل ویژگی های جدید اراکل، نظیر آماده سازی خودکار داده ها، مدل های تصمیم یافته خطی، توالی تبدیلات و تشریح وابستگی می باشد . [6]
6. ضمائم اراکل[40] درJDM
ضمائم اراکل برای پشتیبانی از عملکردهایی تعریف شده اند که بخشی از استاندارد ها ی JDM نمی باشد . این بخش مروری کلی بر این ضمائم را ارائه می نماید . [6]
ضمائم اراکل دارای ویژگی های عمده اضافه شده ای به شرح ذیل می باشند :

  • تابع استخراج ویژگی به همراه الگوریتم عاملی سازی ماتریس غیر منفی (NMF)
  • الگوریتم مدل های تعمیم یافته خطی برای توابع رگرسیون و دسته بندی
  • الگوریتم انحصاری اراکل با نام خوشه بندی متعامد (O-Cluster) برای توابع دسته بندی
  • الگوریتم شبکه بیز تطبیقی[41] برای توابع دسته بندی
  • تبدیلات خودکار و توکار
  • وظایف تحلیل پیشگویانه
مروری بر ضمائم بسته های جاوای سطح بالای اراکل در جدول 2 رائه شده است.


جدول 2: ضمائم بسته های جاوای سطح بالای اراکل
توصیف
بسته
اشیای مرتبط با تابع استخراج ویژگی را تعریف می‌نماید . استخراج ویژگی از عملکرد امتیازدهی پشتیبانی می نماید.
oracle.dmt.jdm.featureextraction

اشیای مرتبط با الگوریتم عاملی سازی ماتریس غیر منفی NMF را تعریف می نماید.
oracle.dmt.jdm.algorithm.nmf
اشیای مرتبط با الگوریتم مدل تعمیم یافته خطی GLM را تعریف می نماید.
oracle.dmt.jdm.algorithm.glm
oracle.dmt.jdm.modeldetail.glm
اشیای مرتبط با الگوریتم خوشه بندی متعامد
(O-Cluster) را تعریف می نماید.
oracle.dmt.jdm.algorithm.ocluster
اشیای مرتبط با الگوریتم شبکه بیز تطبیقی (ABN) را تعریف می نماید
oracle.dmt.jdm.algorithm.abn
اشیای مرتبط با تبدیلات را تعریف می نماید.
oracle.dmt.jdm.transform

7. اشیای اصلی[42] موجود در API داده‌کاوی اراکل
در JDM ،اشیای نامبرده شده[43] اشیایی هستند که می توانند با استفاده از متد ذخیره سازی موجود در Connection ذخیره گردند. تمامی اشیای نامبرده شده از واسط javax.datamining.MiningObject به ارث رسیده اند. یک شرکت عرضه‌کننده می تواند پایداریِ[44] اشیاء نامبرده را یا به صورت دائم ( اشیاء پایدار[45] ) و یا فقط به مدت عمر شیء Connection (اشیاء ناپایدار [46]) انتخاب نماید. جدول3، فهرستی از اشیای نامیده شده JDM که توسط اراکل پشتیبانی می شود.
جدول3: فهرستی از اشیای نامیده شده JDM پشتیبانی شده توسط اراکل
اشیاء پشتیبانی نشده
اشیاء ناپایدار
اشیاء پایدار
داده منطقی
تنظیمات بکارگیری
مدل
رده بندی
مجموعه داده فیزیکی
تنظیمات ساخت


وظیفه


ماتریس هزینه


معیارهای آزمون


توالی تبدیلات



8. نتیجه گیری
در این مقاله به معرفی استاندارد JDM برای داده‌کاوی پرداخته شد. بصورت کلی میتوان گفت که استراتژی JDM دسترسی به داده‌کاوی را برای توسعه دهندگان جاوا و وب سرویس ها فراهم می سازد به گونه ای که موجب عدم وابستگی به قفل گزاری عرضه کننده گشته و قابلیت انتقال اجزای برنامه های مبتنی بر JDM داده‌کاوی را افزایش میدهد. با ساختنِ استانداردِ JDM، بنیان کسب‌کارهای استاندارد در بازار داده‌کاوی قدرتمند شده و به بلوغ قابل اطمینانی می رسند. نسخه جدید آن، JDM 2.0(JSR-247) می باشد. برخی از ویژگهای آن عبارتند ازامکان کاوش داده های غیر ساخت یافته مانند متن ها و تصاویر، توابع کاوشی دیگر نظیر استخراج ویژگی، پیش بینی پیشرفته، مقایسه مدلها و مدلهای چند هدفه به آن افزوده شده است.

9. مراجع
[1] http://en.wikipedia.org/wiki/Open_standard,2006
[2] http://jcp.org/en/jsr/detail?id=247,"Public Review of JSR 247",2006
[3] http://jcp.org/en/jsr/detail?id=73, "Public Review of JSR 73",2005
[4] http://www.jcp.org
[5] http://www.service-architecture.com/
[6] Kathy L. Taylor,Oracle® Data Mining,Concepts11g Release 2 (11.2),E12216-03,Oracle Corporation,September 2009
[7] Mark F. Hornick,Erik Marcadé,Sunil Venkayala,Java Data Mining, Strategy,Standard, and Practice, Elsevier,2007
[8] Mark F. Hornick,Hankil Yoon,Sunil Venkayala, "Java™ Data Mining (JSR-73): Status and Overview", http://www.ncdm.uic.edu/workshops/dm-ssp04, 2007



[1] Java Community Process (JCP)

[2] Reference Implementation

[3] Java-based applications

[4] Graphic User Interface

[5] OMG's Common Warehouse Metadata for Data Mining

[6] ISO's SQL/MM Part 6 Data Mining

[7] Attribute Importance

[8] Naïve Bayes

[9] Support Vector Machines: SVM

[10] synchronously

[11] asynchronously

[12]Build

[13] Apply

[14] Real-Time

[15] Import and export

[16] confusion matrix

[17] Receiver Operating Characteristics

[18] taxonomy

[19] Service Oriented Architecture (SOA)

[20] Machine Learning

[21] Application Programming Interfaces

[22] programmatic

[23] Java Specification

[24] Multivendor Standard

[25]Open Standard

[26] Cyclic Package Dependencies

[27] Model Signature

[28] Taxonomy

[29] Generic Super Class Category Matrix

[30]Optional Sub Packages

[31] Representations

[32] Predictive Model Markup Language

[33] Vendors

[34] Portable

[35] Paradigm

[36] Proprietary

[37] interoperability

[38] API (Application Program Interface)

[39] framework

[40] Oracle extensions

[41] (ABN) Adaptive Bayes Network

[42] Principal Objects

[43] named objects

[44] persist

[45] persistent objects

[46] transient objects



--
Venus Shakoorniaz
Computer(S/W) Eng.
Master of Industrial Engineering
Amirkabir University of Technology
 

aminaghta

عضو جدید
سلام دوتا مقاله داشتم گفتم شاید به درد علاقه مند ها بخوره
 

پیوست ها

  • sdarticle(12).pdf
    825.7 کیلوبایت · بازدیدها: 0
  • sdarticle(14).pdf
    434 کیلوبایت · بازدیدها: 0

paradise_iut

عضو جدید
اولا بگم که شما توی اولین نوشتتون نوشتید که ازآمار توی داده کاوی استفاده میشه که این جمله اشتباهه چون که توی آمار نمونه گیری میکنیم و بر اساس اون نتیجه میگیریم در صورتی که توی داده کاوی همه ی داده ها رو در نظر میگیریم:)
احتمالا خودتونم بعد از مطالعه اینو فهمیدید اینو گفتم که اگر کسی تاپیکو همینجوری دید اشتباه نفهمه:gol:
در مورد دکتر جمال شهرابی هم بگم که ایشون به جرات برترین فرد داده کاوی ایران هستند و اینم بگم اگر میخواید داده کاوی رو بصورت عملی کار کنین کتاب قرمز رنگ اده کاوی در sql رو بخونید خوبه:gol:


سلام

آقا/خانم Brave_IE،
من اتفاقی به این فروم برخورد کردم و نوشته ی شما رو دیدم. و چون صحبتی که کردید درست نبود رفتم ثبت نام کردم تا بتونم جوابتونو بدم.
فرموده بودید که این جمله که از آمار در داده کاوی استفاده میشه اشتباهه!
نمی دونم شما چقدر داده کاوی و در چه سطحی کار کردید. ولی اول اینکه صحبتی که کردید که در آمار نمونه گیری میکنیم و در داده کاوی نه کاملا اشتباه هست. درسته که در آمار روشهای نمونه گیری مختلفی وجود داره، ولی بسته به مساله هست. در مواردی هیچ لزومی به نمونه گیری نیست و با کل داده ها میشه مدل زد و به نتیجه رسید. در واقع با پیشرفت سخت افزاری و نرم افزاری، سعی در حفظ داده ها (خصوصا در مورد رکوردها (مشاهدات) ) هست و شاید موارد کاهش داده در خصوص متغیرها به کار بره که پیچیدگی مساله رو بیشتر میکنن.
اگر شما داده کاوی رو مرحله به مرحله دنبال کرده باشین، مهم ترین مرحله از داده کاوی data cleaning هست. در واقع آماده سازی داده ها برای مدل سازی. به طور مشخص در این مرحله اکثر روش های به کار گرفته شده آماری هستن. به طور ساده بررسی آمار توصیفی، و پیشرفته تر روابط بین متغیرها، حذف متغیرهای دارای همبستگی، انتخاب متغیر (که بحث بسیار گسترده ای هست)، کاهش بعد، بررسی داده ها از لحاظ missing، outlier و ...
تبدیل روی داده ها (نرمال سازی، استانداردسازی) و خیلی از موارد مطرح دیگه
در خصوص مرحله مدل سازی هم خیلی از اوقات از رگرسیون برای مدل سازی استفاده میشه. و حتی اگر تمرکز بر روی رگرسیون نباشه، چون مدل پایه هست و ساده ترین روش برای مهندسان و کارشناسان در صنعت، نتایج با رگرسیون مقایسه میشه.
توضیحات بیشتری میشه داد اما من به همین بسنده میکنم.
امیدوارم مفید بوده باشه.
در ضمن در تعریف داده کاوی یکی از اولین کسانی که این عبارت رو مطرح کرده (متاسفانه اسمش خاطرم نیست) میگه که : داده کاوی همان آمار است با ظاهری متفاوت و پر زرق و برق!

موفق و پیروز باشید :)
 

Similar threads

بالا