یک طرح پراکندگی (نمودار پراکندگی با نام مستعار ، نمودار پراکندگی) از نقاط برای نشان دادن مقادیر برای دو متغیر عددی مختلف استفاده می کند. موقعیت هر نقطه در محور افقی و عمودی مقادیر را برای یک نقطه داده فردی نشان می دهد. از توطئه های پراکندگی برای مشاهده روابط بین متغیرها استفاده می شود.
طرح پراکندگی مثال در بالا قطر و ارتفاعات نمونه ای از درختان داستانی را نشان می دهد. هر نقطه یک درخت واحد را نشان می دهد. موقعیت افقی هر نقطه نشان می دهد که قطر درخت (در سانتی متر) و موقعیت عمودی نشان می دهد که قد درخت (در متر) است. از این طرح ، می توانیم یک رابطه مثبت به طور کلی محکم بین قطر درخت و قد آن مشاهده کنیم. ما همچنین می توانیم یک نقطه مهم را مشاهده کنیم ، درختی که قطر بسیار بیشتری نسبت به سایرین دارد. این درخت به دلیل تنگه بودن آن نسبتاً کوتاه به نظر می رسد ، که ممکن است تحقیقات بیشتر را تضمین کند.
وقتی باید از یک طرح پراکندگی استفاده کنید
کاربردهای اصلی توطئه های پراکندگی مشاهده و نشان دادن روابط بین دو متغیر عددی است. نقاط موجود در یک طرح پراکندگی نه تنها مقادیر نقاط داده های فردی را گزارش می کنند ، بلکه وقتی داده ها به عنوان یک کل گرفته می شوند ، الگوهای خود را نیز گزارش می کنند.
شناسایی روابط همبستگی با توطئه های پراکنده مشترک است. در این موارد ، ما می خواهیم بدانیم ، اگر به ما یک مقدار افقی خاص داده می شد ، پیش بینی خوبی برای مقدار عمودی خواهد بود. شما اغلب متغیر را در محور افقی مشخص می کنید که یک متغیر مستقل و متغیر در محور عمودی متغیر وابسته است. روابط بین متغیرها از جهات مختلف قابل توصیف است: مثبت یا منفی ، قوی یا ضعیف ، خطی یا غیرخطی.
یک طرح پراکندگی همچنین می تواند برای شناسایی سایر الگوهای موجود در داده ها مفید باشد. ما می توانیم نقاط داده را بر اساس چگونگی مجموعه نزدیک به خوشه نقاط به هم تقسیم کنیم. توطئه های پراکندگی همچنین می توانند نشان دهند که آیا شکاف های غیر منتظره ای در داده ها وجود دارد و آیا نقاط مهمتر وجود دارد. این امر می تواند مفید باشد اگر بخواهیم داده ها را به قسمت های مختلف تقسیم کنیم ، مانند توسعه شخصیت های کاربر.
نمونه ساختار داده ها
قطر | قد |
---|---|
4. 20 | 3. 14 |
5. 55 | 3. 87 |
3. 33 | 2. 84 |
6. 91 | 4. 34 |
… | … |
برای ایجاد یک طرح پراکندگی ، باید دو ستون را از یک جدول داده انتخاب کنیم ، یکی برای هر بعد طرح. هر ردیف جدول با توجه به مقادیر ستون ، یک نقطه در نقشه با موقعیت تبدیل می شود.
مسائل مشترک هنگام استفاده از توطئه های پراکندگی
بیش از حد
هنگامی که ما داده های زیادی برای ترسیم داریم ، این می تواند به مسئله بیش از حد برنامه ریزی برسد. اضافه کردن بیش از حد موردی است که نقاط داده تا حدی با هم همپوشانی دارند که ما در دیدن روابط بین نقاط و متغیرها مشکل داریم. می توان گفت که وقتی بسیاری از آنها در یک منطقه کوچک قرار دارند ، می توان گفت نقاط داده های متراکم چقدر است.
چند روش مشترک برای کاهش این مسئله وجود دارد. یک گزینه دیگر برای نمونه برداری فقط زیر مجموعه ای از نقاط داده است: یک انتخاب تصادفی از نقاط هنوز هم باید ایده کلی از الگوهای موجود در داده های کامل را ارائه دهد. ما همچنین می توانیم شکل نقاط را تغییر دهیم و شفافیت را اضافه کنیم تا همپوشانی قابل مشاهده باشد ، یا اندازه نقطه را کاهش دهد تا همپوشانی کمتری رخ دهد. به عنوان یک گزینه سوم ، حتی ممکن است یک نوع نمودار متفاوت مانند نقشه گرما را انتخاب کنیم ، جایی که رنگ نشان دهنده تعداد نقاط در هر سطل است. نقشه های گرما در این مورد استفاده نیز به عنوان هیستوگرام 2 بعدی شناخته می شوند.
تفسیر همبستگی به عنوان علیت
این مسئله در ایجاد یک نقشه پراکندگی به اندازه مسئله ای نیست زیرا مسئله ای با تفسیر آن است. فقط به این دلیل که ما رابطه بین دو متغیر را در یک طرح پراکندگی مشاهده می کنیم ، به این معنی نیست که تغییر در یک متغیر مسئول تغییر در دیگری است. این باعث می شود عبارت مشترک در آماری ایجاد شود که همبستگی دلالت بر علت ندارد. این امکان وجود دارد که رابطه مشاهده شده توسط برخی از متغیرهای سوم که بر هر دو متغیر ترسیم شده تأثیر می گذارد ، هدایت شود ، که پیوند علی برعکس می شود ، یا اینکه این الگوی به سادگی تصادفی است.
به عنوان مثال ، این اشتباه است که به آمار شهر به میزان فضای سبز آنها و تعداد جنایات مرتکب شده نگاه کنیم و نتیجه بگیریم که یکی باعث دیگری می شود ، این می تواند این واقعیت را نادیده بگیرد که شهرهای بزرگتر با افراد بیشتری تمایل به داشتن بیشتر دارنداز هر دو ، و این که آنها به سادگی از طریق آن و سایر عوامل ارتباط دارند. اگر نیاز به ایجاد یک پیوند علیت داشته باشد ، برای کنترل سایر توضیحات احتمالی ، تجزیه و تحلیل بیشتر برای کنترل یا حساب کردن سایر اثرات متغیرهای بالقوه باید انجام شود.
گزینه های طرح پراکندگی مشترک
یک خط روند اضافه کنید
هنگامی که از یک طرح پراکندگی برای نگاه به یک رابطه پیش بینی کننده یا همبستگی بین متغیرها استفاده می شود ، معمول است که یک خط روند را به طرح اضافه کنید که از نظر ریاضی به بهترین وجه متناسب با داده ها است. این می تواند یک سیگنال اضافی در مورد اینکه رابطه بین دو متغیر چقدر قوی است ، فراهم کند و اگر نقاط غیرمعمول وجود داشته باشد که در محاسبه خط روند تأثیر بگذارد.
متغیر سوم طبقه بندی
اصلاح مشترک طرح پراکندگی اساسی ، افزودن متغیر سوم است. مقادیر متغیر سوم را می توان با اصلاح نحوه ترسیم نقاط رمزگذاری کرد. برای متغیر سوم که مقادیر طبقه بندی شده (مانند منطقه جغرافیایی یا جنسیت) را نشان می دهد ، رایج ترین رمزگذاری از طریق رنگ نقطه است. دادن رنگ مشخص به هر نقطه ، نشان دادن عضویت در هر نقطه به یک گروه مربوطه را آسان می کند.
نقاط رنگ آمیزی بر اساس نوع درخت نشان می دهد که فرسون ها (زرد) به طور کلی از میلتون ها (آبی) گسترده تر هستند ، اما همچنین برای همان قطر کوتاه تر هستند.
یکی دیگر از گزینه های دیگر که برای رمزگذاری متغیر سوم دیده می شود ، شکل است. یک مسئله بالقوه با شکل این است که اشکال مختلف می تواند اندازه و مناطق مختلف داشته باشد ، که می تواند در نحوه درک گروه ها تأثیر بگذارد. با این حال ، در موارد خاصی که از رنگ استفاده نمی شود (مانند چاپ) ، شکل ممکن است بهترین گزینه برای تمایز بین گروه ها باشد.
شکل های بالا برای استفاده از همان مقدار جوهر اندازه گیری شده است.
متغیر سوم عددی
برای متغیرهای سوم که دارای مقادیر عددی هستند ، یک رمزگذاری مشترک از تغییر اندازه نقطه ناشی می شود. یک طرح پراکندگی با اندازه نقطه بر اساس یک متغیر سوم در واقع با یک نام مشخص ، نمودار حباب انجام می شود. نقاط بزرگتر مقادیر بالاتری را نشان می دهد. بحث مفصل تر در مورد چگونگی ساخت نمودارهای حباب را می توان در مقاله خود خواند.
از رنگ نیز می توان برای نشان دادن مقادیر عددی به عنوان گزینه دیگر استفاده کرد. به جای استفاده از رنگهای مجزا برای نقاطی مانند مورد طبقه بندی ، ما می خواهیم از یک توالی مداوم از رنگ ها استفاده کنیم ، به گونه ای که ، به عنوان مثال ، رنگ های تیره نشان دهنده ارزش بالاتر است. توجه داشته باشید که ، برای هر دو اندازه و رنگ ، یک افسانه برای تفسیر متغیر سوم مهم است ، زیرا چشمان ما بسیار کمتر قادر به تشخیص اندازه و رنگ به راحتی به عنوان موقعیت هستند.
با استفاده از حاشیه نویسی و رنگ برجسته کنید
اگر می خواهید از یک نقشه پراکندگی برای ارائه بینش استفاده کنید ، خوب است که با استفاده از حاشیه نویسی و رنگ ، نکات مورد علاقه خاصی را برجسته کنید. اشباع کردن نکات بی اهمیت باعث می شود که نقاط باقی مانده از آن متمایز شود و برای مقایسه نکات باقیمانده در برابر.
توطئه های مرتبط
نقشه پراکندگی
هنگامی که این دو متغیر در یک طرح پراکنده مختصات جغرافیایی - عرض جغرافیایی و طول جغرافیایی هستند - می توانیم نقاط را روی نقشه قرار دهیم تا یک نقشه پراکندگی (نقشه نقطه نقطه) را بدست آوریم. این امر می تواند راحت باشد که زمینه جغرافیایی برای ترسیم بینش های خاص مفید باشد و می تواند با سایر رمزگذاری های متغیر سوم مانند اندازه و رنگ نقطه ترکیب شود.
یک مثال معروف از نقشه پراکندگی، نقشه شیوع وبا در سال 1854 جان اسنو است که نشان میدهد موارد وبا (نوارهای سیاه) حول یک پمپ آب خاص در خیابان برود (نقطه مرکزی) متمرکز شدهاند. اصل: Wikimedia Commons
نقشه حرارت
همانطور که در بالا ذکر شد، یک نقشه حرارتی می تواند جایگزین مناسبی برای نمودار پراکندگی باشد، زمانی که نقاط داده زیادی وجود دارد که باید رسم شوند و چگالی آنها باعث مشکلات بیش از حد ترسیم می شود. با این حال، نقشه حرارتی همچنین می تواند به روشی مشابه برای نشان دادن روابط بین متغیرها زمانی که یک یا هر دو متغیر پیوسته و عددی نیستند استفاده شود. اگر بخواهیم مقادیر گسسته را با نمودار پراکنده به تصویر بکشیم، تمام نقاط یک سطح در یک خط مستقیم خواهند بود. نقشههای حرارتی میتوانند از طریق ترکیب مقادیر در جعبههای شمارش، بر این بیش از حد ترسیم غلبه کنند.
نمودار پراکندگی متصل
اگر سومین متغیری که میخواهیم به نمودار پراکندگی اضافه کنیم، نشاندهنده مُهرهای زمانی است، در این صورت یک نوع نموداری که میتوانیم انتخاب کنیم، نمودار پراکندگی متصل است. به جای تغییر شکل نقاط برای نشان دادن تاریخ، از پاره خط ها برای اتصال مشاهدات به ترتیب استفاده می کنیم. این میتواند آسانتر ببیند که چگونه دو متغیر اصلی نه تنها با یکدیگر مرتبط هستند، بلکه چگونه این رابطه در طول زمان تغییر میکند. اگر محور افقی نیز با زمان مطابقت داشته باشد، آنگاه همه پاره های خط به طور پیوسته نقاط را از چپ به راست به هم متصل می کنند و ما یک نمودار خطی اساسی داریم.
ابزارهای تجسم
نمودار پراکندگی یک نوع نمودار اساسی است که باید با هر ابزار تجسمی یا راه حل ایجاد شود. محاسبه یک خط روند خطی پایه نیز یک گزینه نسبتاً متداول است، همانطور که نقاط رنگ آمیزی بر اساس سطوح یک متغیر طبقه بندی سوم نیز وجود دارد. با این حال، گزینههای دیگر، مانند خطوط روند غیر خطی و رمزگذاری مقادیر متغیر سوم بر اساس شکل، آنطور که معمولاً دیده نمیشوند. با این حال، حتی بدون این گزینهها، نمودار پراکندگی میتواند یک نوع نمودار ارزشمند برای استفاده زمانی باشد که نیاز به بررسی رابطه بین متغیرهای عددی در دادههای خود دارید.
نمودار پراکندگی یکی از انواع مختلف نمودار است که می تواند برای تجسم داده ها استفاده شود. از مقالات ما در مورد انواع نمودارهای ضروری، نحوه انتخاب نوع تجسم داده ها، یا با مرور مجموعه کامل مقالات در دسته نمودارها، اطلاعات بیشتری کسب کنید.