یک راهنمای کامل برای توطئه های پراکندگی

  • 2021-05-23

یک طرح پراکندگی (نمودار پراکندگی با نام مستعار ، نمودار پراکندگی) از نقاط برای نشان دادن مقادیر برای دو متغیر عددی مختلف استفاده می کند. موقعیت هر نقطه در محور افقی و عمودی مقادیر را برای یک نقطه داده فردی نشان می دهد. از توطئه های پراکندگی برای مشاهده روابط بین متغیرها استفاده می شود.

Example scatter plot depicting tree heights against their diameters.

طرح پراکندگی مثال در بالا قطر و ارتفاعات نمونه ای از درختان داستانی را نشان می دهد. هر نقطه یک درخت واحد را نشان می دهد. موقعیت افقی هر نقطه نشان می دهد که قطر درخت (در سانتی متر) و موقعیت عمودی نشان می دهد که قد درخت (در متر) است. از این طرح ، می توانیم یک رابطه مثبت به طور کلی محکم بین قطر درخت و قد آن مشاهده کنیم. ما همچنین می توانیم یک نقطه مهم را مشاهده کنیم ، درختی که قطر بسیار بیشتری نسبت به سایرین دارد. این درخت به دلیل تنگه بودن آن نسبتاً کوتاه به نظر می رسد ، که ممکن است تحقیقات بیشتر را تضمین کند.

وقتی باید از یک طرح پراکندگی استفاده کنید

کاربردهای اصلی توطئه های پراکندگی مشاهده و نشان دادن روابط بین دو متغیر عددی است. نقاط موجود در یک طرح پراکندگی نه تنها مقادیر نقاط داده های فردی را گزارش می کنند ، بلکه وقتی داده ها به عنوان یک کل گرفته می شوند ، الگوهای خود را نیز گزارش می کنند.

شناسایی روابط همبستگی با توطئه های پراکنده مشترک است. در این موارد ، ما می خواهیم بدانیم ، اگر به ما یک مقدار افقی خاص داده می شد ، پیش بینی خوبی برای مقدار عمودی خواهد بود. شما اغلب متغیر را در محور افقی مشخص می کنید که یک متغیر مستقل و متغیر در محور عمودی متغیر وابسته است. روابط بین متغیرها از جهات مختلف قابل توصیف است: مثبت یا منفی ، قوی یا ضعیف ، خطی یا غیرخطی.

Four scatter plot examples showing different types of relationships between variables.

یک طرح پراکندگی همچنین می تواند برای شناسایی سایر الگوهای موجود در داده ها مفید باشد. ما می توانیم نقاط داده را بر اساس چگونگی مجموعه نزدیک به خوشه نقاط به هم تقسیم کنیم. توطئه های پراکندگی همچنین می توانند نشان دهند که آیا شکاف های غیر منتظره ای در داده ها وجود دارد و آیا نقاط مهمتر وجود دارد. این امر می تواند مفید باشد اگر بخواهیم داده ها را به قسمت های مختلف تقسیم کنیم ، مانند توسعه شخصیت های کاربر.

Scatter plot examples showing data clusters, gaps in data, and outliers

نمونه ساختار داده ها

قطر قد
4. 20 3. 14
5. 55 3. 87
3. 33 2. 84
6. 91 4. 34

برای ایجاد یک طرح پراکندگی ، باید دو ستون را از یک جدول داده انتخاب کنیم ، یکی برای هر بعد طرح. هر ردیف جدول با توجه به مقادیر ستون ، یک نقطه در نقشه با موقعیت تبدیل می شود.

مسائل مشترک هنگام استفاده از توطئه های پراکندگی

بیش از حد

هنگامی که ما داده های زیادی برای ترسیم داریم ، این می تواند به مسئله بیش از حد برنامه ریزی برسد. اضافه کردن بیش از حد موردی است که نقاط داده تا حدی با هم همپوشانی دارند که ما در دیدن روابط بین نقاط و متغیرها مشکل داریم. می توان گفت که وقتی بسیاری از آنها در یک منطقه کوچک قرار دارند ، می توان گفت نقاط داده های متراکم چقدر است.

چند روش مشترک برای کاهش این مسئله وجود دارد. یک گزینه دیگر برای نمونه برداری فقط زیر مجموعه ای از نقاط داده است: یک انتخاب تصادفی از نقاط هنوز هم باید ایده کلی از الگوهای موجود در داده های کامل را ارائه دهد. ما همچنین می توانیم شکل نقاط را تغییر دهیم و شفافیت را اضافه کنیم تا همپوشانی قابل مشاهده باشد ، یا اندازه نقطه را کاهش دهد تا همپوشانی کمتری رخ دهد. به عنوان یک گزینه سوم ، حتی ممکن است یک نوع نمودار متفاوت مانند نقشه گرما را انتخاب کنیم ، جایی که رنگ نشان دهنده تعداد نقاط در هر سطل است. نقشه های گرما در این مورد استفاده نیز به عنوان هیستوگرام 2 بعدی شناخته می شوند.

Examples of overplotting resolved due to sampling, transparency, or a different chart type

تفسیر همبستگی به عنوان علیت

این مسئله در ایجاد یک نقشه پراکندگی به اندازه مسئله ای نیست زیرا مسئله ای با تفسیر آن است. فقط به این دلیل که ما رابطه بین دو متغیر را در یک طرح پراکندگی مشاهده می کنیم ، به این معنی نیست که تغییر در یک متغیر مسئول تغییر در دیگری است. این باعث می شود عبارت مشترک در آماری ایجاد شود که همبستگی دلالت بر علت ندارد. این امکان وجود دارد که رابطه مشاهده شده توسط برخی از متغیرهای سوم که بر هر دو متغیر ترسیم شده تأثیر می گذارد ، هدایت شود ، که پیوند علی برعکس می شود ، یا اینکه این الگوی به سادگی تصادفی است.

به عنوان مثال ، این اشتباه است که به آمار شهر به میزان فضای سبز آنها و تعداد جنایات مرتکب شده نگاه کنیم و نتیجه بگیریم که یکی باعث دیگری می شود ، این می تواند این واقعیت را نادیده بگیرد که شهرهای بزرگتر با افراد بیشتری تمایل به داشتن بیشتر دارنداز هر دو ، و این که آنها به سادگی از طریق آن و سایر عوامل ارتباط دارند. اگر نیاز به ایجاد یک پیوند علیت داشته باشد ، برای کنترل سایر توضیحات احتمالی ، تجزیه و تحلیل بیشتر برای کنترل یا حساب کردن سایر اثرات متغیرهای بالقوه باید انجام شود.

گزینه های طرح پراکندگی مشترک

یک خط روند اضافه کنید

هنگامی که از یک طرح پراکندگی برای نگاه به یک رابطه پیش بینی کننده یا همبستگی بین متغیرها استفاده می شود ، معمول است که یک خط روند را به طرح اضافه کنید که از نظر ریاضی به بهترین وجه متناسب با داده ها است. این می تواند یک سیگنال اضافی در مورد اینکه رابطه بین دو متغیر چقدر قوی است ، فراهم کند و اگر نقاط غیرمعمول وجود داشته باشد که در محاسبه خط روند تأثیر بگذارد.

Scatter plot of tree heights and diameters with a best-fit linear trend line through the points

متغیر سوم طبقه بندی

اصلاح مشترک طرح پراکندگی اساسی ، افزودن متغیر سوم است. مقادیر متغیر سوم را می توان با اصلاح نحوه ترسیم نقاط رمزگذاری کرد. برای متغیر سوم که مقادیر طبقه بندی شده (مانند منطقه جغرافیایی یا جنسیت) را نشان می دهد ، رایج ترین رمزگذاری از طریق رنگ نقطه است. دادن رنگ مشخص به هر نقطه ، نشان دادن عضویت در هر نقطه به یک گروه مربوطه را آسان می کند.

TScatterplot of tree heights and diameters colored by type of tree

نقاط رنگ آمیزی بر اساس نوع درخت نشان می دهد که فرسون ها (زرد) به طور کلی از میلتون ها (آبی) گسترده تر هستند ، اما همچنین برای همان قطر کوتاه تر هستند.

یکی دیگر از گزینه های دیگر که برای رمزگذاری متغیر سوم دیده می شود ، شکل است. یک مسئله بالقوه با شکل این است که اشکال مختلف می تواند اندازه و مناطق مختلف داشته باشد ، که می تواند در نحوه درک گروه ها تأثیر بگذارد. با این حال ، در موارد خاصی که از رنگ استفاده نمی شود (مانند چاپ) ، شکل ممکن است بهترین گزینه برای تمایز بین گروه ها باشد.

A square or circle looks smaller than a triangle or cross printed with the same amount of area.

شکل های بالا برای استفاده از همان مقدار جوهر اندازه گیری شده است.

متغیر سوم عددی

برای متغیرهای سوم که دارای مقادیر عددی هستند ، یک رمزگذاری مشترک از تغییر اندازه نقطه ناشی می شود. یک طرح پراکندگی با اندازه نقطه بر اساس یک متغیر سوم در واقع با یک نام مشخص ، نمودار حباب انجام می شود. نقاط بزرگتر مقادیر بالاتری را نشان می دهد. بحث مفصل تر در مورد چگونگی ساخت نمودارهای حباب را می توان در مقاله خود خواند.

Generic bubble chart where a moderate positive relationship is shown, but larger bubbles also tend to have higher positions.

از رنگ نیز می توان برای نشان دادن مقادیر عددی به عنوان گزینه دیگر استفاده کرد. به جای استفاده از رنگهای مجزا برای نقاطی مانند مورد طبقه بندی ، ما می خواهیم از یک توالی مداوم از رنگ ها استفاده کنیم ، به گونه ای که ، به عنوان مثال ، رنگ های تیره نشان دهنده ارزش بالاتر است. توجه داشته باشید که ، برای هر دو اندازه و رنگ ، یک افسانه برای تفسیر متغیر سوم مهم است ، زیرا چشمان ما بسیار کمتر قادر به تشخیص اندازه و رنگ به راحتی به عنوان موقعیت هستند.

Scatter plot with points colored by a third variable, equivalent to above bubble chart.

با استفاده از حاشیه نویسی و رنگ برجسته کنید

اگر می خواهید از یک نقشه پراکندگی برای ارائه بینش استفاده کنید ، خوب است که با استفاده از حاشیه نویسی و رنگ ، نکات مورد علاقه خاصی را برجسته کنید. اشباع کردن نکات بی اهمیت باعث می شود که نقاط باقی مانده از آن متمایز شود و برای مقایسه نکات باقیمانده در برابر.

Scatter plot of points scored by teams in the NFL in the 2018/19 season, highlighting Super Bowl teams NE and LAR.

توطئه های مرتبط

نقشه پراکندگی

هنگامی که این دو متغیر در یک طرح پراکنده مختصات جغرافیایی - عرض جغرافیایی و طول جغرافیایی هستند - می توانیم نقاط را روی نقشه قرار دهیم تا یک نقشه پراکندگی (نقشه نقطه نقطه) را بدست آوریم. این امر می تواند راحت باشد که زمینه جغرافیایی برای ترسیم بینش های خاص مفید باشد و می تواند با سایر رمزگذاری های متغیر سوم مانند اندازه و رنگ نقطه ترکیب شود.

Excerpt of John Snow

یک مثال معروف از نقشه پراکندگی، نقشه شیوع وبا در سال 1854 جان اسنو است که نشان می‌دهد موارد وبا (نوارهای سیاه) حول یک پمپ آب خاص در خیابان برود (نقطه مرکزی) متمرکز شده‌اند. اصل: Wikimedia Commons

نقشه حرارت

همانطور که در بالا ذکر شد، یک نقشه حرارتی می تواند جایگزین مناسبی برای نمودار پراکندگی باشد، زمانی که نقاط داده زیادی وجود دارد که باید رسم شوند و چگالی آنها باعث مشکلات بیش از حد ترسیم می شود. با این حال، نقشه حرارتی همچنین می تواند به روشی مشابه برای نشان دادن روابط بین متغیرها زمانی که یک یا هر دو متغیر پیوسته و عددی نیستند استفاده شود. اگر بخواهیم مقادیر گسسته را با نمودار پراکنده به تصویر بکشیم، تمام نقاط یک سطح در یک خط مستقیم خواهند بود. نقشه‌های حرارتی می‌توانند از طریق ترکیب مقادیر در جعبه‌های شمارش، بر این بیش از حد ترسیم غلبه کنند.

Heatmap showing daily precipitation by month for Seattle, 1998-2018

نمودار پراکندگی متصل

اگر سومین متغیری که می‌خواهیم به نمودار پراکندگی اضافه کنیم، نشان‌دهنده مُهرهای زمانی است، در این صورت یک نوع نموداری که می‌توانیم انتخاب کنیم، نمودار پراکندگی متصل است. به جای تغییر شکل نقاط برای نشان دادن تاریخ، از پاره خط ها برای اتصال مشاهدات به ترتیب استفاده می کنیم. این می‌تواند آسان‌تر ببیند که چگونه دو متغیر اصلی نه تنها با یکدیگر مرتبط هستند، بلکه چگونه این رابطه در طول زمان تغییر می‌کند. اگر محور افقی نیز با زمان مطابقت داشته باشد، آنگاه همه پاره های خط به طور پیوسته نقاط را از چپ به راست به هم متصل می کنند و ما یک نمودار خطی اساسی داریم.

Generic connected scatter plot showing daily progression of value on two axes through points connected by lines

ابزارهای تجسم

نمودار پراکندگی یک نوع نمودار اساسی است که باید با هر ابزار تجسمی یا راه حل ایجاد شود. محاسبه یک خط روند خطی پایه نیز یک گزینه نسبتاً متداول است، همانطور که نقاط رنگ آمیزی بر اساس سطوح یک متغیر طبقه بندی سوم نیز وجود دارد. با این حال، گزینه‌های دیگر، مانند خطوط روند غیر خطی و رمزگذاری مقادیر متغیر سوم بر اساس شکل، آن‌طور که معمولاً دیده نمی‌شوند. با این حال، حتی بدون این گزینه‌ها، نمودار پراکندگی می‌تواند یک نوع نمودار ارزشمند برای استفاده زمانی باشد که نیاز به بررسی رابطه بین متغیرهای عددی در داده‌های خود دارید.

نمودار پراکندگی یکی از انواع مختلف نمودار است که می تواند برای تجسم داده ها استفاده شود. از مقالات ما در مورد انواع نمودارهای ضروری، نحوه انتخاب نوع تجسم داده ها، یا با مرور مجموعه کامل مقالات در دسته نمودارها، اطلاعات بیشتری کسب کنید.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.