رگرسیون وزن‌دار جغرافیایی (GWR) چگونه کار می‌کند

  • 2021-10-18

رگرسیون وزن‌دار جغرافیایی (GWR) یکی از چندین تکنیک رگرسیون فضایی است که در جغرافیا و سایر رشته‌ها استفاده می‌شود. GWR یک مدل محلی از متغیر یا فرآیندی را که می‌خواهید با برازش یک معادله رگرسیون برای هر ویژگی در مجموعه داده، درک یا پیش‌بینی کنید، ارزیابی می‌کند. GWR این معادلات مجزا را با ترکیب متغیرهای وابسته و توضیحی ویژگی‌های موجود در همسایگی هر ویژگی هدف می‌سازد. شکل و وسعت هر محله تجزیه و تحلیل شده بر اساس پارامترهای نوع محله و روش انتخاب محله است. GWR باید برای مجموعه داده هایی با چند صد ویژگی اعمال شود. این روش مناسبی برای مجموعه داده های کوچک نیست و با داده های چند نقطه ای کار نمی کند.

ابزار Multiscale Geographically Weighted Regression را می توان برای اجرای GWR بر روی داده ها با مقیاس های مختلف روابط بین متغیرهای وابسته و توضیحی استفاده کرد.

این ابزار برای ArcGIS Pro 2. 3 به‌روزرسانی شده است و شامل تحقیقات آکادمیک اضافی، پیشرفت‌هایی در روش توسعه‌یافته در چند سال گذشته است و پشتیبانی از مدل‌های اضافی را گسترش می‌دهد. اضافه شدن مدل های شمارش (پواسون) و باینری (لجستیک) به این ابزار اجازه می دهد تا برای طیف وسیع تری از مسائل اعمال شود.

برنامه های کاربردی بالقوه

  • آیا رابطه بین میزان تحصیلات و درآمد در سراسر منطقه مورد مطالعه سازگار است؟
  • آیا برخی از بیماری ها یا بیماری ها با نزدیک شدن به آب ها افزایش می یابد؟
  • متغیرهای کلیدی که فرکانس بالای آتش سوزی جنگل را توضیح می دهد چیست؟
  • کدام زیستگاه ها باید برای تشویق به معرفی مجدد گونه های در حال انقراض محافظت شوند؟
  • ولسوالی هایی که کودکان در آن نمرات امتحانی بالایی کسب می کنند کجا هستند؟به نظر می رسد چه ویژگی هایی مرتبط است؟هر یک از مشخصه ها کجا مهمتر است؟
  • آیا عوامل مؤثر بر نرخ بالاتر سرطان در سراسر منطقه مورد مطالعه سازگار هستند؟

ورودی ها

برای اجرای ابزار GWR، پارامتر Input Features را با یک فیلد نشان دهنده متغیر وابسته و یک یا چند فیلد نشان دهنده متغیر(های) توضیحی ارائه دهید. این فیلدها باید عددی و دارای محدوده ای از مقادیر باشند. ویژگی هایی که حاوی مقادیر گمشده در متغیرهای وابسته یا توضیحی هستند از تجزیه و تحلیل حذف خواهند شد. با این حال، می توانید از ابزار Fill Missing Values برای تکمیل مجموعه داده قبل از اجرای GWR استفاده کنید. در مرحله بعد، باید یک نوع مدل را بر اساس داده هایی که در حال تجزیه و تحلیل هستید انتخاب کنید. مهم است که از یک مدل مناسب برای داده های خود استفاده کنید. شرح انواع مدل و نحوه تعیین مدل مناسب برای داده های شما در زیر آمده است.

نوع مدل

GWR سه نوع مدل رگرسیون ارائه می دهد: Continuous، Binary و Count. این نوع رگرسیون در ادبیات آماری به ترتیب با نام های گوسی، لجستیک و پواسون شناخته می شود. نوع مدل برای تجزیه و تحلیل شما باید بر اساس نحوه اندازه‌گیری یا خلاصه‌سازی متغیر وابسته و همچنین دامنه مقادیری که دارد انتخاب شود.

پیوسته (گاوسی)

اگر متغیر وابسته شما می تواند طیف وسیعی از مقادیر مانند دما یا فروش کل را داشته باشد، از نوع مدل پیوسته (گاوسی) استفاده کنید. در حالت ایده آل، متغیر وابسته شما به طور معمول توزیع می شود. می توانید یک هیستوگرام از متغیر وابسته خود ایجاد کنید تا بررسی کنید که به طور معمول توزیع شده است. اگر هیستوگرام منحنی زنگی متقارن است، از نوع مدل گاوسی استفاده کنید. بسیاری از مقادیر نزدیک به میانگین دسته بندی می شوند، با مقادیر کمی که به طور اساسی از میانگین فاصله می گیرند. در سمت چپ میانگین باید به اندازه سمت راست مقادیر وجود داشته باشد (مقادیر میانگین و میانه برای توزیع یکسان است). اگر به نظر می رسد که متغیر وابسته شما به طور معمول توزیع نشده است، آن را مجدداً به یک متغیر باینری طبقه بندی کنید. به عنوان مثال، اگر متغیر وابسته شما متوسط درآمد خانوار است، می‌توانید آن را به یک متغیر باینری تبدیل کنید، که در آن عدد 1 بالاتر از میانگین درآمد ملی و 0 (صفر) نشان‌دهنده زیر درآمد متوسط ملی است. یک فیلد پیوسته را می توان با استفاده از تابع کمکی Reclassify در ابزار Calculate Field به یک فیلد باینری طبقه بندی کرد.

باینری (لجستیک)

اگر متغیر وابسته شما می تواند یکی از دو مقدار ممکن مانند موفقیت و شکست یا حضور و غیاب را داشته باشد، از یک نوع مدل باینری (لجستیک) استفاده کنید. فیلد حاوی متغیر وابسته شما باید عددی باشد و فقط شامل یک و صفر باشد. اگر رویداد مورد علاقه، مانند موفقیت یا حضور یک حیوان را به عنوان 1 رمزگذاری کنید، تفسیر نتایج آسان تر خواهد بود، زیرا رگرسیون احتمال 1 را مدل می کند. باید در داده های شما هر دو در سطح جهانی، تنوع یک ها و صفرها وجود داشته باشد. و به صورت محلیاگر یک هیستوگرام از متغیر وابسته خود ایجاد کنید، فقط باید یک و صفر را نشان دهد. می‌توانید از ابزار Select By Circle برای بررسی تغییرات محلی با انتخاب مناطق مختلف در سراسر نقشه و اطمینان از وجود ترکیبی از یک‌ها و صفرها در هر منطقه استفاده کنید.

شمارش (پواسون)

اگر متغیر وابسته شما گسسته است و تعداد وقوع یک رویداد مانند تعداد جنایات را نشان می دهد، از یک نوع مدل تعداد (پواسون) استفاده کنید. اگر متغیر وابسته شما یک نرخ باشد و مخرج نرخ یک مقدار ثابت مانند فروش در ماه یا تعداد افراد مبتلا به سرطان به ازای هر 10000 جمعیت باشد، می‌توان از مدل‌های شمارش نیز استفاده کرد. یک مدل شمارش (پواسون) فرض می کند که میانگین و واریانس متغیر وابسته برابر است و مقادیر متغیر وابسته شما نمی تواند منفی یا حاوی اعشار باشد.

انتخاب محله (پهنای باند)

همسایگی (همچنین به عنوان پهنای باند نیز شناخته می‌شود) باند فاصله یا تعداد همسایه‌هایی است که برای هر معادله رگرسیون محلی استفاده می‌شود و شاید مهمترین پارامتری است که برای رگرسیون وزن‌دار جغرافیایی در نظر گرفته می‌شود، زیرا درجه هموارسازی را در مدل کنترل می‌کند. شکل و وسعت همسایگی‌های مورد تجزیه و تحلیل براساس ورودی پارامترهای نوع محله و روش انتخاب محله با یک اصلاح است: وقتی تعداد ویژگی‌های همسایگی از 1000 بیشتر شود، تنها نزدیکترین 1000 در هر معادله رگرسیون محلی استفاده می‌شود.

پارامتر نوع محله می تواند بر اساس تعداد همسایه ها یا فاصله فاصله باشد. هنگامی که از تعداد همسایگان استفاده می شود، اندازه همسایگی تابعی از تعداد مشخصی از همسایگان است، که به محله ها اجازه می دهد در جایی که ویژگی ها متراکم هستند کوچکتر و در جایی که ویژگی ها کم هستند بزرگتر باشند. وقتی از نوار فاصله استفاده می‌شود، اندازه همسایگی برای هر ویژگی در منطقه مورد مطالعه ثابت می‌ماند، در نتیجه ویژگی‌های بیشتری در هر محله که ویژگی‌ها متراکم هستند و در هر محله که پراکنده هستند، کمتر می‌شود.

پارامتر Neighborhood Selection Method نحوه تعیین اندازه همسایگی (فاصله واقعی یا تعداد همسایه های استفاده شده) را مشخص می کند. محله ای که با گزینه جستجوی طلایی یا فواصل دستی انتخاب می شود همیشه بر اساس به حداقل رساندن مقدار معیار اطلاعات آکایک (AICc) است. همچنین، می‌توانید فاصله محله یا تعداد همسایه‌ها را با گزینه User defined تعیین کنید.

هنگامی که گزینه جستجوی طلایی انتخاب می شود، ابزار بهترین مقادیر را برای پارامتر باند فاصله یا تعداد همسایگان با استفاده از روش جستجوی بخش طلایی تعیین می کند. جستجوی طلایی ابتدا حداکثر و حداقل فاصله را پیدا می کند و AICc را در فواصل مختلف به صورت تدریجی بین آنها آزمایش می کند. هنگامی که بیش از 1000 ویژگی در یک مجموعه داده وجود دارد، حداکثر فاصله فاصله ای است که هر ویژگی حداکثر 1000 همسایه دارد. حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 20 همسایه دارد. اگر کمتر از 1000 مشخصه وجود داشته باشد، حداکثر فاصله فاصله ای است که در آن هر ویژگی n/2 همسایه دارد (نصف تعداد ویژگی ها به عنوان همسایه)، و حداقل فاصله فاصله ای است که در آن هر ویژگی حداقل 5 درصد از ویژگی ها را دارد. n (5 درصد از ویژگی های مجموعه داده به عنوان همسایه). جستجوی طلایی فاصله یا تعداد همسایه‌هایی را که کمترین AICc را دارند به عنوان اندازه محله تعیین می‌کند.

پارامترهای حداقل فاصله جستجو و حداکثر فاصله جستجو (برای باند فاصله) و حداقل تعداد همسایه ها و حداکثر تعداد همسایه ها (برای تعداد همسایگان) می توانند برای محدود کردن محدوده جستجو با تنظیم فاصله شروع و پایان برای جستجوی طلایی به صورت دستی استفاده شوند.

طرح وزن دهی محلی

قدرت GWR در این است که یک وزن دهی جغرافیایی به ویژگی های مورد استفاده در هر یک از معادلات رگرسیون محلی اعمال می کند. ویژگی هایی که دورتر از نقطه رگرسیون هستند وزن کمتری دارند و بنابراین تأثیر کمتری بر نتایج رگرسیون برای ویژگی هدف دارند. ویژگی هایی که نزدیکتر هستند وزن بیشتری در معادله رگرسیون دارند. وزن ها با استفاده از یک هسته تعیین می شوند، که یک تابع کاهش فاصله است که تعیین می کند با افزایش فاصله وزن ها چقدر سریع کاهش می یابد. ابزار Geographically Weighted Regression دو گزینه هسته را در پارامتر Local Weighting Scheme ارائه می دهد، Gaussian و Bisquare.

طرح وزنه برداری گاوسی وزن یک را به ویژگی رگرسیون (ویژگی I) اختصاص می دهد ، و وزن برای ویژگی های اطراف (ویژگی های J) هموار و به تدریج کاهش می یابد با افزایش فاصله از ویژگی رگرسیون. به عنوان مثال ، اگر ویژگی I و J 0. 25 واحد از هم جدا باشند ، وزن حاصل در معادله تقریباً 0. 88 خواهد بود. اگر ویژگی I و J 0. 75 واحد از هم فاصله داشته باشند ، وزن حاصل فقط تقریباً 0. 32 خواهد بود. ویژگی J تأثیر کمتری در رگرسیون خواهد داشت زیرا دورتر است. یک طرح وزنه برداری گاوسی هرگز به صفر نمی رسد ، اما وزن برای ویژگی های دور از ویژگی رگرسیون می تواند بسیار اندک باشد و تقریباً هیچ تاثیری در رگرسیون ندارد. از نظر مفهومی ، هنگام استفاده از یک طرح وزنه برداری گاوسی ، هر ویژگی دیگر در داده های ورودی یک ویژگی همسایه است و به یک وزن اختصاص داده می شود. با این حال ، برای راندمان محاسباتی ، هنگامی که تعداد ویژگی های همسایه از 1000 تجاوز کند ، فقط نزدیکترین 1000 در هر رگرسیون محلی گنجانیده می شود. یک طرح وزنه برداری گاوسی تضمین می کند که هر ویژگی رگرسیون همسایگان زیادی خواهد داشت و بنابراین این احتمال را افزایش می دهد که در ارزش های آن همسایگان تغییر ایجاد شود. این امر از یک مشکل شناخته شده در رگرسیون جغرافیایی وزنی به نام Collinearity محلی جلوگیری می کند. از یک طرح وزنه برداری گاوسی استفاده کنید وقتی که تأثیر ویژگی های همسایه به طور روان و به تدریج اهمیت کمتری پیدا می کند ، اما این تأثیر همیشه بدون توجه به اینکه ویژگی های اطراف آن چقدر دور است وجود دارد.

طرح وزنه برداری Bisquare شبیه به گاوسی است. این وزن یک را به ویژگی رگرسیون (ویژگی I) اختصاص می دهد ، و وزنه هایی برای ویژگی های اطراف (ویژگی های J) هموار و با افزایش فاصله از ویژگی رگرسیون کاهش می یابد. با این حال ، تمام ویژگی های خارج از محله مشخص شده صفر اختصاص داده شده و بر رگرسیون محلی برای ویژگی هدف تأثیر نمی گذارد. هنگام مقایسه یک طرح وزنه برداری Bisquare با یک طرح وزنه برداری گاوسی با همان مشخصات محله ، وزن با Bisquare سریعتر کاهش می یابد. استفاده از یک طرح وزنه برداری Bisquare به شما امکان می دهد تا مسافتی را مشخص کنید که پس از آن ویژگی ها هیچ تاثیری در نتایج رگرسیون نخواهد داشت. از آنجا که Bisquare ویژگی ها را پس از فاصله مشخص حذف می کند ، هیچ تضمینی وجود ندارد که در محله اطراف ویژگی های کافی (با نفوذ) وجود داشته باشد تا بتواند تجزیه و تحلیل رگرسیون محلی خوب را انجام دهد. از یک طرح وزنه برداری گاوسی استفاده کنید وقتی که تأثیر ویژگی های همسایه به طور روان و به تدریج اهمیت کمتری پیدا کند و مسافتی وجود دارد که پس از آن این نفوذ دیگر وجود ندارد. به عنوان مثال ، رگرسیون اغلب برای مدل سازی قیمت مسکن استفاده می شود و قیمت فروش خانه های اطراف یک متغیر توضیحی رایج است. به این خانه های اطراف comps یا خواص قابل مقایسه گفته می شود. آژانس های وام گاهی اوقات قوانینی را تعیین می کنند که به یک خانه قابل مقایسه نیاز دارند تا حداکثر فاصله داشته باشند. در این مثال ، یک bisquare می تواند با یک محله برابر با حداکثر فاصله مشخص شده توسط موسسه وام استفاده شود.

پیش بینی

شما می توانید از مدل رگرسیون که ایجاد شده است برای پیش بینی سایر ویژگی ها (یا امتیاز یا چند ضلعی) در همان منطقه مورد مطالعه استفاده کنید. ایجاد این پیش بینی ها مستلزم آن است که هر یک از مکان های پیش بینی مقادیری برای هر یک از متغیر (های) توضیحی ارائه شده داشته باشد. اگر نام فیلد از ویژگی های ورودی و پارامترهای مکان پیش بینی مطابقت نداشته باشد ، یک پارامتر متغیر تطبیق ارائه می شود. هنگام تطبیق متغیرهای توضیحی ، زمینه های موجود از ویژگی های ورودی و پارامترهای مکان پیش بینی باید از یک نوع باشد (مثلاً زمینه های دوتایی باید با زمینه های دو برابر مطابقت داشته باشند).

شطرنجی ضریب

جنبه ای قدرتمند از GWR این است که به شما امکان می دهد روابط مکانی متفاوت را کشف کنید. یکی از راه های تجسم چگونگی روابط بین متغیرهای توضیحی و متغیر وابسته در فضا ، ایجاد شلاق های ضریب است. هنگامی که شما یک نام مسیر را برای پارامتر ضریب شطرنج کار ارائه می دهید ، ابزار GWR سطوح شطرنجی ضریب را برای رهگیری مدل و هر متغیر توضیحی ایجاد می کند. وضوح Rasters توسط محیط اندازه سلول کنترل می شود. یک محله (هسته) در اطراف هر سلول شطرنجی با استفاده از نوع محله و پارامترهای طرح وزن محلی ساخته می شود. وزن مبتنی بر فاصله از مرکز سلول شطرنجی به تمام ویژگی های ورودی در محله (پهنای باند) محاسبه می شود. این وزن ها برای محاسبه یک معادله رگرسیون منحصر به فرد برای آن سلول شطرنجی استفاده می شود. ضرایب از سلول شطرنجی به سلول شطرنجی متفاوت است زیرا وزن مبتنی بر فاصله تغییر می کند و ویژگی های ورودی بالقوه متفاوت در محله (پهنای باند) قرار می گیرند.

در حال حاضر هیچ اجماعی در مورد چگونگی ارزیابی اعتماد به نفس در ضرایب از یک مدل GWR وجود ندارد. در حالی که از آزمونهای T برای پایه گذاری استنباط در مورد اینکه آیا مقدار تخمین زده شده ضرایب با صفر متفاوت است ، استفاده شده است ، اعتبار این روش هنوز زمینه ای از تحقیقات فعال است. یک رویکرد برای ارزیابی غیررسمی ضرایب این است که ضریب را با خطای استاندارد ارائه شده برای هر ویژگی به عنوان راهی برای مقیاس بندی بزرگی تخمین با خطای استاندارد مرتبط تقسیم کرده و آن نتایج را تجسم کنید ، به دنبال خوشه های خطاهای استاندارد بالا نسبت به آنهاضرایب

خروجی ها

ابزار رگرسیون وزنی جغرافیایی انواع مختلفی از خروجی های مختلف را تولید می کند. خلاصه ای از مدل GWR و خلاصه های آماری به عنوان پیام در انتهای صفحه ژئوپروزینگ در حین اجرای ابزار در دسترس است. برای دسترسی به پیام ها ، اشاره گر را روی نوار پیشرفت ، روی دکمه بازپرداخت کلیک کنید یا بخش پیام ها را در صفحه Geoprrocessing گسترش دهید. همچنین می توانید از طریق تاریخچه Geoprrocessing به پیام های یک ابزار رگرسیون جغرافیایی که قبلاً اجرا شده است دسترسی پیدا کنید. این ابزار همچنین ویژگی های خروجی ، نمودارها و ویژگی های پیش بینی شده و ضریب شطرنج را به صورت اختیاری تولید می کند. ویژگی های خروجی و نمودارهای مرتبط به طور خودکار با یک طرح رندر گرم و سرد که برای باقیمانده های مدل اعمال می شود ، به صورت خودکار به صفحه محتویات اضافه می شوند. تشخیص و نمودارهای تولید شده به نوع مدل ویژگی های ورودی بستگی دارد و در زیر شرح داده شده است.

آمار مدل جهانی برای همه مدل ها محاسبه می شود.

پیوسته (گاوسی)

کلاس ویژگی ها و قسمت های اضافه شده

علاوه بر باقیمانده های رگرسیون ، پارامتر ویژگی های خروجی شامل زمینه هایی برای مقادیر متغیر وابسته مشاهده شده و پیش بینی شده ، شماره وضعیت (COND) ، R2 محلی ، ضرایب متغیر توضیحی و خطاهای استاندارد است.

رهگیری ، خطای استاندارد رهگیری ، ضرایب ، خطاهای استاندارد برای هر یک از متغیرهای توضیحی ، پیش بینی شده ، باقیمانده ، باقیمانده استاندارد ، نفوذ ، D کوک ، محلی R-Squared و شماره وضعیت نیز گزارش شده است. بسیاری از این زمینه ها در مورد نحوه کار رگرسیون OLS مورد بحث قرار گرفته است. ارزش های تأثیر و COOK هر دو تأثیر ویژگی را در تخمین ضرایب رگرسیون اندازه گیری می کنند. می توانید از نمودار هیستوگرام استفاده کنید تا مشخص کنید که آیا چند ویژگی از بقیه مجموعه داده ها تأثیرگذارتر است یا خیر. این ویژگی ها غالباً دور از دسترس هستند که تخمین ضرایب را تحریف می کنند ، و نتایج مدل ممکن است با از بین بردن آنها و بازخوانی ابزار بهبود یابد. مقدار محلی R-Squared از 0 تا 1 متغیر است و نشان دهنده قدرت همبستگی مدل محلی این ویژگی است. تعداد شرایط اندازه گیری پایداری ضرایب تخمین زده شده است. تعداد شرایط بالاتر از تقریباً 1000 نشانگر بی ثباتی در مدل است. این معمولاً توسط متغیرهای توضیحی ایجاد می شود که با یکدیگر ارتباط زیادی دارند.

تفسیر پیام و تشخیص

جزئیات تجزیه و تحلیل در پیام ها ، از جمله تعداد ویژگی های تحلیل شده ، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده ارائه شده است. علاوه بر این ، تشخیص مدل های مختلف گزارش شده است:

  • R2-R-Squared اندازه گیری خوبی از تناسب است. مقدار آن از 0. 0 تا 1. 0 متفاوت است و مقادیر بالاتر ارجح است. این ممکن است به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون به حساب می آید ، تعبیر شود. مخرج محاسبه R2 مجموع مقادیر متغیر وابسته به مربع است. اضافه کردن یک متغیر توضیحی اضافی به مدل ، مخرج را تغییر نمی دهد اما شمارنده را تغییر می دهد. این باعث می شود تصور در مدل متناسب با مدل باشد که ممکن است واقعی نباشد. adj R2 را در زیر مشاهده کنید.
  • ADJR2-به دلیل مسئله توضیح داده شده در بالا برای مقدار R2 ، محاسبات برای مقدار مربع R تنظیم شده ، شمارنده و مخرج را با درجه آزادی خود عادی می کند. این اثر جبران تعداد متغیرها در یک مدل را دارد و در نتیجه ، مقدار R2 تنظیم شده تقریباً همیشه کمتر از مقدار R2 است. با این حال ، در انجام این تنظیم ، شما تفسیر ارزش را به عنوان نسبت واریانس توضیح داده شده از دست می دهید. در GWR ، تعداد مؤثر درجات آزادی تابعی از محله مورد استفاده است ، بنابراین تنظیم ممکن است در مقایسه با یک مدل جهانی مانند رگرسیون خطی عمومی (GLR) کاملاً مشخص شود. به همین دلیل ، AICC به عنوان ابزاری برای مقایسه مدل ها ترجیح داده می شود.
  • AICC - این یک اندازه گیری از عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل ، مدل با مقدار AICC پایین تر ، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICC یک اندازه گیری مطلق از حسن تناسب نیست بلکه برای مقایسه مدل ها با متغیرهای توضیحی مختلف مفید است تا زمانی که برای یک متغیر وابسته یکسان اعمال شود. اگر مقادیر AICC برای دو مدل بیش از 3 متفاوت باشد ، مدل با مقدار AICC پایین تر بهتر می شود. مقایسه مقدار GWR AICC با مقدار GLR AICC یکی از راه های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) است.
  • Sigma-Squared-این حداقل مربعات از واریانس (مربع انحراف استاندارد) برای باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار مبلغ باقیمانده عادی مربعات است ، جایی که جمع باقیمانده مربع ها با درجات مؤثر آزادی باقیمانده ها تقسیم می شوند. مربع Sigma برای محاسبات AICC استفاده می شود.
  • Sigma-Squared MLE-این حداکثر برآورد احتمال (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مقدار باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
  • درجات مؤثر آزادی - این ارزش نشان دهنده تجارت بین واریانس مقادیر متناسب و تعصب در برآورد ضریب است و مربوط به انتخاب اندازه محله است. با نزدیک شدن به محله بی نهایت ، وزن جغرافیایی برای هر رویکرد ویژگی 1 ، و تخمین های ضریب برای یک مدل GLR جهانی بسیار نزدیک خواهد بود. برای محلات بسیار بزرگ ، تعداد مؤثر ضرایب به تعداد واقعی نزدیک می شود. برآورد ضریب محلی واریانس کمی خواهد داشت اما کاملاً مغرضانه خواهد بود. برعکس ، هرچه محله کوچکتر می شود و به صفر نزدیک می شود ، وزن جغرافیایی برای هر ویژگی به صفر می رسد به جز خود نقطه رگرسیون. برای محله های بسیار کوچک ، تعداد مؤثر ضرایب تعداد مشاهدات است و برآورد ضریب محلی واریانس زیادی دارد اما تعصب کم دارد. از تعداد مؤثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
  • مقدار بحرانی تنظیم شده از آمار شبه T-این مقدار بحرانی تنظیم شده است که برای آزمایش اهمیت آماری ضرایب در یک آزمون T دو طرفه با اطمینان 95 درصد استفاده می شود. مقدار مربوط به سطح معنی داری (آلفا) 0. 05 تقسیم بر درجات مؤثر آزادی است. این تنظیم میزان خطای خانواده (FWER) از اهمیت متغیرهای توضیحی را کنترل می کند.

نمودارهای خروجی

یک ماتریس نقشه پراکندگی در صفحه محتویات (از جمله حداکثر 19 متغیر) و همچنین یک هیستوگرام از باقیمانده انحراف که یک خط توزیع عادی را نشان می دهد ، ارائه شده است.

باینری (لجستیک)

کلاس ویژگی ها و قسمت های اضافه شده

رهگیری (رهگیری) ، خطای استاندارد رهگیری (SE_INTERECT) ، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی و همچنین احتمال 1 ، پیش بینی شده ، باقیمانده انحراف ، جنجال و درصد انحراف درصد گزارش شده است.

تفسیر پیام و تشخیص

جزئیات تجزیه و تحلیل در پیام ها از جمله تعداد ویژگی های تحلیل شده ، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده ارائه شده است. علاوه بر این ، تشخیص در ضبط صفحه زیر گزارش شده است:

  • انحراف ٪ توضیح داده شده توسط مدل جهانی (غیر فضایی)-این یک اندازه گیری از حسن تناسب است و عملکرد یک مدل جهانی (GLR) را تعیین می کند. مقدار آن از 0. 0 تا 1. 0 متفاوت است و مقادیر بالاتر ارجح است. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون حساب می شود ، تفسیر کرد.
  • انحراف ٪ توضیح داده شده توسط مدل محلی - این یک اندازه گیری از مناسب بودن تناسب است و عملکرد یک مدل محلی (GWR) را تعیین می کند. مقدار آن از 0. 0 تا 1. 0 متفاوت است و مقادیر بالاتر ارجح است. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی حساب می شود ، تفسیر کرد.
  • % انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است - این نسبت یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقی‌مانده مدل محلی بامجموع مربعات باقی مانده از مدل جهانی. مقدار آن از 0. 0 تا 1. 0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
  • AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدل‌ها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسانی اعمال می‌شوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار AICc GWR با مقدار OLS AICc یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
  • Sigma-Squared - این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
  • Sigma-Squared MLE-این حداکثر برآورد احتمال (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مقدار باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
  • درجات مؤثر آزادی - این ارزش نشان دهنده تجارت بین واریانس مقادیر متناسب و تعصب در برآورد ضریب است و مربوط به انتخاب اندازه محله است. با نزدیک شدن به محله بی نهایت ، وزن جغرافیایی برای هر رویکرد ویژگی 1 ، و تخمین های ضریب برای یک مدل GLR جهانی بسیار نزدیک خواهد بود. برای محلات بسیار بزرگ ، تعداد مؤثر ضرایب به تعداد واقعی نزدیک می شود. برآورد ضریب محلی واریانس کمی خواهد داشت اما کاملاً مغرضانه خواهد بود. برعکس ، هرچه محله کوچکتر می شود و به صفر نزدیک می شود ، وزن جغرافیایی برای هر ویژگی به صفر می رسد به جز خود نقطه رگرسیون. برای محله های بسیار کوچک ، تعداد مؤثر ضرایب تعداد مشاهدات است و برآورد ضریب محلی واریانس زیادی دارد اما تعصب کم دارد. از تعداد مؤثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
  • مقدار بحرانی تنظیم شده از آمار شبه T-این مقدار بحرانی تنظیم شده است که برای آزمایش اهمیت آماری ضرایب در یک آزمون T دو طرفه با اطمینان 95 درصد استفاده می شود. مقدار مربوط به سطح معنی داری (آلفا) 0. 05 تقسیم بر درجات مؤثر آزادی است. این تنظیم میزان خطای خانواده (FWER) از اهمیت متغیرهای توضیحی را کنترل می کند.

نمودارهای خروجی

یک ماتریس نمودار پراکندگی و همچنین نمودارهای جعبه و یک هیستوگرام از باقیمانده های انحراف ارائه شده است.

شمارش (پواسون)

کلاس ویژگی ها و قسمت های اضافه شده

رهگیری (INTERCEPT)، خطای استاندارد رهگیری (SE_INTERCEPT)، ضرایب و خطاهای استاندارد برای هر یک از متغیرهای توضیحی، و همچنین مقدار پیش‌بینی‌شده قبل از تبدیل لگاریتمی (RAW_PRED)، پیش‌بینی‌شده، انحراف باقی‌مانده، GInfluence، انحراف درصد محلی، و شماره وضعیت گزارش شده است.

تفسیر پیام و تشخیص

جزئیات تجزیه و تحلیل شامل تعداد ویژگی های تحلیل شده، متغیرهای وابسته و توضیحی و تعداد همسایگان مشخص شده در پیام ها ارائه می شود. علاوه بر این، تشخیص در تصویربرداری از صفحه زیر گزارش شده است:

  • انحراف ٪ توضیح داده شده توسط مدل جهانی (غیر فضایی)-این یک اندازه گیری از حسن تناسب است و عملکرد یک مدل جهانی (GLR) را تعیین می کند. مقدار آن از 0. 0 تا 1. 0 متفاوت است و مقادیر بالاتر ارجح است. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون حساب می شود ، تفسیر کرد.
  • % انحراف توضیح داده شده توسط مدل محلی - این معیار خوبی از برازش است و عملکرد مدل محلی (GWR) را کمیت می کند. مقدار آن از 0. 0 تا 1. 0 متغیر است و مقادیر بالاتر ترجیح داده می شود. می توان آن را به عنوان نسبت واریانس متغیر وابسته که توسط مدل رگرسیون محلی محاسبه می شود تفسیر کرد.
  • % انحراف توسط مدل محلی در مقابل مدل جهانی توضیح داده شده است - این نسبت یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (GLR) به یک مدل رگرسیون محلی (GWR) با مقایسه مجموع مربعات باقی‌مانده مدل محلی بامجموع مربعات باقی مانده از مدل جهانی. مقدار آن از 0. 0 تا 1. 0 متغیر است، با مقادیر بالاتر نشان دهنده عملکرد مدل رگرسیون محلی بهتر از یک مدل جهانی است.
  • AICc: این معیار عملکرد مدل است و می تواند برای مقایسه مدل های رگرسیون استفاده شود. با در نظر گرفتن پیچیدگی مدل، مدل با مقدار AICc کمتر، تناسب بهتری با داده های مشاهده شده فراهم می کند. AICc معیار مطلق خوبی برای برازش نیست، اما برای مقایسه مدل‌ها با متغیرهای توضیحی مختلف تا زمانی که برای متغیر وابسته یکسانی اعمال می‌شوند، مفید است. اگر مقادیر AICc برای دو مدل بیش از 3 متفاوت باشد، مدل با مقدار AICc کمتر بهتر است. مقایسه مقدار AICc GWR با مقدار OLS AICc یکی از راه‌های ارزیابی مزایای حرکت از یک مدل جهانی (OLS) به یک مدل رگرسیون محلی (GWR) است.
  • Sigma-Squared - این مقدار مجموع باقیمانده مربعات نرمال شده است که در آن مجموع مربعات باقیمانده بر درجات آزادی موثر باقیمانده تقسیم می شود. این برآورد حداقل مربعات واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. Sigma-Squared برای محاسبات AICc استفاده می شود.
  • Sigma-Squared MLE-این حداکثر برآورد احتمال (MLE) واریانس (مربع انحراف استاندارد) باقیمانده ها است. مقادیر کوچکتر این آمار ارجح است. این مقدار با تقسیم مقدار باقیمانده مربع ها بر تعداد ویژگی های ورودی محاسبه می شود.
  • درجات مؤثر آزادی - این ارزش نشان دهنده تجارت بین واریانس مقادیر متناسب و تعصب در برآورد ضریب است و مربوط به انتخاب اندازه محله است. با نزدیک شدن به محله بی نهایت ، وزن جغرافیایی برای هر رویکرد ویژگی 1 ، و تخمین های ضریب برای یک مدل GLR جهانی بسیار نزدیک خواهد بود. برای محلات بسیار بزرگ ، تعداد مؤثر ضرایب به تعداد واقعی نزدیک می شود. برآورد ضریب محلی واریانس کمی خواهد داشت اما کاملاً مغرضانه خواهد بود. برعکس ، هرچه محله کوچکتر می شود و به صفر نزدیک می شود ، وزن جغرافیایی برای هر ویژگی به صفر می رسد به جز خود نقطه رگرسیون. برای محله های بسیار کوچک ، تعداد مؤثر ضرایب تعداد مشاهدات است و برآورد ضریب محلی واریانس زیادی دارد اما تعصب کم دارد. از تعداد مؤثر برای محاسبه بسیاری از اقدامات تشخیصی دیگر استفاده می شود.
  • مقدار بحرانی تنظیم شده از آمار شبه T-این مقدار بحرانی تنظیم شده است که برای آزمایش اهمیت آماری ضرایب در یک آزمون T دو طرفه با اطمینان 95 درصد استفاده می شود. مقدار مربوط به سطح معنی داری (آلفا) 0. 05 تقسیم بر درجات مؤثر آزادی است. این تنظیم میزان خطای خانواده (FWER) از اهمیت متغیرهای توضیحی را کنترل می کند.

نمودارهای خروجی

یک ماتریس نقشه پراکندگی در صفحه محتویات (از جمله حداکثر 19 متغیر) و همچنین هیستوگرام خط توزیع باقیمانده و عادی ارائه شده است.

سایر یادداشت ها و نکات اجرای

در مدل های رگرسیون جهانی ، مانند GLR ، نتایج غیرقابل اعتماد است وقتی که دو یا چند متغیر چند قطبی را نشان می دهند (وقتی دو یا چند متغیر زائد هستند یا با هم همان داستان را می گویند). ابزار رگرسیون وزنه برداری جغرافیایی یک معادله رگرسیون محلی برای هر ویژگی در مجموعه داده ایجاد می کند. هنگامی که مقادیر یک خوشه متغیر توضیحی خاص از نظر مکانی ، احتمالاً با چند خطی محلی مشکل خواهید داشت. تعداد شرایط موجود در پارامتر ویژگی های خروجی نشان می دهد که نتایج به دلیل چند قطبی محلی ناپایدار هستند. به عنوان یک قاعده شست ، نسبت به نتایج با شماره شرط بزرگتر از 30 ، برابر با NULL یا برای شکل های شکل ، برابر ب ا-1. 7976931348623158e+308 است. به منظور اصلاح تعداد متغیرهای توضیحی در مدل ، تعداد شرایط تنظیم شده است. این امکان مقایسه مستقیم تعداد شرایط بین مدلها با استفاده از تعداد مختلف متغیرهای توضیحی را فراهم می کند.

خطاهای طراحی مدل اغلب نشان دهنده مشکلی با چند خطی جهانی یا محلی است. برای تعیین اینکه مشکل کجاست ، مدل را با استفاده از GLR اجرا کنید و مقدار VIF را برای هر متغیر توضیحی بررسی کنید. اگر برخی از مقادیر VIF بزرگ باشد (به عنوان مثال بالاتر از 7. 5) ، چند خطی جهانی مانع از حل GWR می شود. با این حال ، به احتمال زیاد ، چند خطی محلی مشکل است. برای هر متغیر توضیحی یک نقشه موضوعی ایجاد کنید. اگر نقشه خوشه بندی مکانی مقادیر یکسان را نشان می دهد ، از بین بردن این متغیرها از مدل یا ترکیب آن متغیرها با سایر متغیرهای توضیحی در نظر بگیرید تا تغییر ارزش را افزایش دهید. به عنوان مثال ، اگر شما در حال مدل سازی مقادیر خانه هستید و متغیرهایی برای اتاق خواب و حمام دارید ، ممکن است بخواهید این موارد را برای افزایش تغییر ارزش یا نمایندگی آنها به عنوان فیلم مربع حمام/اتاق خواب ترکیب کنید. از استفاده از متغیرهای مصنوعی یا باینری رژیم مکانی برای انواع مدل گاوسی یا پواسون ، متغیرهای طبقه بندی یا اسمی خوشه بندی فضایی با نوع مدل لجستیک یا متغیرها با چند مقادیر ممکن در ساخت مدل های GWR خودداری کنید.

مشکلات مربوط به چند قطبی محلی همچنین می تواند از حل این ابزار باند بهینه فاصله یا تعداد همسایگان جلوگیری کند. سعی کنید فواصل دستی یا یک باند از راه دور تعریف شده یا تعداد همسایه خاص را مشخص کنید. سپس شماره های شرایط موجود در کلاس ویژگی های خروجی را بررسی کنید تا ببینید کدام ویژگی ها با مشکلات چند قطبی محلی همراه است (شماره های شرط بزرگتر از 30). ممکن است بخواهید این ویژگی های مشکل را به طور موقت حذف کنید در حالی که فاصله بهینه یا تعداد همسایگان را پیدا می کنید. به خاطر داشته باشید که نتایج مرتبط با تعداد شرایط بیشتر از 30 قابل اعتماد نیست.

برآورد پارامتر و مقادیر پیش بینی شده برای GWR با استفاده از عملکرد وزن مکانی زیر محاسبه می شود: EXP (-D^2/B^2). ممکن است در این عملکرد وزنه برداری بین پیاده سازی های مختلف نرم افزار GWR تفاوت هایی وجود داشته باشد. در نتیجه ، نتایج حاصل از ابزار GWR ممکن است دقیقاً با نتایج سایر بسته های نرم افزاری GWR مطابقت نداشته باشد.

منابع اضافی

تعدادی از منابع برای کمک به شما در کسب اطلاعات بیشتر در مورد رگرسیون خطی عمومی و رگرسیون وزن جغرافیایی وجود دارد. با اصول تجزیه و تحلیل رگرسیون شروع کنید یا از طریق آموزش تحلیل رگرسیون کار کنید.

موارد زیر نیز منابع مفیدی هستند:

Brunsdon ، C. ، Fotheringham ، A. S. ، & Charlton ، M. E. (1996)."رگرسیون وزنه برداری جغرافیایی: روشی برای کاوش در غیر ایستگاه فضایی". تجزیه و تحلیل جغرافیایی ، 28 (4) ، 281-298.

Fotheringham ، Stewart A. ، Chris Brunsdon و Martin Charlton. رگرسیون وزن جغرافیایی: تجزیه و تحلیل روابط مکانی متفاوت. جان ویلی و پسران ، 2002.

Gollini ، I. ، Lu ، B. ، Charlton ، M. ، Brunsdon ، C. ، & Harris ، P. (2013). GWMODEL: بسته R برای کاوش ناهمگونی مکانی با استفاده از مدلهای وزنی جغرافیایی. arxiv preprint arxiv: 1306. 0413.

میچل ، اندی. راهنمای ESRI برای تجزیه و تحلیل GIS ، جلد 2. Esri Press ، 2005.

Nakaya ، T. ، Fotheringham ، A. S. ، Brunsdon ، C. ، & Charlton ، M. (2005)."رگرسیون پواسون از نظر جغرافیایی برای نقشه برداری انجمن بیماری". آمار در پزشکی ، 24 (17) ، 2695-2717.

Páez ، A. ، Farber ، S. ، & Wheeler ، D. (2011)."یک مطالعه مبتنی بر شبیه سازی از رگرسیون وزن جغرافیایی به عنوان روشی برای بررسی روابط مختلف مکانی". محیط و برنامه ریزی A ، 43 (12) ، 2992-3010.

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.