आउटलेटर्सची गणना करा

व्हिडिओ: douglas kruger - आपण कधीही दारिद्र्यातून सुटला आहे का? गरीब विचार करू नका!

सामग्री

पाऊल टाकण्यासाठी
टिपा
गरजा

ए आउटलेटर किंवा आउटलेटर आकडेवारीत एक डेटा पॉईंट असतो जो नमुन्यातील इतर डेटा पॉइंट्सपेक्षा लक्षणीय भिन्न असतो. बहुतेकदा, आकडेमोडी लोक सांख्यिकी शास्त्रज्ञांकडे मोजमापांमधील फरक किंवा त्रुटींकडे लक्ष वेधतात, ज्यानंतर ते डेटा सेटमधून आउटलेटर काढू शकतात. जर त्यांनी प्रत्यक्षात डेटा सेटमधून आउटलेटर्स काढणे निवडले असेल तर ते अभ्यासाच्या निष्कर्षात महत्त्वपूर्ण बदल घडवून आणू शकेल. म्हणूनच आपण सांख्यिकीय डेटाचे योग्य वर्णन करू इच्छित असल्यास आउटलेटर्सची गणना करणे आणि त्यांचे निर्धारण करणे महत्वाचे आहे.

पाऊल टाकण्यासाठी

संभाव्य परदेशी लोकांना कसे शोधायचे ते शिका. एखाद्या विशिष्ट डेटा सेटमधून विसंगत मूल्ये काढायची की नाही हे ठरविण्यापूर्वी आपण प्रथम डेटा सेटमधील संभाव्य आउटलेटर्स ओळखणे आवश्यक आहे. सर्वसाधारणपणे, आउटलेटर हे डेटा पॉइंट असतात जे सेटमधील इतर मूल्ये बनविणार्‍या ट्रेंडपासून लक्षणीय विचलन करतात - दुस other्या शब्दांत, ते गोळी झाडणे इतर मूल्यांचे. हे टेबलमध्ये आणि (विशेषतः) आलेखांमध्ये ओळखणे सहसा सोपे असते. जर डेटा सेट दृश्यास्पदपणे आलेला असेल तर आउटलेटर्स इतर मूल्यांपासून "लांब" असतील. उदाहरणार्थ, डेटा सेटमधील बहुतेक बिंदू एक सरळ रेषा तयार करत असल्यास, आउटलाइनर या ओळीचे अनुरूप नाहीत.
- चला खोलीतील 12 वेगवेगळ्या वस्तूंचे तापमान दर्शविणारा डेटा सेट पाहू. 21 वस्तूंचे तापमान जवळजवळ 21 डिग्री सेल्सिअस तापमानात काही अंशांनी चढउतार होत असेल तर एक ऑब्जेक्ट, ओव्हनचे तापमान 150 डिग्री सेल्सिअस असते तर आपण एका दृष्टीक्षेपात पाहू शकता की ओव्हन बहुधा आउटलेट आहे.
सर्व डेटा बिंदू सर्वात कमी ते उच्चतम क्रमवारीत लावा. आउटलेटर्सची गणना करण्याची पहिली पायरी म्हणजे डेटा सेटचे मध्यम मूल्य (किंवा मध्यम मूल्य) शोधणे. जर सेटमधील मूल्ये सर्वात खालच्या ते उच्चतम क्रमानुसार असतील तर हे कार्य अधिक सुलभ होते. तर सुरू ठेवण्यापूर्वी आपल्या डेटासेटमधील व्हॅल्यूज याप्रमाणे क्रमवारी लावा.
- चला वरील उदाहरणासह पुढे जाऊया. खोलीतील वेगवेगळ्या वस्तूंचे डिग्री फॅरेनहाइट तापमान दर्शविणारा हा आमचा डेटा सेट आहे: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. जर आपण सेटमधील मूल्ये सर्वात खालपासून ते सर्वोच्च पर्यंत क्रमित केली तर हा आपला नवीन सेट बनतो: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
डेटा सेटच्या मध्यमची गणना करा. डेटासेटचा मध्यभागी हा डेटा पॉईंट असतो जिथे अर्धा डेटा त्याच्या वर असतो आणि अर्धा डेटा त्याच्या खाली असतो - तो डेटासेटच्या "मध्यभागी" आहे. जर डेटा सेटमध्ये पॉईंट्सची एक विचित्र संख्या असेल तर मध्यकाला शोधणे सोपे आहे - वरचा खाली दिलेल्या बिंदूंपेक्षा जास्त बिंदू असलेला मध्यभागी एक बिंदू आहे. जर तेथे समान बिंदू आहेत, कारण तेथे एक केंद्र नाही तर आपल्याला मध्यभागी शोधण्यासाठी दोन केंद्र बिंदूंची सरासरी घ्यावी लागेल. आउटलेटर्सची गणना करताना, मध्यभागी सामान्यत: व्हेरिएबल Q2 द्वारे संदर्भित केला जातो - कारण ते Q1 आणि Q3 दरम्यान आहे, प्रथम आणि तिसरा चतुर्थक. आम्ही नंतर हे व्हेरिएबल्स ठरवू.
- अगदी समान संख्येसह डेटासेटद्वारे गोंधळ होऊ नका - दोन मध्यम बिंदूंची सरासरी बहुतेकदा अशी संख्या असते जी डेटासेटमध्ये नसते - हे ठीक आहे. तथापि, जर दोन मध्यम बिंदू समान आहेत, तर नक्कीच मध्य संख्या देखील ही संख्या असेल - ही देखील आहे ठीक आहे.
- आमच्या उदाहरणात आमच्याकडे 12 गुण आहेत. मधली दोन संज्ञा अनुक्रमे points आणि - - and० आणि are१ अशी आहेत.त्यामुळे आमच्या डेटा सेटचा मध्यभागी या दोन बिंदूंचे मध्यम आहे: ((+० + )१) / २) =70,5.
पहिल्या चतुर्थांशची गणना करा. हा बिंदू, ज्याला आपण Q1 व्हेरिएबलने दर्शवितो, डेटा डेटा आहे ज्याच्या खाली 25 टक्के (किंवा एक चतुर्थांश) निरीक्षणे आहेत. दुसर्‍या शब्दांत, हे आपल्या डेटा सेटमधील सर्व बिंदूंचे केंद्र आहे खाली मध्यम. जर मध्यभागाच्या खाली मूल्ये अगदी संख्येने असतील तर आपण Q1 शोधण्यासाठी पुन्हा दोन मध्यम मूल्यांची सरासरी घेणे आवश्यक आहे, कारण आपण स्वत: मध्यक निश्चित करण्यासाठी केले असेल.
- आमच्या उदाहरणात, सहा गुण मध्यभागी आणि त्याच्या खाली सहा गुण आहेत. तर प्रथम चतुर्थांश शोधण्यासाठी आपल्याला खाली असलेल्या सहा बिंदूत दोन मध्यम बिंदूची सरासरी घ्यावी लागेल. खालच्या सहा मधील बिंदू 3 आणि 4 हे दोन्ही 70 आहेत, म्हणून त्यांचा अर्थ ((70 + 70) / 2) = आहे70. तर Q1 चे आपले मूल्य 70 आहे.
तिसर्‍या चतुर्थांशची गणना करा. हा बिंदू, ज्याला आपण Q3 व्हेरिएबलने दर्शवितो, डेटा डेटा आहे ज्याच्या वर 25 टक्के डेटा आहे. या प्रकरणातील मुद्द्यांकडे दुर्लक्ष करून, Q3 शोधणे व्यावहारिकपणे Q1 शोधण्यासारखेच आहे वरील मध्यम.
- वरील उदाहरणासह पुढे जात असताना आपण पाहतो की मध्यभागी वरील सहा गुणांचे दोन मध्यम बिंदू 71 आणि 72 आहेत. या दोन बिंदूंचा अर्थ ((71 + 72) / 2) = आहे71,5. तर Q3 चे आपले मूल्य 71.5 आहे.
परस्पर श्रेणी शोधा. आता आपण Q1 आणि Q3 निर्धारित केले आहे की आपल्याला या दोन व्हेरिएबल्स मधील अंतर मोजावे लागेल. आपण Q3 वरून Q1 वजा करून Q1 आणि Q3 दरम्यान अंतर शोधू शकता. इंटरकॉर्टिल रेंजसाठी आपल्याला मिळणारे मूल्य आपल्या डेटा सेटमधील विचलन न करणार्‍या बिंदूंसाठी सीमा निश्चित करण्यासाठी महत्त्वपूर्ण आहे.
- आमच्या उदाहरणात, Q1 आणि Q3 ची मूल्ये अनुक्रमे 70 आणि 71.5 आहेत. परस्पर श्रेणी शोधण्यासाठी आम्ही Q3 - Q1: 71.5 - 70 = गणना करतो1,5.
- Q1, Q3 किंवा दोन्ही संख्या नकारात्मक असल्यास देखील हे कार्य करते. उदाहरणार्थ, जर Q1 चे आमचे मूल्य -70 असेल तर आंतरखंडाची श्रेणी 71.5 - (-70) = 141.5 असेल, जे योग्य आहे.
डेटासेटच्या "अंतर्गत मर्यादा" शोधा. आपण आउटलेटर्सना अनेक संख्येच्या मर्यादा पडतात की नाही हे ठरवून ओळखू शकता; तथाकथित "अंतर्गत मर्यादा" आणि "बाह्य मर्यादा". डेटासेटच्या अंतर्गत मर्यादेच्या बाहेर पडणारा बिंदू एक म्हणून वर्गीकृत केला जातो सौम्य आउटलेटरआणि बाह्य मर्यादेबाहेरील बिंदूचे एक वर्गीकरण केले आहे अत्यंत आउटलेटर. आपल्या डेटाच्या सेटची आतील सीमा शोधण्यासाठी प्रथम इंटरकॉर्टिल श्रेणी 1.5 ला गुणाकार करा. Q3 मध्ये निकाल जोडा आणि Q1 वजा करा. दोन परिणाम आपल्या डेटा सेटची अंतर्गत मर्यादा आहेत.
- आमच्या उदाहरणात, इंटरकॉटरिल श्रेणी (71.5 - 70) किंवा 1.5 आहे. २.२ get मिळविण्यासाठी याला 1.5 ने गुणाकार करा. आम्ही ही संख्या क्यू 3 वर जोडतो आणि अंतर्गत सीमा शोधण्यासाठी Q1 वरुन तो वजा करतोः
  - 71,5 + 2,25=73,75
  - 70 - 2,25=67,75
  - तर अंतर्गत सीमा आहेत 67.75 आणि 73.75.
- आमच्या डेटा सेटमध्ये, केवळ ओव्हन तापमान - 300 डिग्री फॅरेनहाइट - या श्रेणीबाहेर आहे. तर हे सौम्य आउटलेटर असू शकते. तथापि, हे तापमान अत्यंत आउटलेटर्स आहे की नाही हे अद्याप निश्चित केले नाही, म्हणून आपण अद्याप निष्कर्षांवर जाऊ नये.
डेटासेटच्या "बाह्य मर्यादा" शोधा. तुम्ही अंतरंग स्थान अंतर 1.5 च्या ऐवजी 3 ने गुणाकार करता त्याच अंतरानुसार तुम्ही हे अंतर्गत मर्यादेप्रमाणेच करता. त्यानंतर आपण Q3 वर निकाल जोडा आणि बाह्य मर्यादा मूल्ये शोधण्यासाठी Q1 वजा करा.
- आमच्या उदाहरणात, आम्ही आंतरमार्गावरील अंतर मिळविण्यासाठी 3 (1.5 * 3) किंवा 4.5 गुणाकार करतो. आता आपल्याला बाह्य मर्यादा आतील मर्यादेप्रमाणेच सापडतील:
  - 71,5 + 4,5=76
  - 70 - 4,5=65,5
  - बाह्य मर्यादा आहेत 65.5 आणि 76.
- बाह्य सीमांच्या बाहेर असलेले डेटा पॉईंट्स अत्यंत आऊटलाईअर मानले जातात. आमच्या उदाहरणात, ओव्हन तापमान, 300 डिग्री फॅरेनहाइट, बाहेरील मर्यादेपेक्षा चांगले आहे. तर ओव्हन तापमान आहे नक्कीच एक अत्यंत आउटलेटर.
आपण आउटलेटर्सना "फेकून" द्यायचे की नाही हे ठरवण्यासाठी गुणात्मक मूल्यांकन वापरा. वरील पद्धतीद्वारे आपण निश्चित करू शकता की काही पॉइंट्स सौम्य आउटलेटियर आहेत, अत्यंत आउटलेटियर आहेत किंवा अजिबात आउटलेटियर नाहीत. परंतु कोणतीही चूक करू नका - पॉईंटला आउटरियर म्हणून ओळखले गेले तर ते फक्त एक होते उमेदवार डेटासेटमधून काढले जाणे आणि काढलेला बिंदू त्वरित नाही हे केलेच पाहिजे बदल. द कारण आउटलेटरला काढले जावे की नाही हे ठरवण्यासाठी सेटमधील उर्वरित पॉईंट्सपेक्षा आउटलेटर का महत्त्वाचा आहे? सर्वसाधारणपणे, काही त्रुटीमुळे उद्भवणारे आउटलेटर्स - मोजमापांमधील त्रुटी, रेकॉर्डिंगमध्ये किंवा प्रायोगिक डिझाइनमध्ये - उदाहरणार्थ काढले जातात. याउलट, चूकांमुळे उद्भवणारे नसलेले आणि नवीन, अप्रत्याशित माहिती किंवा ट्रेंड उघड करणारे आउटलेटियर सहसा बनतात नाही हटविले.
- विचार करण्याचा आणखी एक निकष हा आहे की आउटलेटर्स डेटाच्या सेटच्या क्षुद्रतेवर परिणाम करतात की नाही हे स्क्यू किंवा दिशाभूल करणारे आहे. आपण आपल्या डेटा सेटच्या मध्यंतरातून निष्कर्ष काढण्याची योजना आखत असाल तर हे विशेषतः महत्वाचे आहे.
- चला आमच्या उदाहरणाचा न्याय करू या. पासून सर्वाधिक निसर्गाच्या काही अकल्पित शक्तीमुळे भट्टी 300 ° फॅ पर्यंत पोहोचली असण्याची शक्यता नाही, उदाहरणार्थ आपल्या जवळजवळ 100% निश्चिततेने आपण असा निष्कर्ष काढू शकतो की भट्टी चुकून चालू झाली आहे, ज्यामुळे तापमानात असामान्य वाचन होते. याव्यतिरिक्त, आम्ही आउटलेटर न काढल्यास, आमच्या डेटा सेटचा अर्थ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° एफ, क्षुद्र असताना विना आउटलेटर (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° फॅ वर येतो
  - आउटलेटर मानवी चुकांमुळे झाला होता आणि खोलीचे सरासरी तापमान 32 डिग्री सेल्सिअस इतके होते असे म्हणणे चुकीचे आहे म्हणून आपण आपले आउटरीअर वापरणे निवडले पाहिजे. काढा.
(कधीकधी) आउटलेटर्स टिकवून ठेवण्याचे महत्त्व समजून घ्या. काही बाह्यकर्त्यांना डेटासेटमधून काढून टाकले पाहिजे कारण ते चुकांचे परिणाम आहेत किंवा ते दिशाभूल करणार्‍या परिणामांना आकर्षित करतात, तर इतर आउटलेटर जपले पाहिजेत. उदाहरणार्थ, जर एखादा आउटलेटर योग्यरित्या प्राप्त झाला असेल (आणि म्हणूनच तो एखाद्या त्रुटीचा परिणाम झाला नाही) आणि / किंवा जर आउटरियरने मोजण्यासाठीच्या घटनेबद्दल नवीन अंतर्ज्ञान दिले तर ते त्वरित काढले जाऊ नये. जेव्हा परदेशी लोकांशी वागण्याचा विचार केला जातो तेव्हा वैज्ञानिक प्रयोग विशेषतः संवेदनशील परिस्थिती असतात - चुकून एखाद्या आउटलेटरला काढून टाकणे म्हणजे नवीन ट्रेंड किंवा शोधाबद्दल महत्वाची माहिती टाकून देणे.
- उदाहरणार्थ, कल्पना करा आम्ही माशांच्या शेतात मासे मोठे होण्यासाठी एक नवीन औषध बनवत आहोत. चला आपला जुना डेटा सेट ({११, ,०,, 73, ,०,,,, ,०, ,२, ,१, ,१, ,१,}}) वापरुया ज्या प्रत्येक घटकामुळे आता प्रत्येक मासा (ग्रॅम मध्ये) दर्शविला जातो ) जन्मापासूनच दुसर्‍या प्रायोगिक औषधाच्या उपचारानंतर. दुस words्या शब्दांत, पहिल्या औषधाने एका माशाला 71 ग्रॅम आणि दुसर्‍या माशाला 70 ग्रॅमचा मास दिला. या परिस्थितीत, 300 अजूनही एक प्रचंड आउटलेटर, परंतु आम्ही तो आता काढू नये. कारण, जर आम्ही असे गृहित धरले की आउटरियर हा एखाद्या त्रुटीचा परिणाम नाही तर तो आमच्या प्रयोगात एक मोठे यश दर्शवितो. ज्या औषधाने 300 ग्रॅम मासे तयार केले त्या औषधाने इतर कोणत्याही औषधापेक्षा चांगले काम केले, म्हणूनच असे आहे सर्वाधिक त्याऐवजी आमच्या सेटमधील महत्त्वाचा डेटा पॉईंट किमान महत्त्वाचा डेटा पॉईंट

टिपा

आपणास परदेशी व्यक्ती आढळल्यास, त्यांना डेटासेटमधून काढण्यापूर्वी त्यांचे स्पष्टीकरण देण्याचा प्रयत्न करा; ते मापन त्रुटी किंवा वितरणामधील विचलन दर्शवू शकतात.