सांख्यिकी : प्राथमिक अभ्यास

सांख्यिकी किंवा स्टॅटिस्टिक्स हा विषय विज्ञानाचा एक भाग आणि विज्ञान, समाजशास्त्रं अशा विषयांचा अभ्यास करण्याचं एक तंत्र आहे. शाळेत आपण सरासरी, टक्केवारी अशा संकल्पना शिकतो. म्हटलं तर कोणत्याही दोन आकड्यांची सरासरी काढता येते. तरीही आजचं तापमान २४ अंश सेल्सियस आणि आजच्या दिवसात मी सव्वा लिटर पाणी प्यायलं, यातले दोन आकडे, २४ आणि १.२५ यांची सरासरी काढली जात नाही. मुद्दा असा की वेगवेगळ्या आकड्यांचा आपसांत संबंध कसा लावायचा यासाठी निरनिराळे नियम वापरले जातात. जे आकडे गोळा केले जातात त्याबद्दल काही प्राथमिक अंदाज, माहिती असणं आवश्यक आहे. ज्या आकड्यांचा विचार केला जातो, त्या आकड्यांचा नेमका अर्थ काय याचा विचार करून मग त्यावर काही सांख्यिकी प्रक्रिया केल्या जातात.

काही महिन्यांपूर्वी पॉर्न बघण्या/वाचण्यासंदर्भातल्या लोकांच्या सवयींचा कानोसा घेण्यासाठी एक सर्वेक्षण घेतलं होतं. त्यातून जे आकडे मिळाले त्यांचा अर्थ लावताना सांख्यिकीबद्दल काही माहिती देण्यासाठी लेख. आकाशातल्या तारे, दीर्घिकांकडून मिळालेले आकडे असोत किंवा माणसांनी दिलेल्या उत्तरांमधून मिळवलेले आकडे, मुळात हे आकडे ग्राह्य आहेत का याचा विचार करावा लागतो. आकाशातून आलेले आकडे विचित्र वाटले तर आपल्या दुर्बिणीच्या यंत्रणेत काही दोष असण्याची शक्यता विचारात घ्यावी लागते. माणसांकडून जमा केलेले आकडे विचित्र वाटले तर कदाचित प्रश्न गोंधळवणारे असतील. कारणं काहीही असू शकतात. ह्या लेखाचा उद्देश आणि आवाका, पॉर्न सर्वेक्षणातून मिळालेले आकडे विश्वासार्ह आहेत हे पटवून देणं आणि त्या निमित्ताने सांख्यिकीबद्दल काही प्राथमिक माहिती देणं हा आहे. सर्वेक्षणातून मिळालेल्या आकड्यांचा अर्थ काय, हे पुढच्या लेखात येईलच.

सर्वेक्षणात एकूण ५४५ लोकांनी भाग घेतला. (भरघोस प्रतिसादाबद्दल मनापासून आभार.) या सर्वेक्षणातले काही प्रश्न लोकांच्या पार्श्वभूमीबद्दल होते; उदाहरणार्थ वयोगट कोणता किंवा एका वर्षापेक्षा जास्त काळ महानगरांमध्ये वास्तव्य केलं आहे का, इ. काही प्रश्न विचार आणि सवयींबद्दल होते, उदा: पॉर्न बघता का, बघत असाल तर किती नियमितपणे बघता, इ. यांतल्या काही प्रश्नांमागचा हेतू उत्तरांमध्ये त्रुटी असल्यास दिसावी असा होता. उदाहरणार्थ, या आधी पॉर्न कधी बघितलं आणि किती नियमितपणे पॉर्न बघता हे दोन प्रश्न. यांतल्या पहिल्या प्रश्नाचा माणसांबद्दल, त्यांच्या विचारांबद्दल अधिक माहिती मिळवण्यासाठी काहीही उपयोग नाही. पण उदाहरणार्थ, 'आठवड्यातून एक किंवा अधिक वेळा पॉर्न बघितलं जातं' असं उत्तर देणाऱ्यांनी 'पॉर्न बघून सहा महिने झाले' असंही उत्तर दिलेलं असल्यास या प्रतिसादावर विश्वास ठेवता येत नाही. संपूर्ण सर्वेक्षणात असे १० प्रतिसाद मिळाले; त्या प्रतिसादांचा विश्लेषणात वापर केला नाही.

सर्वेक्षणातून निष्कर्ष काढण्यासाठी ५३५ प्रतिसादांचा वापर केला. यांत कोणी हेतूपुरस्सर आणि मोजूनमापून चुकीची माहिती दिलेली असेल तर कळायला फारसा मार्ग नाही. म्हणून सांख्यिकी विचार करताना जेवढ्या मोठ्या प्रमाणात विदा जमा करता येईल तेवढी उत्तरं अधिक विश्वासार्ह असतात. विदेची विश्वासार्हता किती हे पाहण्यासाठी स्त्री:पुरुष लिंगगुणोत्तर किती आहे हे तपासलं. संपूर्ण ‌विदेत -

स्त्रिया - ९५, पुरुष - ४४०, गुणोत्तर - ४.६३ (स्त्रियांची टक्केवारी १७.८%)

याचा अर्थ पॉर्नसंबंधित सर्वेक्षणात रस असणाऱ्या आणि इंटरनेटवर बागडायला वेळ असणाऱ्या ३ स्त्रियांमागे १४ पुरुष आहेत. (हा आकडा मी तयार केलेला नाही. तुम्हीही गणित करून बघा - (४४०/९५)*३ = १३.९)

पॉर्न सर्वेक्षणाच्या निमित्ताने 'ऐसी अक्षरे'चा फेसबुकवरून येणारा वाचकवर्ग कसा आहे हे बघितलं; त्यातही स्त्रियांचं प्रमाण साधारण २०% आहे. या सर्वेक्षणाची जाहिरात मिसळपाव, ऐसी अक्षरे आणि मैत्रीण (फक्त स्त्रियांचं संस्थळ) आणि माझी फेसबुकची भिंत, काही लोकांनी व्हॉट्सअॅपवरून अशा निरनिराळ्या ठिकाणी केली होती; त्यामुळे सर्वेक्षणातली माहिती फक्त 'ऐसी अक्षरे'पुरतीच मर्यादित नाही. या गुणोत्तराचा अर्थ असा की आंतरजालावर ३ स्त्रिया बागडताना दिसतात तेव्हा ११ स्त्रिया आंजावर येत नाहीत. किंवा ८० पुरुष आंजावर येतात तेव्हा फक्त २० स्त्रियाच इंटरनेटवर दिसतात. कारण समाजात साधारण ५०% स्त्रिया आहेत. (भिन्नलिंगी संबंध ठेवणाऱ्या) पुरुषांनो, जाला‌वर जास्त प्रमाणात स्त्रिया हव्या असतील तर तुम्हाला स्त्रीवादाकडे जरा गांभीर्याने बघावं लागणार. नाहीतर बसा जालवाळवंटात स्त्रियांचं ओअॅसिस शोधत, बोंबलत!

सांख्यिकी अभ्यास करताना मोठ्या प्रमाणावर माहिती जमा करावी लागते. त्यामुळे माहितीमध्ये असणारी काही भोकं बुजवता येतात; अग्राह्य विदा बाजूला काढता आली नाही तरीही ग्राह्य विदा मोठ्या प्रमाणात असल्यावर त्रुटींचं प्रमाण खूप कमी होतं. समजा एक छपाई केलेल्या कापडाचा तागा आहे. या कापडातून एक झगा शिवण्यासाठी कापडाचे तुकडे केले. कापडाचा तुकडा पुरेसा मोठा असेल तर त्या तुकड्यात छपाईचा संपूर्ण पॅटर्न दिसेल. कुठेतरी बारकीशी चूक झालेली असेल तर संपूर्ण मोठ्या झग्यात ती चूक दिसणारही नाही. हेच तत्त्व सांख्यिकीमध्येही वापरलं जातं. मोजके प्रतिसाद, प्रश्नाचा अर्थ चुकीचा लावल्यामुळे किंवा निव्वळ खोडसाळपणामुळे चुकीचे किंवा दिशाभूल करणारे असले तरीही मोठ्या प्रमाणात माहिती गोळा केल्यामुळे मोजक्या अग्राह्य प्रतिसादांची टक्केवारी नगण्य असेल. आकड्यांचा अर्थ लावताना अशा मोजक्या प्रतिसादांमुळे मोठा फरक पडणार नाही. सर्वेक्षणाच्या प्रतिसादांमध्ये भरलेली माहिती ग्राह्य आहे का नाही यासाठी संपूर्ण विदेचे निरनिराळ्या प्रकारांनी तुकडे केले आणि त्या तुकड्यांमध्ये स्त्री:पुरुष गुणोत्तर एकसारखं दिसत आहे का हे तपासलं. हे तुकडे करताना वयोगटानुसार केले, आणि ज्या क्रमाने लोकांनी प्रतिसाद दिले त्यानुसारही तुकडे केले; १३४ प्रतिसादांचे तुकडे करून त्यातही लिंग गुणोत्तर तपासलं. यातून काय दिसतं -

वयोगटानुसार विभागणी :

वयोगट संख्या स्त्रिया पुरुष लिंगगुणोत्तर टक्केवारी
१८-२४ ३२ २७ १६:८४
२५-३४ २६९ ५३ २१६ २०:८०
३५-५४ २१५ ३५ १८० १६:८४
५४+ १९ १७ १०:९०

सर्वेक्षणात लोकांचे वयानुसार चार गट करण्यात आले होते. (त्यात ३५-५४ हा वयोगट फार मोठा ठेवण्याबद्दल काही तक्रारी आलेल्या आहेत; त्यांची दखल घेण्यासाठी ही नोंद.) प्रत्येक वयोगटात किती स्त्रिया आणि पुरुष आहेत ते अनुक्रमे दुसऱ्या आणि तिसऱ्या स्तंभामध्ये लिहिलेलं आहे. चौथ्या स्तंभामध्ये स्त्रिया आणि पुरुषांची टक्केवारी आहे. (उदाहरणार्थ, १८ ते २४ या वयोगटात १६:८४ म्हणजे १६% स्त्रिया आणि ८४% पुरुष आहेत.) संपूर्ण विदेत स्त्री-पुरुष गुणोत्तर टक्केवारी साधारण १८:८२ एवढी आहे; त्याच्या खूपच जवळ जाणारा आकडे तक्त्यामध्ये तीन वयोगटांसाठी दिसतात. शेवटच्या गटात हे गुणोत्तर १०% एवढ्या मोठ्या फरकाने बदलतं. या वयोगटातल्या लोकांची संख्या फार कमी आहे. मागचं कापड-झग्याचं रूपक वापरायचं असेल तर पहा; कापडावर वीतभर व्यासाच्या फुलाचा प्रिंट असेल तर अर्ध्या बाहीवर संपूर्ण फूल दिसणार नाही, त्यासाठी कापडाचा मोठ्या आकाराचा तुकडा बघावा लागेल.

या सर्वेक्षणात वयस्कर लोकांची, विशेषतः ५४ पेक्षा अधिक वय असणाऱ्या स्त्रियांची कमी संख्या फार अनपेक्षितही नाही. वयस्कर लोकांचा कल इंटरनेट, नवीन तंत्रज्ञान आत्मसात करण्याकडे, त्यात खूप वेळ घालवण्याकडे फार नसतो; त्यातून स्त्रियांचं जालावर वावरण्याचं प्रमाण बरंच कमी आहे. त्यामुळे कमी संख्येमुळे दिसणारी त्रुटी म्हणून या विचित्र गुणोत्तराकडे दुर्लक्ष करता येईल.

लोकांनी स्वतः दिलेल्या माहितीवर कितपत विश्वास ठेवता येईल, असा एक प्रश्न (फेसबुकवर) विचारण्यात आला होता. ज्या वयोगटांमधल्या लोकांनी मोठ्या प्रमाणात सर्वेक्षणात भाग घेतला त्यांच्यातलं लिंग गुणोत्तर सरासरीच्या जवळ जाणारं आहे, ही गोष्ट लोकांनी अगदीच धडधडीत खोटं न बोलल्याची एक पावती आहे. दुसरी गोष्ट, हे सर्वेक्षण गुप्तता राखून केलं होतं; कोणत्या मनुष्याने काय उत्तरं दिली हे मला (लोकांनी आपण होऊन सांगितल्याशिवाय) समजणार नाही आणि ही उत्तरं कोणा व्यक्तिला द्यायची नव्हती. 'तुम्ही पॉर्न बघता का' हा आणि असे नैतिकतेला स्पर्श करणारे प्रश्न जेव्हा कोणी व्यक्ती विचारते तेव्हा उत्तरं देताना समोरच्या व्यक्तीला काय आवडेल तसं बोलावं याचा फार विचार न करता दिलेली असण्याची शक्यता बरीच वाटते.
सर्वेक्षणात प्रश्न होता की तुमचं महानगरांमध्ये एक वर्ष किंवा अधिक काळ वास्तव्य झालेलं आहे का? ग्रामीण लोकांपर्यंत तंत्रज्ञान कितपत पोहोचलं आहे, ज्यांच्यापर्यंत तंत्रज्ञान पोहोचलं आहे त्यांच्यात शहरी लोकांच्या वावर-वापर आणि विचारांपेक्षा निराळं काही दिसतंय का, हे तपासणं हा या प्रश्नाचा हेतू होता. एकूण ५३५ लोकांपैकी महानगरांमध्ये दीर्घकालीन वास्तव्य केलेले लोक - ४५६; महानगरांमध्ये एक वर्ष किंवा अधिक वास्तव्य न केलेले लोक - ७८. सोयीसाठी यांना मी शहरी आणि ग्रामीण असं म्हणते; इथे या शब्दांचा थोडा ढिसाळपणे वापर केलेला आहे. शहरी आणि ग्रामीण या तुकड्यांमध्ये दिसणारं लिंगगुणोत्तर पुढच्या तक्त्यात दिलेलं आहे.

स्त्रिया पुरुष टक्केवारी
८० ३७६ १८:८२
१५ ६३ १९:८१

इथे शहरी आणि ग्रामीण हे दोन्ही तुकडे व्यवस्थित मोठे आहेत. दोन्ही तुकड्यांमधलं लिंगगुणोत्तर सरासरीच्या अगदी जवळचं आहे. ह्याचा अर्थ लोकांनी प्रतिसादांमध्ये थापा मारलेल्या असण्याची शक्यता अगदीच कमी आहे.

सर्वेक्षणातून गोळा केलेली माहिती विश्वासार्ह आहे का नाही, हे तपासण्याच्या काही सांख्यिकी पद्धती असतात. वरचं, कापडाचंच उदाहरण घ्यायचं झालं तर एकाच ताग्यातले वेगवेगळ्या आकाराचे मोठे तुकडे कापले, तरीही कापडावरच्या छपाईचा पॅटर्न बदललेला दिसणार नाही. उदा - एक चौरस मीटरमध्ये किती फुलं आहेत ही संख्या कापड कुठे, कसं कापलं आहे यानुसार बदलणार नाही.

एकूणच लोकांनी खरी उत्तरं दिली का हे तपासण्यासाठी व्यक्तिगत मतांशिवाय जी माहिती गोळा केली त्याचाच विचार केला आहे. उदाहरणार्थ लोकांना पॉर्न बघायला आवडतं का आवडत नाही, ही माहिती व्यक्तिगत मतांपैकी एक आहे. त्याउलट महानगरांमध्ये वास्तव्य होतं काय, वयोगट कोणता ही माहिती व्यक्तिगत विचार आणि/किंवा मतांवर अवलंबून नाही.

विश्लेषणात वापरलेल्या ५३५ प्रतिसादांचे चार तुकडे केले. हे तुकडे करताना पहिले १३४ प्रतिसाद, मग पुढचे १३४ प्रतिसाद अशी विभागणी केली. या तुकड्यांमध्ये लिंगगुणोत्तर कसं दिसतं -

क्रम स्त्रिया पुरुष गुणोत्तर टक्केवारी
पहिले १/४ २२ १११ १७:८३
दुसरे १/४ १९ ११५ १४:८६
तिसरे १/४ २५ १०९ १९:८१
चौथे १/४ २९ १०५ २१:७९

या सगळ्या तुकड्यांमध्येही लिंगगुणोत्तर सरासरीपेक्षा फार निराळं दिसत नाही. वेगवेगळ्या प्रकारे कापडाचे तुकडे करूनही मूळ पॅटर्न बिनसल्यासारखं दिसत नाही याचा अर्थ छपाईत संख्यात्मक त्रुटी नाही. लोकांच्या पॉर्न बघण्याच्या सवयी आणि न बघण्याची कारणं याबद्दल विश्वासार्ह माहिती गोळा झालेली असावी. ही माहिती किती विश्वासार्ह आहे हे ठरवण्यासाठी अशासारख्या इतर सर्वेक्षणांमधून काय दिसतं याच्याशी तुलना करून बघावी लागेल; दिसणारे प्रवाह (ट्रेंड) आपल्याला असलेल्या माहितीशी मिळतेजुळते आहेत का याचा विचार करावा लागेल. त्यातून नक्की काय समजतं हे दुसऱ्या लेखात बघू.

धाग्याचा प्रकार निवडा: : 
माहितीमधल्या टर्म्स: 
field_vote: 
0
No votes yet

प्रतिक्रिया

अत्यंत रोचक सुरुवात.
एक प्रश्न - वयावरुन जे गट पाडले ते सुटसुटीत वीशी-तीशी-चाळीशी-पन्नाशी असे न करता वरीलप्रमाणेच का पाडले? म्हणजे यामागे काही शास्त्रिय्/जैविक कारण आहे का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0