ऐसी शब्द मोजणी

नमस्कार लोकहो,
मी सुरवातिपासुनच ऐसीचा वाचक आहे. कामनिमित्त बरेच वेळेस वेगवेगळया गोष्टिंच analysis आपण करत असतो. ईथे मी ऐसीच्या बाबतित प्राथमिक स्वरुपाच काही analysis केलेल आहे. तर ते एक-एक पाहुयात.

१) साप्ताहिक वाहतुक : ऐसीचा आतापार्यंतचा सर्व विदा एकत्रितपणे जर विचारात घेतला तर, दर दिवशी किती लेख लिहिले जातात, आठवडयात त्यात कसा बदल होतो. लोक सुट्टीच्या दिवशी जास्त लिहितात की कामाच्या याचा साधारण अंदाज आपण घेउ शकतो.

activity

२) लेखांची साधारण लांबी : एकोळी धागे तर आपल्याला नेहमिचे आहेतच , तसेच लांबच्या लांब धागेही ऐसीवर पचवले जातात. हा खालचा आलेख त्याबाद्दलच बोलतोय.
Article length distribution

३) लेखणप्रकार : प्रत्येक जत्रेत हौशे, गौशे आणि नवशे सगळे असतात. मराठी संस्थळांच्या बाबतित म्हनायच झाल तर , संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.
topicwise_count

४) वारंवार वापरले जाणारे शब्द : प्रत्येक भाषेत काही शब्द वारंवार वापरले जातात. तर ऐसीवरचे हे २५ वारंवार वापरले शब्द.
25_most_frequent_words

५) लेखक : कुठल्या लेखकाच किती योगदान आहे हे जर मोजायच ठरलं तर कुणी किती लेख लिहिलेत, कुणी एकुण किती शब्द लिहिलेत किंवा कुणाला आत्तापरर्यंत किती प्रतिसाद मिळालेत हे मोजता येईल. हे खालील आलेख पहिल्या २५ लेखकांबद्दल.

top25_authors_article_count_wise

top25_authors_total_word_count_wise

top25_authors_total_comments_received_count_wise

या analysis मधे लेखांमधिल शब्द ग्राह्य धरण्यात आलेले आहेत. व analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे.

-रवि

धाग्याचा प्रकार निवडा: : 
माहितीमधल्या टर्म्स: 
field_vote: 
0
No votes yet

प्रतिक्रिया

आलेख दिसत नाहीयेत.
____
दिसले.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

मला दिसले नाहीत आलेख.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

राइट क्लिक ओपन इमेज.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

आलेख आद्ययावत केलेले आहेत.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

-रवी

लय भारी, रविभाऊ.

काही प्रश्न/सुचवण्या/निरीक्षणे

१. साप्ताहिक वाहतुक

- लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.

- दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.

२. लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.

३. लेखणप्रकार
पायचार्ट?

४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अ‍ॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील Wink )

५. लेखक
एकातही माझा लंबर नाय? ह्या:! Sad

_______________________

analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे

हे कसं करायचं ते मला शिकवाल का? किंबहुना तपशीलवार लेख लिहिलात तर फारच बरं होईल.

बादवे, हा सगळा विदा मॅन्युअली मिळवलात की तेही पायताणच करून देतं?

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

(तसंच "बोव्हार" हा शब्ददेखील (डोळा मारत) )

हाण्ण!!! हसून हसून मेलेच.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

बोव्हारसोबतच 'सेकंड सेक्स' हा शब्दही टॉप २५ मध्ये यावा. Wink

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

माहिष्मती साम्राज्यं अस्माकं अजेयं

४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अ‍ॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील (डोळा मारत) )

+१ Smile
.
.

५. लेखक
एकातही माझा लंबर नाय? ह्या:!

धागा क्वांटिटिव्ह बाबींबद्दल आहे, क्वालिटिटिव्ह निकषांवर नाही. नैतर ब्रूस ली ला ऑल टैम ग्रेट्ट म्हणतात. पण त्यानं मोजून आख्ख्या करिअर अम्ध्ये साडे चारच मोठे चित्रपट केले म्हणतात. गुरु दत्त ह्यांच्या पिच्चरची संख्याही फार नसावी. सुभाष गुप्ते फक्त पंचेचाळिस तेस्ट खेळले. पण त्यांनी अडीचशे का पावणेतीनशे(!!) विकेट्स घेतल्यात.
मॅराडोनानं एकच फुटबॉल चा विश्व अषक गाजवला, पण तो तयत जे खेळून गेला त्यात एकदम सार्वकालिक महान वगैरे अनला. त्यातही त्यानं प्रत्यक्षात आख्ख्या विश्व चषकात १९८६ला फक्त पाच गोल केले.त्याअच्यानंतरच्या काळात टॉपचे रोनाल्डो , वगैरे लोकांनी एका विश्वचश्कात त्याहून अधिक गोल केलेले आहेत. (आठ आठ गोल करणारे चार पाच तरी लोक असतील) पण आजही १९८६ बद्दल लोक "मॅराडोनाचा वर्ल्ड कप" असच म्हणतात. आणि त्याच्या खेळाला सर्वोत्तम.
.
.
सच्याची ग्रेटेस्ट इनिंग्ज आणी ग्रेटेस्ट पर्फॉर्मन्स/ फॉर्म म्हटला तर डेझर्ट स्टॉर्म ...१९९८ ऑस्ट्रेलिया विरुद्धचा शारजातला हैदोस आठवतो.
पण तेव्हाही सच्याने १४१ आणि १३४ अशा धावा काढलेल्या दोन लागोपाठ सामन्यात.
१४१ तर लोक येता जाता पार करुन जातात.
पण ती खेळी आजही इपिक आहे, क्रिकेट फोकलोर बनलेली आहे.

.
.

बाकी, ही बातमी समजली का, अलिकडे काय पाहिलत, अलिकडे काय वाचलत , मनातले लहान मोठे प्रश्न वगैरे धागे मोजले जाउ नयेत असं मला वाटतं, एखाद्याची धाग्यांची संख्या मोजताना किम्वा त्याला मिलालेले प्रतिसाद मोजताना.
तस्मात् निव्वळ संख्या का निकष असला की हे लोच्य होणारच.
आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

थांब आता मी एक प्रतिसाद दिला नव्हता तो देतेच Wink तुला धडा शिकवतेच ROFL

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

बायदवे, शुचिचे आयडी किती आणि कोणते, आणि प्रत्येक आयडीची नावं कशीकशी बदलत गेलेली आहेत याची आठवण शुचिला तरी आहे का असा प्रश्न पडतो.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

Sad आता नाही ना बदलत.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे

रविभाऊ प्लिज तपशीलवार लिहाच.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

अंमळ हळवे होण्यात आले आहे.

बाकी,

संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.

या बरोबरच त्या त्या लेखनप्रकाराला (अ‍ॅव्हरेज) किती प्रतिसाद येतात हे ही पाहिलं तर जास्त योग्य मुल्यमापन होईल.

धाग्याची लांबी: प्रत्येक ओळ एक कॅटेगिरी करण्यापेक्षा ५० किंवा १०० ओळींची प्रतवारी केल्यास डेटा प्रेझेंटेबल होईल. (एकोळीस विशेष स्थान द्यायला हरकत नाही.)

विकली अ‍ॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल.

दोन नविन गोष्टी, जरा अवघड पण तरीही, पहायला मजा येईल.

१. अ लेखक- ब प्रतिसादक अशी क्लस्टर्स पहायला मजा येईल. (थोडक्यात अ ने धागा काढला तर ब, क, ड पैकी किती जणांचे त्याला प्रतिसाद येतात?
२. धागाप्रकारानुसार प्रतिसाद: टॉप प्रतिसाद देणार्‍यांपैकी कोणते प्रतिसादक कोणत्या धाग्याप्रकाराला जास्त प्रतिसाद देतात. / टॉप प्रतिसाद पर धागा प्रकार.
३. श्रेणीपद्धतीचा डेटाही काढता येईल. टॉप श्रेण्या मिळणारे, त्यांना कोणत्या श्रेण्या बहुतेक करून मिळतात अन अजून डिटेल मध्ये गेल्यास टॉप श्रेण्या मिळणार्‍यांना धागा प्रकारानुसर कोणत्या श्रेण्या मिळतात वगैरे.

शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

-Nile

हाफिसातून ग्राफ उघडत नव्हता. आता बघितला
योगदानाच्या यादीत पैला लंबर बघून अंमळ लाजल्या गेलेले आहे! Smile

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

- ऋ
-------
लव्ह अ‍ॅड लेट लव्ह!

@ आदूबाळ
लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
तुमच्या निरिक्षणाशी सहमत .

दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
लेखाच्या सुरवातिला जो timestamp आहे त्यानुसा. विदा गोळा करताना login न करता केला आहे,अशावेळी timestamp कुठल्या timezone प्रमाणे दिसातो ? की नेहमी एकाच timezone प्रमाणे दिसातो.

लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.

जसा विदा आहे तसाआलेख काढलेलाआहे, माझिही अपेक्षा अशिच होती की नॉर्मल डिस्ट्रीब्यूशन दिसेल. परंतु मोजणी करण्यासाठी जी script लिहिली होती त्यात शुन्य व एक, दोन / तीन , शब्दसंख्या असलेल्या लेखांची संख्याही बरिच आढळुन आली. परंतु लक्षपुर्वक पहाता काही ठिकाणी script काहि वेळेस बरोबर काम करत नाही व शुन्य मोजते अस आढळुन आलं. याच कारण माझ्या लक्षात आल नाही व सध्या अशा false counts ना डिस्ट्रीब्यूशन मधुन वगळणयात आलय. दोन / तीन शब्दसंख्या असलेल्या लेखांच निरिक्षण करता अस आढळुन आलं की खरच त्या लेखांमधे काहिच शब्द नाहियेत व सुरवातिस जे किवर्डस आहेत ते मोजाले जातायेत. हे लेख म्हनजे कदाचित ज्यांनी लेख काढुन टाकलेत किंवा account delete केलेत असे असावे. संपादक मंडळी याबद्दल सांगु शकतिल.

@Nile हो असे वेगवेगळे bins केले तर जरा बर दिसेल.

३. लेखणप्रकार
पायचार्ट?

हे माझ्या डोस्क्यातच आल नाही, हे करतो.

वारंवार वापरले जाणारे शब्द
याबद्दलही सहमत. व्यनिमधे चिंतातुर जंतू याच्याबरोबर झालेल्या चर्चेतही साधारण हिच सुचना मिळाली. फक्त कूठले शब्द वगळावे हे पक्के झाले की काम सोपे होइल. ती लिंक द्या. व ईतरही सुचना यासंदर्भात आल्या तर चालतिल.

लेखक
याबाद्दल केलेल analysis एकदम बाळबोध आहे. सहजासहजी जे आकडे मोजता येतिल ते मोजलेले आहेत.
मन१ यांनी व्यवस्थित विवचण केल आहे. व काय काय वगळाव हेही मान्य आहे.

सध्या फक्त लेखाची लांबी मोजली आहे. त्यात प्रतिसाद मोजले नाहियेत. तसेच 'वारंवार वापरले जाणारे शब्द ' मेधेही फक्त लेखातिल शब्द मोजले आहेत. प्रतिसादातिल शब्द मोजल्यास अस्सल मराठी आजा वरिल शब्द त्यात दिसुन यावेत.

बाकी Nile नी सुचवलेले analysis जरा अतिप्रगत categoryतले म्हणता येइल. त्यतल्या त्यात हे -"विकली अ‍ॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल." करुन बघतो.

शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
अर्थात.

मला वेब स्रेपिंग वर जरा हात साफ करायचा होता, त्यासाठी ही सगळी उठाठेव व पहिलाच प्रयत्न.
यात जेवढ काम करता येइल तेवढ करुन हव तर दुसरा / सुधारित भाग आठवडा पंधरा दिवसात टाकतो. व कोडबद्दलही (Python and libraries used) गोषवारा द्यायचा प्रयत्न करेल.

-रवि

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

-रवी

मस्तच हो. अण्णालिसिस एकदम आवडलं.
पहिला क्युम्युलेटिव ग्रा‌फ वरखाली कसा काय होतोय?

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

आकडेबाजी आवडली. आदूबाळच्या सूचना/प्रश्नांना मम.

 • ‌मार्मिक0
 • माहितीपूर्ण0
 • विनोदी0
 • रोचक0
 • खवचट0
 • अवांतर0
 • निरर्थक0
 • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.