ఆంగ్లంలో "E" అనే అక్షరాన్ని అతి తరచుగా వాడతారని మనందరికీ తెలిసిందే, మరి తెలుగులో కూడా అటువంటి అక్షరం ఒకటి ఉండాలి కదా... ఈ ప్రశ్నకు జవాబును కనుక్కోవటానికి తెలుగు వికీపీడియాలో ఉన్న సుమారు 58 వేల పేజీల సమాచారాన్ని సేకరించి పరిశీలించాను. అయితే చివరికి వచ్చే ఫలితాల నాణ్యత కాపాడటానికి 2KB కంటే తక్కువ సమాచారం ఉన్న పేజీలను పరిశీలన నుండి తప్పించాను, ఇలా తప్పించటం వలన దాదాపు అన్ని గ్రామాల పేజీలు, చాలా మట్టుకు సినిమా పేజీలు విశ్లేషణ నుండి బయట పడ్డాయి. అంటే విశ్లేషణకు ఇక మిగిలిన పేజీలలో ఉన్న సమాచారం మొత్తాన్ని ప్రోగ్రాములతో కాకుండా దాదాపూ పూర్తిగా మనుషులతోనే సృష్టించారు.
ఈ గణాంకాలు తీసుకుంటున్నప్పుడు వత్తులను కూడా మామూలు అక్షరాలతో సమానంగా లెక్కగట్టాను. ఈ గణాంకాలను తెలుగు వికీపీడియాలోని 3419 పేజీలలో ఉన్న సుమారు 66 లక్షల అక్షరాల(వత్తులు గుణింతాలు కలుపుకుని) నుండి సేకరించాను.
అచ్చులలో "ఇ లేదా ి" ఎక్కువగా ఉపయోగిస్తుంటే, హల్లులలో "ర"ను అత్యధికంగా ఉపయోగిస్తున్నారు. ఈ రెండిటికంటే కూడా ఎక్కువగా అచ్చు-హల్లు కాని ్(పొల్లును) ఉపయోగిస్తున్నారు!!!
వికీపీడియాలో నాకు వచ్చిన పూర్తి ఫలితాలను ఇక్కడ చూడండి.
ఇలాంటి విశ్లేషణ ఇంతకు ముందే ఒకసారి అన్నమైయ్య పాటలపై ఒకసారి, రచ్చబండ గుంపులోని చర్చలో ఇంకోసారి జరిగాయి. ఈ రెండు చోట్లా మట్టుకు "న" అనే అక్షరం అత్యధికంగా వాడుతున్నట్లుగా గణాంకాలు వచ్చాయి.
Friday, September 21, 2007
Subscribe to:
Post Comments (Atom)
ఎక్సలెంట్ అండి.ఇంతకీ ఎలా ఎనలైజ్ చేసారు. అంటే వికీ పేజీలన్నింటినీ డౌన్లోడు చేసారా? ఎలా కౌంట్ చేసారు... --
ReplyDeleteమీ టపా నాకు బాగా నచ్చింది. అందుకే మీ టపాకి ఒక వేసాను.
'ఒక ముద్ర వేసాను' అని నా అర్దం.
ReplyDeleteఅంతే అన్ని పేజీలనూ డౌన్లోడు చేసాను (అలా చేయటానికి ఒక బాటును రాసుకున్నాను). ప్రోగ్రాము రాయటం వరకూ చాలా సులువే, ఒక్కో పేజీ డౌన్లోడు చేయటం అందులో ఏ ఏ అక్షరాలు ఎన్నెన్ని సార్లు వచ్చిందో లెక్కగట్టం, చివరికి మొత్తమంతా కూడటం. కాకపోతే తెలుగు వికీపీడియాలో పేజీలు ఎక్కువయిపోయేసరికి ఈ గణాంకాలను తీసుకోవటానికి ప్రోగ్రామును చాలా సేపు నడపాల్సి వచ్చింది.
ReplyDeleteముద్ర వేశారని మొదటిసారే అర్ధమయ్యింది లెండి :)
mee kastam ,pattudala baga nachaye
ReplyDeleteమీ సహనానికి జోహారు
ReplyDeleteమోత్తం మీద సాధించారు
పొల్లు ముందు రావడంలో యూనీకోడ్ వాడి కుట్ర ఏదో ఉన్నట్టున్నదని అనిపిస్తుంది.
ReplyDeleteఅన్నట్టూ ఇంతకు ముందు న వచ్చినా ర కూడా దాని వెంటనే ఉన్నది,
ReplyDeleteఅలాగే మీకు కూడా న వెంటనే ఉన్నది చూసినారూ, కాంపిటీషను తీవ్రంగా ఉన్నది, మన బ్లాగులపై లెక్కేసి చూడాలి ర గెలుస్తుందో, న గెలుస్తుందోనని, అన్నట్టూ ఎవరో అన్నట్టు ర ఱ ని దొంగలించినది :)
సరే టేకోవర్ చేసినది. :):)
@కిరణ్, నేను కూడా అదే అనుకుంటున్నాను. ఒక అక్షరం దాని వత్తుకు మధ్యలో వచ్చే పొల్లు వలన వలన వాటి సంఖ్య బాగా పెరిగిపోయుంటుంది, పొల్లును కిందకు తొక్కటానికి ZWNJ సహాయం తీసుకుని ఇంకో సారి గణాంకాలు తీసుకోవాలేమో!!.
ReplyDeleteఆసక్తికరమైన విశ్లేషణ!! ప్రస్తుతానికి కిరణ్ అన్నట్టు తెలుగు బ్లాగులపై విశ్లేషణ చేస్తే మరింత స్పష్టమైన ఫలితాలనిస్తుందేమో..అయితే వాటిని విశ్లేషించేటప్పుడు తెలుగు, బ్లాగు వంటి తరచూ ఉపయోగించే పదాలను తొలగించి విశ్లేషించాలనుకుంటా
ReplyDeleteఆసక్తి కరంగా ఉంది. 'ర' వస్తుందని నేను ఊహించలేదు. నా కంటే 'రా' నే ఎక్కువయిపోయిందన్నమాట.
ReplyDeleteన,ర,్,ల : నెనర్లు:)
ReplyDeleteఱ తో ఉండే మాటలు పెద్దగా ఉండవు గదా. ఒకవేళ దాని పదాలు దానికిచ్చేసినా, స్థానంలో పెద్దగా మార్పుండదేమో!:)
ReplyDelete'ర' తరఫున ఎవరైనా రిగ్గింగు చేసి ఉంటారంటారా?
ReplyDeleteమొన్న కేవలం వికీపీడియాలో వ్యాసాల నేంస్పేసులో మాత్రమే గణాంకాలు తీసుకున్నాను. పొల్లు చేసిన రిగ్గింగు నుంచి వేరే అక్షరాలను కాపాడటానికి ప్రోగ్రాము మార్చి, అన్ని నేంస్పేసులపై ఇంకో సారి నడిపితే ఈ సారి వచ్చిన గణాంకాలలో "ర" ఇంకా ఇంకా ముందుకు దూసుకుని పోయింది !!!
ReplyDeleteThere seems to be a fundamental flaw in the methodology employed. The lack of a special character for అ కారం, has rendered it impossible to count its frequency of occurrence.
ReplyDeleteEvery time a consonant appears without any of the Unicode characters between ా and ౌ (inclusive) and the sign ్, an అ కారం should be rightly assumed to be present.
one way to overcome this, is to subtract the count of ా to ౌ and ్ from the total count of consonants (క -హ) to get the number of అకారాలు used.
ReplyDelete@రాకేశ్వర,
ReplyDeleteబాగా పట్టారు. గుణింతాలను అక్షరాలను ఒకేగాటన కట్టేసి ఫలితాలను తీసుకోవటం వలన వచ్చిన సమస్య అది. గుణింతాలకు వేరుగా అక్షరాలకు వేరుగా తీసుకుంటే ఈ సమస్యను పూర్తిగా పరిశ్కరించవచ్చు. ఈ సారి ఎప్పుడయినా గణాంకాలు తీసుకున్నప్పుడు దీనిని గుర్తుపెట్టుకుంటాను.