Friday, September 21, 2007

తెలుగులో అతి తరచుగా ఉపయోగించే అక్షరం ఏది?

ఆంగ్లంలో "E" అనే అక్షరాన్ని అతి తరచుగా వాడతారని మనందరికీ తెలిసిందే, మరి తెలుగులో కూడా అటువంటి అక్షరం ఒకటి ఉండాలి కదా... ఈ ప్రశ్నకు జవాబును కనుక్కోవటానికి తెలుగు వికీపీడియాలో ఉన్న సుమారు 58 వేల పేజీల సమాచారాన్ని సేకరించి పరిశీలించాను. అయితే చివరికి వచ్చే ఫలితాల నాణ్యత కాపాడటానికి 2KB కంటే తక్కువ సమాచారం ఉన్న పేజీలను పరిశీలన నుండి తప్పించాను, ఇలా తప్పించటం వలన దాదాపు అన్ని గ్రామాల పేజీలు, చాలా మట్టుకు సినిమా పేజీలు విశ్లేషణ నుండి బయట పడ్డాయి. అంటే విశ్లేషణకు ఇక మిగిలిన పేజీలలో ఉన్న సమాచారం మొత్తాన్ని ప్రోగ్రాములతో కాకుండా దాదాపూ పూర్తిగా మనుషులతోనే సృష్టించారు.

ఈ గణాంకాలు తీసుకుంటున్నప్పుడు వత్తులను కూడా మామూలు అక్షరాలతో సమానంగా లెక్కగట్టాను. ఈ గణాంకాలను తెలుగు వికీపీడియాలోని 3419 పేజీలలో ఉన్న సుమారు 66 లక్షల అక్షరాల(వత్తులు గుణింతాలు కలుపుకుని) నుండి సేకరించాను.

అచ్చులలో " లేదా ి" ఎక్కువగా ఉపయోగిస్తుంటే, హల్లులలో ""ను అత్యధికంగా ఉపయోగిస్తున్నారు. ఈ రెండిటికంటే కూడా ఎక్కువగా అచ్చు-హల్లు కాని (పొల్లును) ఉపయోగిస్తున్నారు!!!

వికీపీడియాలో నాకు వచ్చిన పూర్తి ఫలితాలను ఇక్కడ చూడండి.

ఇలాంటి విశ్లేషణ ఇంతకు ముందే ఒకసారి అన్నమైయ్య పాటలపై ఒకసారి, రచ్చబండ గుంపులోని చర్చలో ఇంకోసారి జరిగాయి. ఈ రెండు చోట్లా మట్టుకు "" అనే అక్షరం అత్యధికంగా వాడుతున్నట్లుగా గణాంకాలు వచ్చాయి.

17 comments:

  1. ఎక్సలెంట్ అండి.ఇంతకీ ఎలా ఎనలైజ్‌ చేసారు. అంటే వికీ పేజీలన్నింటినీ డౌన్‌లోడు చేసారా? ఎలా కౌంట్ చేసారు... --
    మీ టపా నాకు బాగా నచ్చింది. అందుకే మీ టపాకి ఒక వేసాను.

    ReplyDelete
  2. 'ఒక ముద్ర వేసాను' అని నా అర్దం.

    ReplyDelete
  3. అంతే అన్ని పేజీలనూ డౌన్‌లోడు చేసాను (అలా చేయటానికి ఒక బాటును రాసుకున్నాను). ప్రోగ్రాము రాయటం వరకూ చాలా సులువే, ఒక్కో పేజీ డౌన్‌లోడు చేయటం అందులో ఏ ఏ అక్షరాలు ఎన్నెన్ని సార్లు వచ్చిందో లెక్కగట్టం, చివరికి మొత్తమంతా కూడటం. కాకపోతే తెలుగు వికీపీడియాలో పేజీలు ఎక్కువయిపోయేసరికి ఈ గణాంకాలను తీసుకోవటానికి ప్రోగ్రామును చాలా సేపు నడపాల్సి వచ్చింది.

    ముద్ర వేశారని మొదటిసారే అర్ధమయ్యింది లెండి :)

    ReplyDelete
  4. mee kastam ,pattudala baga nachaye

    ReplyDelete
  5. మీ సహనానికి జోహారు
    మోత్తం మీద సాధించారు

    ReplyDelete
  6. పొల్లు ముందు రావడంలో యూనీకోడ్ వాడి కుట్ర ఏదో ఉన్నట్టున్నదని అనిపిస్తుంది.

    ReplyDelete
  7. అన్నట్టూ ఇంతకు ముందు న వచ్చినా ర కూడా దాని వెంటనే ఉన్నది,

    అలాగే మీకు కూడా న వెంటనే ఉన్నది చూసినారూ, కాంపిటీషను తీవ్రంగా ఉన్నది, మన బ్లాగులపై లెక్కేసి చూడాలి ర గెలుస్తుందో, న గెలుస్తుందోనని, అన్నట్టూ ఎవరో అన్నట్టు ర ఱ ని దొంగలించినది :)

    సరే టేకోవర్ చేసినది. :):)

    ReplyDelete
  8. @కిరణ్, నేను కూడా అదే అనుకుంటున్నాను. ఒక అక్షరం దాని వత్తుకు మధ్యలో వచ్చే పొల్లు వలన వలన వాటి సంఖ్య బాగా పెరిగిపోయుంటుంది, పొల్లును కిందకు తొక్కటానికి ZWNJ సహాయం తీసుకుని ఇంకో సారి గణాంకాలు తీసుకోవాలేమో!!.

    ReplyDelete
  9. ఆసక్తికరమైన విశ్లేషణ!! ప్రస్తుతానికి కిరణ్ అన్నట్టు తెలుగు బ్లాగులపై విశ్లేషణ చేస్తే మరింత స్పష్టమైన ఫలితాలనిస్తుందేమో..అయితే వాటిని విశ్లేషించేటప్పుడు తెలుగు, బ్లాగు వంటి తరచూ ఉపయోగించే పదాలను తొలగించి విశ్లేషించాలనుకుంటా

    ReplyDelete
  10. ఆసక్తి కరంగా ఉంది. 'ర' వస్తుందని నేను ఊహించలేదు. నా కంటే 'రా' నే ఎక్కువయిపోయిందన్నమాట.

    ReplyDelete
  11. న,ర,్,ల : నెనర్లు:)

    ReplyDelete
  12. ఱ తో ఉండే మాటలు పెద్దగా ఉండవు గదా. ఒకవేళ దాని పదాలు దానికిచ్చేసినా, స్థానంలో పెద్దగా మార్పుండదేమో!:)

    ReplyDelete
  13. 'ర' తరఫున ఎవరైనా రిగ్గింగు చేసి ఉంటారంటారా?

    ReplyDelete
  14. మొన్న కేవలం వికీపీడియాలో వ్యాసాల నేంస్పేసులో మాత్రమే గణాంకాలు తీసుకున్నాను. పొల్లు చేసిన రిగ్గింగు నుంచి వేరే అక్షరాలను కాపాడటానికి ప్రోగ్రాము మార్చి, అన్ని నేంస్పేసులపై ఇంకో సారి నడిపితే ఈ సారి వచ్చిన గణాంకాలలో "ర" ఇంకా ఇంకా ముందుకు దూసుకుని పోయింది !!!

    ReplyDelete
  15. There seems to be a fundamental flaw in the methodology employed. The lack of a special character for అ కారం, has rendered it impossible to count its frequency of occurrence.
    Every time a consonant appears without any of the Unicode characters between ా and ౌ (inclusive) and the sign ్, an అ కారం should be rightly assumed to be present.

    ReplyDelete
  16. one way to overcome this, is to subtract the count of ా to ౌ and ్ from the total count of consonants (క -హ) to get the number of అకారాలు used.

    ReplyDelete
  17. @రాకేశ్వర,
    బాగా పట్టారు. గుణింతాలను అక్షరాలను ఒకేగాటన కట్టేసి ఫలితాలను తీసుకోవటం వలన వచ్చిన సమస్య అది. గుణింతాలకు వేరుగా అక్షరాలకు వేరుగా తీసుకుంటే ఈ సమస్యను పూర్తిగా పరిశ్కరించవచ్చు. ఈ సారి ఎప్పుడయినా గణాంకాలు తీసుకున్నప్పుడు దీనిని గుర్తుపెట్టుకుంటాను.

    ReplyDelete