ひらがなの使用頻度 ― 2007年05月28日 11時18分47秒
新聞記事から抽出すると
エキサイトのコネタで「「あいうえおかきくけこ……」一番使われているひらがなはどれ? | エキサイトニュース」なんてのを見かけた。
ある土曜日の新聞から10の記事を選び、全てひらがなでワープロ入力。という条件でひらがなの文字としての使用頻度を調べたらしい。 で、トップ10が「い、ん、か、し、う、た、と、つ、て、の」らしい。
ご自分の日記から抽出すると
コネタのは手で入力しての計測なのでサンプリング数が適切かわからんけど「なるほど~」と感心するも、似たようなことをしているひとがいるのではと思い検索したところ、「漢直ノート ひらがな1-gram表」というところを見つけた。
こちらは漢直という入力方法の練習日記などを綴っておられるブログのようだが、ご自分の日記など一年分からのサンプリングで集計されていた。その結果から、句読点を覗いた上位10は「い、ん、う、か、し、な、と、た、っ、の」となっていた。
比較したら
こんな感じ。
コネタ | い | ん | か | し | う | た | と | つ | て | の |
漢直ノート | い | ん | う | か | し | な | と | た | つ | の |
ただ、「っ」(促音)と「つ」を合わせると「漢直」側では3位まであがってくるし、コネタ側は「濁点、半濁点は無視」というのがカウントしていないのか清音と同じと見なしてカウントしているのかがあいまいだったりするのが残念だが、まあ元文章の性質の違いやらサンプリング数の違いはあるのでよしとしよう(なにがだ)。
おまけ
漢直ノートさんは他にも
なんてエントリもあげておられるので、興味のある方は参考にしてみてはいかが。コメント
トラックバック
このエントリのトラックバックURL: http://dara-j.asablo.jp/blog/2007/05/28/1538351/tb
※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。