2018/10/06

よく使われる文字列ばかりで文章を作ってみた

※「だけで」というタイトルは誤解を招くので、「ばかりで」に訂正しました。失礼しました。
※2018/11/15現在、固有名詞を除いた日本語から、平均的な文章を作成中です。

キーボードの配列を試していて、

「これだけ入力すれば感触がつかめる!」

という文があればいいな思い、考えてみました。

日本語を3文字ずつに分解したデータ(3-gram)の70145個の内、上位50%を占めるのはわずか132個。
「しょう」「。  」「じょう」~「うじょ」「いって」「おもい」と続きます。

それらをすべて使い、余計な文字は極力避け、意味の通る文にしました。

データは新下駄配列の作者、kouy様の100万文字N-gramをお借りしました。
厚く御礼申し上げます。

2-gramだと組み合わせが膨大になり、4-gramだと候補の数が膨大になるため、3-gramがちょうどよいようです。

最終的に15文まで圧縮できました。


げんかいはないようだ。
(限界はないようだ。)

かんとうしょうにします。
(敢闘賞にします。)

じゅうようなことがあります。
(重要なことがあります。)

うかいするようになっています。
(迂回するようになっています。)

できるようにはならないでしょう。
(できるようにはならないでしょう。)

つきには、そのひょうじょうがある。
(月には、その表情がある。)

こうこうせいとたんだいせいのようだった。
(高校生と短大生のようだった。)

せんしゅうしんこうしゅうきょうかになった。
(先週新興宗教家になった。)

しているということではなく、されているのである。
(しているということではなく、されているのである。)

こうしょうしようとして、よういしていってしまった。
(交渉しようとして、用意して行ってしまった。)

しょうがっこうにねんですが、しょくぎょうはいしゃになるとおもいます。
(小学校二年ですが、職業は医者になると思います。)

ところが、いしょうがなかったので、おもいをきょうちょうすることになった。
(ところが、衣装がなかったので、思いを強調することになった。)

わたしはじぶんのしょうじょうについてしゅうちゅうしてかんがえていました。
(私は自分の症状について集中して考えていました。)

できることをおこなっていたから、ひつよういじょうのきゅうりょうはありません。
(できることを行っていたから、必要以上の給料はありません。)

にほんごをにゅうりょくして、じょうほうをへんしゅうして、ぶんしょうをかんせいさせるのです。
(日本語を入力して、情報を編集して、文章を完成させるのです。)



これで、データにある言葉を入力する際に必要な3文字の運指の50%をカバーできる計算です。
おおむね一般的な日本語の文章にも当てはまるでしょう。

配列をちょっと試してみたいとか、タイピングの練習なんかに使えると思います。

出現率も意識していますが、拗音(「ゃ」「ゅ」「ょ」)が多いですね。
JISかなの運指の悪さが目立ちます。

ちなみに長音は上位50%には入りませんが、長音縛りで作るとすれば、

いんたーねっとのめーるさーびすぺーじと、かーどげーむめーかーのにゅーゆーざーでーた。
(インターネットのメールサービスページと、カードゲームメーカーのニューユーザーデータ。)

といったところです。


0 件のコメント: