自動四字熟語
2016年09月28日
僕はTwitterは普段日本語で書くのだが、たまに英語で書くと、140文字で書ける内容の少なさに驚く。
昔は日本語の文字は"2バイト文字"と言って、1バイトである半角英数文字二つ分とカウントされていた。たとえば、英語と日本語のどちらかで入力されることがありうる場合は、「20文字」と言わず、「20バイト(英文字がメインの場合)」あるいは「40バイト(日本語文字がメインの場合)」といっていた。なので、前者(20バイト)に日本語を入力する場合は10文字しか入れられず、後者(40バイト)は日本語は20文字になるが、英文字であれば40文字入れられることになる。
ところが今はUnicodeと言って、あらゆる言語の文字も同じように扱うようになり、その文字が一文字あたり何バイト使うかということを気にしなくてもよくなったため、「◯◯文字」と言えば、英文字/日本語文字にかかわらず◯◯文字である。
そして文字数が言語に関わらず平等に扱われるようになったことはTwitterの140字以内という制限においてはまったく平等でない、ということに気づいた。
続きを読む
昔は日本語の文字は"2バイト文字"と言って、1バイトである半角英数文字二つ分とカウントされていた。たとえば、英語と日本語のどちらかで入力されることがありうる場合は、「20文字」と言わず、「20バイト(英文字がメインの場合)」あるいは「40バイト(日本語文字がメインの場合)」といっていた。なので、前者(20バイト)に日本語を入力する場合は10文字しか入れられず、後者(40バイト)は日本語は20文字になるが、英文字であれば40文字入れられることになる。
ところが今はUnicodeと言って、あらゆる言語の文字も同じように扱うようになり、その文字が一文字あたり何バイト使うかということを気にしなくてもよくなったため、「◯◯文字」と言えば、英文字/日本語文字にかかわらず◯◯文字である。
そして文字数が言語に関わらず平等に扱われるようになったことはTwitterの140字以内という制限においてはまったく平等でない、ということに気づいた。
続きを読む
myinnerasia at 08:09|Permalink│Comments(0)
2016年09月27日
今回はお猿さんが2136個の漢字キーを持つキーボードを叩く。
そこで書かれた四字熟語に僕が意味をつけていく(あるいは「見つけていく」と言うべきか?)。
面白そうなのを僕が選ぶのではなく、5つの四字熟語を出力させ、それをそのまま使う、というルール。
これはこれから先しばらくやってみようと思う。上記のルールに従うので、面白くないのが出てくるかも知れないが。
myinnerasia at 08:01|Permalink│Comments(0)