Częstotliwości występowania znaków w języku japońskim

Z PrePedia
Skocz do: nawigacja, szukaj

Częstotliwości występowania znaków w języku japońskim – analiza dokonana przez Tawa za pomocą grupy automatów.

Procedura:

  • Ściągniętych zostało 28476 plików HTML (258 019 635 bajtów) z różnych stron japońskojęzycznych, adresy pochodziły z katalogu DMOZ
  • Zostały one przekonwertowane na UTF-8 za pomocą nkf, iconv i odpowiedniego skryptu. Pliki w których były jakiekolwiek błędy kodowania lub których kodowanie nie mogło zostać prawidłowo wykryte były odrzucane. Przetrwało ten proces 27525 plików (96.7%), co stanowi 254 799 344 bajtów.
  • Odpowiedni program zliczył wszystkie wystąpienia znaków z zakresu KANA i KANJI.
  • Odrzucone zostały znaki przestankowe (poza środkową kropką), zachodnie znaki "FULL WIDTH" oraz japońskie znaki kombinacyjne Unicode.
Znaki kanji

Wyniki ogólne:

Ilość japońskich znaków14 762 372
Ilość znaków kanji5 713 681 (38.7%)
Ilość znaków hiragana4 608 076 (31.2%)
Ilość znaków katakana4 440 615 (30.0%)
Ilość różnych japońskich znaków4396
Ilość różnych znaków kanji4225
Ilość różnych znaków hiragana83
Ilość różnych znaków katakana88

Wyniki szczegółowe:

Dodatkowo częstotliwości kanji o danej liczbie kresek:

Liczba kresekCzęstotliwośćCzęstotliwość kumulatywna
10.4726 %0.4726 %
21.5428 %2.0155 %
33.5773 %5.5928 %
48.1788 %13.7715 %
58.2012 %21.9727 %
68.5396 %30.5123 %
77.8750 %38.3873 %
811.2708 %49.6581 %
98.6847 %58.3428 %
108.2152 %66.5581 %
119.1559 %75.7140 %
128.7482 %84.4622 %
135.4334 %89.8956 %
143.5594 %93.4549 %
152.2842 %95.7392 %
161.5391 %97.2783 %
170.8922 %98.1705 %
180.9899 %99.1604 %
190.3075 %99.4678 %
200.3945 %99.8623 %
210.0715 %99.9338 %
220.0177 %99.9515 %
230.0376 %99.9891 %
240.0053 %99.9945 %
250.0006 %99.9951 %
260.0002 %99.9953 %
270.0021 %99.9974 %
280.0000 %99.9974 %
290.0015 %99.9989 %
300.0011 %100.0000 %

Kanji strokes frequency.png



Źródło: artykuł Częstotliwości występowania znaków w języku japońskim w Wikiźródłach, licencja: CC-BY-SA 3.0 oraz GNU FDL, autorzy: skopiowani.
W Wikiźródłach odbyła się dyskusja nad usunięciem tego tekstu, zobacz ją.
Traffic lights 4 states 4.png Ten artykuł zawiera treści stanowiące niepopartą źródłami twórczość własną.