Częstotliwości występowania znaków w języku japońskim

Z PrePedia
Skocz do: nawigacja, szukaj

Częstotliwości występowania znaków w języku japońskim – analiza dokonana przez Tawa za pomocą grupy automatów.

Procedura:

  • Ściągniętych zostało 28476 plików HTML (258 019 635 bajtów) z różnych stron japońskojęzycznych, adresy pochodziły z katalogu DMOZ
  • Zostały one przekonwertowane na UTF-8 za pomocą nkf, iconv i odpowiedniego skryptu. Pliki w których były jakiekolwiek błędy kodowania lub których kodowanie nie mogło zostać prawidłowo wykryte były odrzucane. Przetrwało ten proces 27525 plików (96.7%), co stanowi 254 799 344 bajtów.
  • Odpowiedni program zliczył wszystkie wystąpienia znaków z zakresu KANA i KANJI.
  • Odrzucone zostały znaki przestankowe (poza środkową kropką), zachodnie znaki "FULL WIDTH" oraz japońskie znaki kombinacyjne Unicode.
Znaki kanji

Wyniki ogólne:

Ilość japońskich znaków 14 762 372
Ilość znaków kanji 5 713 681 (38.7%)
Ilość znaków hiragana 4 608 076 (31.2%)
Ilość znaków katakana 4 440 615 (30.0%)
Ilość różnych japońskich znaków 4396
Ilość różnych znaków kanji 4225
Ilość różnych znaków hiragana 83
Ilość różnych znaków katakana 88

Wyniki szczegółowe:

Dodatkowo częstotliwości kanji o danej liczbie kresek:

Liczba kresek Częstotliwość Częstotliwość kumulatywna
1 0.4726 % 0.4726 %
2 1.5428 % 2.0155 %
3 3.5773 % 5.5928 %
4 8.1788 % 13.7715 %
5 8.2012 % 21.9727 %
6 8.5396 % 30.5123 %
7 7.8750 % 38.3873 %
8 11.2708 % 49.6581 %
9 8.6847 % 58.3428 %
10 8.2152 % 66.5581 %
11 9.1559 % 75.7140 %
12 8.7482 % 84.4622 %
13 5.4334 % 89.8956 %
14 3.5594 % 93.4549 %
15 2.2842 % 95.7392 %
16 1.5391 % 97.2783 %
17 0.8922 % 98.1705 %
18 0.9899 % 99.1604 %
19 0.3075 % 99.4678 %
20 0.3945 % 99.8623 %
21 0.0715 % 99.9338 %
22 0.0177 % 99.9515 %
23 0.0376 % 99.9891 %
24 0.0053 % 99.9945 %
25 0.0006 % 99.9951 %
26 0.0002 % 99.9953 %
27 0.0021 % 99.9974 %
28 0.0000 % 99.9974 %
29 0.0015 % 99.9989 %
30 0.0011 % 100.0000 %

Kanji strokes frequency.png



Źródło: artykuł Częstotliwości występowania znaków w języku japońskim w Wikiźródłach, licencja: CC-BY-SA 3.0 oraz GNU FDL, autorzy: skopiowani.
W Wikiźródłach odbyła się dyskusja nad usunięciem tego tekstu, zobacz ją.
Traffic lights 4 states 4.png Ten artykuł zawiera treści stanowiące niepopartą źródłami twórczość własną.