Częstotliwości występowania znaków w języku japońskim
Częstotliwości występowania znaków w języku japońskim – analiza dokonana przez Tawa za pomocą grupy automatów.
Procedura:
- Ściągniętych zostało 28476 plików HTML (258 019 635 bajtów) z różnych stron japońskojęzycznych, adresy pochodziły z katalogu DMOZ
- Zostały one przekonwertowane na UTF-8 za pomocą nkf, iconv i odpowiedniego skryptu. Pliki w których były jakiekolwiek błędy kodowania lub których kodowanie nie mogło zostać prawidłowo wykryte były odrzucane. Przetrwało ten proces 27525 plików (96.7%), co stanowi 254 799 344 bajtów.
- Odpowiedni program zliczył wszystkie wystąpienia znaków z zakresu KANA i KANJI.
- Odrzucone zostały znaki przestankowe (poza środkową kropką), zachodnie znaki "FULL WIDTH" oraz japońskie znaki kombinacyjne Unicode.
Wyniki ogólne:
Ilość japońskich znaków | 14 762 372 |
Ilość znaków kanji | 5 713 681 (38.7%) |
Ilość znaków hiragana | 4 608 076 (31.2%) |
Ilość znaków katakana | 4 440 615 (30.0%) |
Ilość różnych japońskich znaków | 4396 |
Ilość różnych znaków kanji | 4225 |
Ilość różnych znaków hiragana | 83 |
Ilość różnych znaków katakana | 88 |
Wyniki szczegółowe:
- Częstotliwości występowania znaków hiragana w języku japońskim
- Częstotliwości występowania znaków katakana w języku japońskim
- Częstotliwości występowania znaków kanji w języku japońskim (ze względu na ograniczenia serwera podzielone na podstrony)
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 1 do 500
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 501 do 1000
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 1001 do 1500
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 1501 do 2000
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 2001 do 2500
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 2501 do 3000
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 3001 do 3500
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 3501 do 4000
- Częstotliwości występowania znaków kanji w języku japońskim - znaki 4001 i rzadsze
Dodatkowo częstotliwości kanji o danej liczbie kresek:
Liczba kresek | Częstotliwość | Częstotliwość kumulatywna |
---|---|---|
1 | 0.4726 % | 0.4726 % |
2 | 1.5428 % | 2.0155 % |
3 | 3.5773 % | 5.5928 % |
4 | 8.1788 % | 13.7715 % |
5 | 8.2012 % | 21.9727 % |
6 | 8.5396 % | 30.5123 % |
7 | 7.8750 % | 38.3873 % |
8 | 11.2708 % | 49.6581 % |
9 | 8.6847 % | 58.3428 % |
10 | 8.2152 % | 66.5581 % |
11 | 9.1559 % | 75.7140 % |
12 | 8.7482 % | 84.4622 % |
13 | 5.4334 % | 89.8956 % |
14 | 3.5594 % | 93.4549 % |
15 | 2.2842 % | 95.7392 % |
16 | 1.5391 % | 97.2783 % |
17 | 0.8922 % | 98.1705 % |
18 | 0.9899 % | 99.1604 % |
19 | 0.3075 % | 99.4678 % |
20 | 0.3945 % | 99.8623 % |
21 | 0.0715 % | 99.9338 % |
22 | 0.0177 % | 99.9515 % |
23 | 0.0376 % | 99.9891 % |
24 | 0.0053 % | 99.9945 % |
25 | 0.0006 % | 99.9951 % |
26 | 0.0002 % | 99.9953 % |
27 | 0.0021 % | 99.9974 % |
28 | 0.0000 % | 99.9974 % |
29 | 0.0015 % | 99.9989 % |
30 | 0.0011 % | 100.0000 % |