diff options
author | Thomas Lange <tl@openoffice.org> | 2007-01-12 11:40:54 +0000 |
---|---|---|
committer | Thomas Lange <tl@openoffice.org> | 2007-01-12 11:40:54 +0000 |
commit | 23147b5b1f280e1c7758c4ce27b99dc92135b354 (patch) | |
tree | cdee4b730e97cad5db3fd941f5513dc826530fd8 /libtextcat/data/new_fingerprints/lm | |
parent | 2bb6503c63165d28d1f9a0224b675565b6acaa96 (diff) |
#i73173# integrate Google SoC language-guessing
Diffstat (limited to 'libtextcat/data/new_fingerprints/lm')
-rw-r--r-- | libtextcat/data/new_fingerprints/lm/afrikaans.lm | 400 | ||||
-rw-r--r-- | libtextcat/data/new_fingerprints/lm/albanian.lm | 400 | ||||
-rw-r--r-- | libtextcat/data/new_fingerprints/lm/amharic_utf.lm | 400 | ||||
-rw-r--r-- | libtextcat/data/new_fingerprints/lm/arabic.lm | 400 | ||||
-rw-r--r-- | libtextcat/data/new_fingerprints/lm/armenian.lm | 0 |
5 files changed, 1600 insertions, 0 deletions
diff --git a/libtextcat/data/new_fingerprints/lm/afrikaans.lm b/libtextcat/data/new_fingerprints/lm/afrikaans.lm new file mode 100644 index 000000000000..c110f154b664 --- /dev/null +++ b/libtextcat/data/new_fingerprints/lm/afrikaans.lm @@ -0,0 +1,400 @@ +_ 23602 +e 8036 +a 4087 +n 3782 +i 3726 +o 3314 +r 2951 +s 2885 +t 2749 +d 2479 +e_ 2118 +l 1854 +k 1741 +ie 1670 +g 1601 +n_ 1447 +m 1440 +_d 1219 +t_ 1143 +er 1124 +h 1124 +u 1110 +ie_ 1079 +y 1048 +w 986 +s_ 982 +_s 969 +_h 956 +di 924 +an 922 +r_ 912 +aa 882 +v 876 +en 807 +_di 807 +. 790 +y_ 747 +_v 709 +et 706 +._ 694 +die 691 +die_ 667 +_n 666 +_die 651 +p 639 +_m 634 +_die_ 633 +_w 632 +ee 607 +ge 606 +_o 598 +b 586 +te 568 +, 560 +in 555 +k_ 550 +_e 550 +,_ 548 +oo 516 +et_ 511 +de 509 +el 489 +_g 486 +f 461 +ar 451 +ni 450 +nd 442 +an_ 440 +en_ 437 +_i 426 +he 423 +g_ 418 +_t 412 +oe 410 +at 406 +er_ 400 +om 381 +wa 378 +_a 378 +_b 377 +_k 371 +nie 371 +_he 370 +aar 355 +_ge 351 +es 351 +_ni 348 +da 346 +m_ 342 +ou 338 +it 335 +_nie 335 +d_ 332 +l_ 330 +_wa 329 +or 327 +le 326 +we 326 +ek 324 +het 321 +me 319 +_het 319 +is 318 +j 315 +at_ 311 +on 309 +se 308 +_en 298 +ma 294 +st 291 +as 280 +va 277 +_en_ 270 +re 270 +" 269 +' 265 +het_ 261 +_het_ 260 +om_ 254 +al 252 +ar_ 250 +li 248 +te_ 247 +aar_ 247 +_da 245 +u_ 242 +nde 241 +ou_ 237 +_l 231 +be 229 +_' 226 +rd 224 +_va 224 +ig 223 +ng 222 +ns 221 +ve 220 +it_ 218 +_j 216 +_me 216 +sy 215 +ke 213 +_sy 212 +aan 212 +van 212 +_in 210 +is_ 210 +in_ 208 +sy_ 206 +_sy_ 206 +'n 205 +ro 205 +ko 204 +_'n 203 +ra 203 +'n_ 203 +_'n_ 202 +so 202 +D 202 +ho 201 +rs 200 +eer 200 +ik 199 +la 198 +_te 196 +_van 196 +_ma 195 +as_ 194 +ui 194 +ver 192 +e. 192 +der 191 +to 188 +op 187 +van_ 184 +ag 184 +_ve 182 +and 180 +_van_ 178 +ha 178 +f_ 176 +ka 176 +ne 175 +_is 175 +sk 174 +e._ 174 +oor 174 +_ver 170 +ek_ 170 +_hy 170 +hy 170 +p_ 168 +_be 168 +ri 168 +ur 167 +nie_ 165 +_so 165 +_D 164 +si 164 +ll 164 +no 164 +_in_ 163 +_hy_ 162 +hy_ 162 +ed 161 +ers 160 +_r 156 +ak 156 +_ho 155 +_nie_ 153 +eg 153 +nt 152 +de_ 152 +_p 151 +_we 148 +_is_ 148 +ei 147 +es_ 142 +maa 142 +wee 142 +na 141 +nder 139 +a_ 138 +ing 138 +ew 138 +S 135 +lle 135 +_om 135 +_te_ 134 +eu 134 +ie. 134 +wo 132 +em 132 +wat 131 +_no 130 +_" 130 +vo 130 +E 129 +H 128 +_wat 127 +ti 126 +mo 126 +A 126 +e, 126 +_ha 125 +vi 125 +el_ 125 +ter 125 +e,_ 124 +dat 124 +eer_ 124 +wat_ 124 +le_ 124 +ta 124 +Di 123 +dat_ 123 +_wat_ 122 +ie._ 122 +was 121 +ste 121 +_H 121 +_se 121 +se_ 120 +ul 120 +al_ 120 +_was 120 +_om_ 119 +_st 119 +lik 118 +"_ 118 +_ko 118 +_maa 118 +lo 117 +_to 117 +ns_ 115 +aan_ 115 +nie. 114 +_vi 114 +met 114 +_nie. 111 +nk 110 +_Di 110 +- 110 +_op 109 +_oo 109 +_on 108 +ir 108 +ord 108 +uit 106 +ens 105 +_was_ 105 +was_ 105 +een 105 +_met 105 +os 105 +_S 104 +nie._ 104 +ig_ 103 +_sk 102 +op_ 101 +_ek 101 +_wee 101 +ir_ 101 +met_ 100 +_met_ 100 +rt 100 +ik_ 99 +end 99 +nd_ 99 +gt 99 +ond 98 +ot 98 +_aa 97 +og 97 +vir_ 95 +vir 95 +_ka 94 +hu 94 +_mo 94 +_vir_ 94 +_vir 94 +_dit 93 +kr 93 +am 93 +ol 93 +dit 93 +_ek_ 93 +ki 93 +sa 93 +_aan 92 +man 92 +jy 92 +ng_ 92 +aak 92 +lle_ 91 +_hu 91 +_na 91 +_vo 90 +ewe 90 +of 90 +jy_ 90 +_dit_ 90 +dit_ 90 +_jy 89 +der_ 89 +jo 89 +_f 88 +_u 88 +sie 87 +_dat 87 +_jy_ 87 +daa 87 +do 87 +vr 87 +wi 86 +ry 86 +_dat_ 86 +eur 86 +rs_ 85 +_jo 85 +_wo 84 +_ne 84 +jie 84 +ji 84 +pe 83 +moe 83 +my 82 +ull 82 +Die 81 +maar 81 +_hom 81 +ulle 81 +_maar 81 +hom 81 +_uit 80 +_ui 80 +ges 80 +raa 80 +or_ 80 +ies 80 +jou 79 +_la 79 +maar_ 79 +ulle_ 79 +_daa 79 +Die_ 79 +daar 78 +_daar 78 +ien 78 +_my 78 +_jou 78 +ok 78 +il 78 +lik_ 77 +sta 77 +_Die 77 +ur_ 77 +ga 77 +ag_ 77 +kan 77 diff --git a/libtextcat/data/new_fingerprints/lm/albanian.lm b/libtextcat/data/new_fingerprints/lm/albanian.lm new file mode 100644 index 000000000000..0665a962d018 --- /dev/null +++ b/libtextcat/data/new_fingerprints/lm/albanian.lm @@ -0,0 +1,400 @@ +_ 19480 +ë 4099 +e 4082 +t 3635 +i 3134 +a 2893 +r 2820 +n 2610 +s 2380 +h 2060 +ë_ 2055 +e_ 1825 +j 1677 +u 1489 +d 1381 +o 1370 +m 1318 +k 1264 +të 1091 +p 1072 +_t 1068 +sh 998 +l 936 +_n 876 +a_ 822 +, 816 +,_ 808 +të_ 795 +i_ 770 +_p 739 +_m 702 +_s 700 +te 653 +ër 620 +_d 613 +_e 607 +g 602 +_k 601 +_të 593 +. 575 +_të_ 574 +v 567 +_e_ 554 +r_ 525 +._ 523 +ht 503 +n_ 480 +he 473 +në 462 +sht 461 +te_ 457 +q 454 +nd 436 +ri 432 +is 414 +et 403 +b 402 +je 401 +me 395 +in 391 +it 381 +rë 374 +_a 374 +t_ 359 +ur 353 +_i 346 +ar 342 +ës 339 +er 338 +në_ 338 +ën 338 +dh 337 +en 336 +pë 334 +f 328 +_v 323 +jë 318 +nj 313 +ish 312 +për 294 +y 285 +z 282 +es 281 +at 274 +_me 273 +_q 273 +gj 269 +ra 261 +as 258 +_në 256 +ku 256 +j_ 250 +ta 249 +re 246 +një 245 +o_ 243 +ni 243 +_pë 240 +hte 240 +_nj 239 +on 239 +isht 236 +pa 234 +th 233 +shte 233 +_për 232 +se 228 +_g 223 +ve 221 +in_ 220 +s_ 219 +_në_ 219 +do 218 +hte_ 218 +më 216 +ti 215 +aj 212 +shte_ 212 +ej 212 +u_ 211 +që 211 +_sh 210 +nt 207 +jë_ 206 +_b 205 +_një 203 +di 202 +_pa 201 +_i_ 201 +ll 199 +_f 199 +kë 198 +me_ 197 +dhe 195 +ishte 195 +si 194 +hi 191 +he_ 188 +- 187 +ja 187 +_që 187 +ua 186 +il 184 +_dh 184 +ur_ 183 +ër_ 182 +or 180 +se_ 179 +që_ 178 +S 176 +ç 175 +_h 173 +an 172 +një_ 172 +ng 170 +nte 170 +_që_ 169 +_S 169 +rë_ 166 +dhe_ 165 +_me_ 164 +ka 162 +im 159 +hë 158 +mi 157 +to 156 +tu 156 +ën_ 155 +_një_ 154 +ha 153 +nte_ 150 +tr 148 +sa 148 +ët 148 +_gj 148 +un 147 +rr 147 +ë, 147 +_dhe 147 +ej_ 147 +ki 146 +ë,_ 146 +_ku 145 +_- 144 +_ng 142 +ik 141 +_nd 140 +end 138 +uk 137 +etë 135 +ko 135 +_dhe_ 135 +_ve 132 +va 131 +_l 131 +për_ 131 +shi 131 +erë 129 +ke 127 +kis 127 +së 126 +jo 125 +li 124 +ga 124 +kish 123 +_ki 122 +po 122 +_se 122 +' 121 +du 120 +mb 120 +_më 119 +Si 115 +më_ 115 +esh 115 +_si 114 +qe 114 +lë 114 +_kis 113 +oh 113 +_kish 113 +_Si 113 +pr 112 +_u 112 +uar 111 +de 111 +hu 111 +_th 111 +al 111 +ta_ 109 +ilv 108 +Sil 108 +Silv 108 +lv 108 +k_ 108 +e, 108 +ji 107 +e,_ 106 +_Sil 106 +_Silv 106 +_r 105 +os 104 +_se_ 104 +kisht 102 +_di 102 +st 101 +_për_ 101 +bë 101 +tj 100 +_nga 99 +nga 99 +_du 98 +ra_ 98 +vë 98 +gji 98 +_ish 96 +rt 96 +_is 96 +ro 95 +ir 94 +ga_ 94 +ësh 94 +ont 93 +c 93 +t, 93 +t,_ 93 +hin 92 +a, 92 +_at 92 +und 92 +jt 91 +_mb 91 +a,_ 91 +tje 90 +_nga_ 90 +_do 90 +_pr 90 +rit 90 +men 90 +nga_ 90 +ri_ 89 +N 89 +ma 89 +it_ 88 +_kë 88 +-_ 88 +m_ 87 +jo_ 87 +onte 87 +atë 87 +la 87 +ëri 87 +ilva 86 +shin 86 +ë. 86 +Silva 86 +lva 86 +së_ 85 +jer 85 +et_ 85 +_po 85 +ës_ 84 +kur 84 +ru 84 +nin 83 +ot 83 +hin_ 83 +_N 83 +her 83 +htë 82 +ap 82 +shin_ 82 +mo 81 +ash 81 +tha 81 +_ç 81 +ë._ 81 +ëm 81 +jit 80 +_ta 80 +ul 80 +le 80 +ho 80 +_z 79 +dr 78 +jet 78 +nin_ 78 +_më_ 78 +gjit 78 +A 78 +hk 78 +onte_ 78 +oni 77 +lo 77 +ba 77 +herë 77 +ndo 76 +shk 76 +mend 75 +_vë 75 +ha_ 75 +dë 75 +tur 74 +_A 74 +el 74 +bi 74 +_ko 74 +uk_ 73 +erë_ 73 +si_ 73 +_sa 73 +ar_ 72 +P 72 +rs 72 +pas 72 +ith 72 +uar_ 71 +_isht 71 +ai 70 +e. 70 +_vet 70 +vet 70 +_bë 70 +zi 70 +d_ 70 +jith 70 +da 70 +gjith 69 +duk 69 +na 69 +hej 69 +tër 68 +_men 68 +_ka 68 +am 68 +nd_ 68 +_c 67 +_pas 67 +_duk 67 +jes 67 +ak 67 +s, 67 +e._ 67 +s,_ 67 +K 67 +ësht 67 +mu 66 +kur_ 66 +yr 66 +em 65 +_së 65 +tha_ 65 +imi 65 +ie 65 +hej_ 64 +_së_ 64 +_u_ 64 +? 64 +fu 64 +_P 64 diff --git a/libtextcat/data/new_fingerprints/lm/amharic_utf.lm b/libtextcat/data/new_fingerprints/lm/amharic_utf.lm new file mode 100644 index 000000000000..0c5bc813e663 --- /dev/null +++ b/libtextcat/data/new_fingerprints/lm/amharic_utf.lm @@ -0,0 +1,400 @@ + 21403 +_ 10092 + 7734 + 6558 +_ 5003 + 4717 + 4401 + 4274 + 4176 + 4054 + 3868 + 2728 + 1656 + 1591 + 1579 + 1425 + 1402 +_ 1261 +_ 1231 + 1217 + 1187 + 1183 +_ 1160 + 1145 + 1123 + 1097 +ን 1043 + 1043 + 1041 + 1004 +_ 991 + 936 + 880 + 855 +ው 855 + 849 + 805 + 783 +ት 783 +_ 763 + 709 + 704 + 682 +በ 682 + 679 + 670 + 667 +በ 666 + 666 + 658 + 643 +የ 637 + 637 + 627 +የ 627 +ለ 614 + 614 + 611 +ር 611 +_ 588 +_ 583 +ት_ 583 +_የ 577 +_የ 574 +ለ 573 + 573 +ን 570 + 570 +መ 563 + 563 + 557 +መ 557 + 554 +አ 554 +አ 553 +ተ 553 + 553 + 553 +ተ 547 + 547 +ም 534 + 534 + 532 +- 531 +ስ 525 + 525 +-- 521 +ል 515 + 515 +--- 512 +---- 503 +_በ 499 +----- 494 +_በ 487 + 479 + 477 +_ 473 + 469 +ው 469 +ን_ 468 +_ 468 + 465 + 464 +ያ 457 + 457 + 444 +_አ 424 +_አ 424 +ስ 423 + 423 +_ 415 + 402 + 401 + 390 + 389 + 382 +_ 378 +ው_ 378 + 365 + 364 +ያ 364 + 363 +ል 357 + 357 + 356 +_ 351 + 347 +ች 347 + 341 +ነ 341 +ይ 337 + 337 +። 337 + 337 +_ 337 +።_ 337 + 336 + 334 + 320 +እ 320 + 320 + 320 + 318 +እ 318 +_ 314 +ር_ 314 + 312 + 311 + 301 +ና 300 +ገ 300 + 300 + 300 + 299 + 297 +ር 294 + 294 +ግ 294 + 294 + 293 + 291 +ከ 291 + 291 + 291 + 291 +ም 291 +ገ 291 +ነ 291 +ደ 288 + 288 +_እ 285 +_እ 283 + 279 + 279 +ከ 279 + 279 +በ 279 +ን 276 + 276 + 276 +_ 272 + 270 +ብ 270 +_ 269 +ግ 264 + 264 + 262 + 262 +መ 262 + 262 +ይ 261 + 261 + 260 +ማ 260 +ደ 259 + 259 +ራ 254 + 254 +ባ 254 + 254 + 253 + 249 + 247 + 245 + 244 +ላ 242 + 242 +የ 242 + 242 +ማ 238 + 238 + 237 +ረ 237 + 237 + 236 +ተ 236 +ም_ 235 +_ 235 + 234 + 233 + 233 + 230 + 230 +ባ 230 +ሚ 230 +ድ 228 + 228 +_መ 227 + 227 +_መ 226 + 225 +ረ 225 + 225 +። 222 +።_ 222 + 216 +እ 214 +ሚ 214 + 214 + 214 + 213 + 212 + 210 + 209 +ላ 209 + 208 + 207 + 206 +_ 206 + 205 +ብ 205 + 202 + 200 +ታ 200 + 200 +ሰ 200 + 199 +ራ 199 +ሰ 198 + 198 +ት 195 +ወ 195 + 195 + 195 + 194 +ወ 194 + 191 + 191 +_ 189 +ች_ 189 + 188 + 186 + 186 +_ለ 184 +_ለ 183 +ለ 183 + 183 +ን 180 + 179 +የ 179 + 178 + 177 +ን 177 +_ከ 175 + 174 +ጥ 174 + 172 +አ 172 +_ከ 170 + 170 +_ 169 +ን 169 + 166 + 166 +ል 165 +_ 165 + 165 +ና_ 163 +_ 163 + 160 +ቸ 160 +ቸ 160 + 160 + 160 + 159 + 159 + 158 +ቀ 158 + 158 + 156 +ቀ 155 + 155 +ች 154 + 154 +ል_ 154 + 154 +ው 154 +ቸ 154 +_ 154 + 152 + 151 +ው 151 + 150 +_ነ 150 + 150 +_ነ 150 + 150 +_ይ 150 +_ይ 150 + 149 +ታ 149 +። 148 + 147 +ደ 147 + 147 +በ 147 + 146 +_ተ 146 +_ተ 146 +ለ 145 + 145 +ድ 144 + 144 + 144 + 144 +ቅ 143 + 143 +_ 143 +ግ 142 + 142 + 141 +ዳ 141 + 139 +ህ 138 + 138 + 137 +ና 137 + 137 +ን 136 + 136 +አ 135 + 135 + 135 +ስ 134 + 134 +ጠ 133 +ዳ 133 + 133 +ሆ 133 + 133 +ሆ 133 + 133 + 133 +ሆ 132 + 132 +ተ 131 +ያ 131 +ተ 131 + 131 + 129 + 128 + 128 +ክ 128 +ፍ 128 + 128 + 127 + 127 +ጠ 127 + 126 +ካ 126 + 124 +በ 123 + 123 +ያ 123 + 123 + 123 + 122 +ከ 122 + 121 +ገ 121 diff --git a/libtextcat/data/new_fingerprints/lm/arabic.lm b/libtextcat/data/new_fingerprints/lm/arabic.lm new file mode 100644 index 000000000000..85f701965e2e --- /dev/null +++ b/libtextcat/data/new_fingerprints/lm/arabic.lm @@ -0,0 +1,400 @@ +_ +ا +ل +و +ال +_ا +ي +ن +م +_ال +ر +ب +. +ت +د +ع +ه +_و +ن_ +ف +ا_ +ك +ج +.. +ة +ح +أ +س +_م +._ +ق +ة_ +ه_ +لا +ْ +_أ +ان +_ف +ُ +_ب +َ +لم +د_ +ول +ي_ +ى +ى_ +... +وج +_ل +_ع +ل_ +وا +جو +ْ. +ص +الم +_الم +..._ +.._ +ث +ود +ذ +ش +من +وجو +َ_ +في +لا_ +جود +ر_ +لى_ +لى +ان_ +وجود +لو +م_ +_ت +ِ +_من +ْ... +_وا +لع +الو +عل +ْ..._ +ْ.. +ين +الع +_في +ز +ات +_ي +_الع +ُ_ +_ك +_الو +من_ +_ان +مر +ء +في_ +يا +ب_ +را +،_ +ِ_ +، +ض +_في_ +تب +_من_ +لوج +كا +لي +ت_ +لوجو +ّ +ون +الوج +اء +جود_ +أح +_أح +الوجو +له +ود_ +ها +حا +ذا +_ر +على_ +وجود_ +على +رب +لوجود +عر +_ان_ +او +اول +ط +رت +لت +بْ +أحا +_الوج +أحاو +با +وال +_ول +اد +_وال +حاول +_أحاو +_أحا +أحاول +_،_ +حاو +_، +ني +بي +_عل +لن +ته +ما +-_ +- +مرتب +نا +_. +ها_ +مرت +_._ +_- +_-_ +بة +ول_ +_ح +رتب +دا +له_ +ء_ +ك_ +قي +تبة +اول_ +مرتبة +ية +بل +ور +ده +الت +خ +رتبة +الا +رتبة_ +ين_ +عرب +ير +بة_ +تبة_ +قد +ربْ +لعربْ +لعر +العر +أن +لك +حد +ون_ +لعرب +_على_ +_العر +تُ +عن +بْ. +_لا +حاول_ +ذات +العرب +_على +ية_ +عربْ +إ +اب +ئ +سا +نو +كو +المر +لل +يت +_ش +لم_ +_المر +اع +مو +لمر +_الا +ته_ +اج +ٍ +_ق +س_ +ائ +جب +ام +اجب_ +كون +واجب_ +لَ +_لا_ +اني +سي +واج +سم +لَ_ +يس +ال_ +_ولا +عي +وص +عا +جب_ +اس +ير_ +_مر +واجب +اجب +_بل +الن +ولا +_بال +وأ +أع +اك +وق +بلاد +نت +نف +ضا +نه +كون_ +بْ.. +ثل +كل +ولا_ +_ذا +ذاته +المرت +دة +ذاته_ +ور_ +بال +بْ... +_ولا_ +_الت +يه +_الل +_س +اء_ +ات_ +بلا +_وأ +_ذ +صو +ربْ. +_بلاد +لاد +_بلا +غ +لمرتب +_ه +بن +لمرت +عربْ. +_ن +_ذات +اته_ +لله +ْ._ +_با +اته +_إ +وم +الل +الوا +موج +_الله +نْ +لُ +اف +_يكو +لر +قا +عين +ست +يكون +موجو +ليس +ده_ +لُ_ +_وج +_وص +دي +حم +الواج +بين +_الر +_يك +مس +مُ +لله_ +ٍ_ +عد +يل +_الن +عق +اش +يكو +يق +الر +تُ_ +_كا +شي +_يكون +لوا +ار +موجود +يك +هْ +_ذاته +ع_ +جا +الله +فو +وب +_عي +رس +دة_ +لواجب +يكون_ +لواج +رك +ف_ +كان +لص +لش +لث +زا +ياء +ساء +لعق +انت +علم +العق +ما_ +قد_ +لف +الله_ diff --git a/libtextcat/data/new_fingerprints/lm/armenian.lm b/libtextcat/data/new_fingerprints/lm/armenian.lm new file mode 100644 index 000000000000..e69de29bb2d1 --- /dev/null +++ b/libtextcat/data/new_fingerprints/lm/armenian.lm |