summaryrefslogtreecommitdiff
path: root/pt_BR/thes_data_layout_pt_BR.txt
blob: 93cfec1f90208bfd328251236a66445162c98b09 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
Descrição da estrutura dos dados necessários para MyThes
-------------------------------------------------- ------

MyThes é muito simples. Quase todos os "smarts" são realmente
no próprio arquivo de dados do dicionário de sinônimos.

O formato deste arquivo é o seguinte:

- sem dados binários

- o final da linha é uma nova linha '\n' e não um retorno de carro/avanços de linha

- A linha 1 é uma string de caracteres que descreve a codificação usada para o arquivo. Cabe ao programa de chamada converter
de e para esta codificação, se necessário.

     ISO8859-1 é usado pelo arquivo th_en_US_new.dat.

     Strings atualmente reconhecidas pelo OpenOffice.org são:

     ISO8859-1
     ISO8859-2
     ISO8859-3
     ISO8859-4
     ISO8859-5
     ISO8859-6
     ISO8859-7
     ISO8859-8
     ISO8859-9
     ISO8859-10
     KOI8-R
     CP-1251
     ISO8859-14
     ISCII-DEVANAGARI
     UTF8


- Todas as linhas remanescentes do arquivo seguem esta estrutura

entrada|num_mean
pos|syn1_mean|syn2|...
.
.
.
pos|mean_syn1|syn2|...


Onde:

   entrada - todas as versões em minúsculas da palavra ou frase que está sendo descrita
   num_mean - número de significados para esta entrada

   Há um significado por linha e cada significado é composto por

   pos - classe gramatical ou outra descrição específica de significado
   syn1_mean - sinônimo 1 também usado para descrever o próprio significado
   syn2 - sinônimo 2 para esse significado etc.


Para tornar isso ainda mais claro, aqui estão os dados reais para o
entrada "simples".

simples|9
(adj)|simples|elementar|final|supersimplificado|simplista|simplex|simplificado|não analisável |
não decomposto|não complicado|não sofisticado|fácil|simples|não subdividido
(adj)|elementar|simples|não problemático|fácil
(adj)|nua|mera|simples
(adj)|infantil|olhos arregalados|olhos orvalhados|ingênuo|naif
(adj)|estúpido|estúpido|simplório|retardado
(adj)|simples|não subdividido|sem lóbulo|suave
(adj)|simples
(substantivo)|erva|planta herbácea
(substantivo)|simplório|pessoa|indivíduo|alguém|alguém|mortal|humano|alma


Diz que "simples" tem 9 significados diferentes e cada
o significado terá sua classe gramatical e pelo menos 1 sinônimo
com outro se predefinido seguindo na mesma linha.



Depois de criar seu próprio arquivo de texto estruturado, você pode usar
o programa perl "th_gen_idx.pl" que pode ser encontrado neste
diretório para criar um arquivo de índice que é usado para buscar em
seu arquivo de dados pelo código MyThes.

A maneira correta de executar o programa perl é a seguinte:

cat th_en_US_new.dat|./th_gen_idx.pl> th_en_US_new.idx



Então, se você liderar o arquivo de índice resultante, deverá ver o
Segue:

ISO8859-1
142689
'capô|10
Gravenhage de|88
'tween|173
'tween decks|196
.22|231
.22 calibre|319
.22 calibre|365
Calibre 38|411
Calibre 38|457
Calibre .45|503
Calibre .45|549
0|595
1|666
1 crônicas|6283
1 esdras|6336


A linha 1 é a mesma string de codificação tirada do
arquivo de dados de dicionário de sinônimos estruturado.

A linha 2 é uma contagem do número total de entradas
em seu dicionário de sinônimos.

Todas as linhas restantes são do formulário

entrada|byte_offset_into_data_file_where_entry_is_found


Isso é tudo que existe também.


Kevin
kevin.hendricks@sympatico.ca
SFX D y ch [dntv]ky
-SFX D ky cch [^dntv]ky
-SFX D y ech [^ghk]y
+SFX D y ch ky
+SFX D y ch ry
+SFX D y ech [^ghkr]y
SFX D y ch [sz]y
-SFX D y ami [dntv]ky
SFX H Y 24
SFX H 0 u [^ey]
@@ -389,14 +402,15 @@ SFX L 0 [^e]n
SFX L 0 m [^e]n
SFX L 0 ech [^e]n
-SFX S Y 60
-SFX S 0 e [^ecn]
-SFX S 0 i [^ecn]
-SFX S 0 em [^ecn]
-SFX S 0 [^ecn]
-SFX S 0 m [^ecn]
+SFX S Y 45
+SFX S 0 e [^ec]
+SFX S 0 i [^ec]
+SFX S 0 em [^ec]
+SFX S 0 [^ec]
+SFX S 0 m [^ec]
SFX S 0 ch [^ecnlsz]
-SFX S 0 ech [sz]
+SFX S 0 y n
+SFX S 0 ech [nsz]
SFX S 0 ech l
SFX S 0 ch [^]l
SFX S ec ce ec
@@ -427,22 +441,6 @@ SFX S 0 [^e]
SFX S 0 m [^e]
SFX S nm [^e]
SFX S nch [^e]
-SFX S en ne [^mn]en
-SFX S en nu [^mn]en
-SFX S en ni [^mn]en
-SFX S en nem [^mn]en
-SFX S en ny [^mn]en
-SFX S en n [^mn]en
-SFX S en nm [^mn]en
-SFX S en nech [^mn]en
-SFX S 0 e [mn]en
-SFX S 0 u [mn]en
-SFX S 0 i [mn]en
-SFX S 0 em [mn]en
-SFX S 0 y [mn]en
-SFX S 0 [mn]en
-SFX S 0 m [mn]en
-SFX S 0 ech [mn]en
SFX S 0 m
SFX S 0 ch
SFX S 0 mi
@@ -774,7 +772,7 @@ SFX Z dm
SFX Z dch
SFX Z dmi
-SFX C Y 106
+SFX C Y 109
SFX C ce c ice
SFX C e [^i]ce
SFX C e [ijl]e
@@ -788,6 +786,9 @@ SFX C m
SFX C ch
SFX C 0 mi
SFX C 0 m
+SFX C e e e
+SFX C e i e
+SFX C e e
SFX C o a o
SFX C o u o
SFX C o em o
@@ -936,7 +937,7 @@ SFX M m
SFX M m
SFX M ch
-SFX K Y 84
+SFX K Y 85
SFX K 0 te [e]
SFX K 0 ti [e]
SFX K 0 tem [e]
@@ -974,11 +975,11 @@ SFX K 0 tech a
SFX K 0 ty a
SFX K 0 i [^aes]
SFX K 0 [^aes]
-SFX K 0 em [^aesmcp]
-SFX K 0 ech [^aesmcp]
-SFX K 0 mi [^aesmc]
-SFX K 0 ch [p]
-SFX K 0 m [p]
+SFX K 0 em [^aesmcpv]
+SFX K 0 ech [^aesmcpv]
+SFX K 0 mi [^aesmcv]
+SFX K 0 ch [pv]
+SFX K 0 m [pv]
SFX K 0 ch oc
SFX K 0 m oc
SFX K 0 ech moc
@@ -999,6 +1000,7 @@ SFX K tm
SFX K tch
SFX K tmi [^]
SFX K 0 mi
+SFX K 0 mi v
SFX K es si es
SFX K es s es
SFX K es sm es
@@ -1378,7 +1380,7 @@ SFX J out ulo out
SFX J out uli out
SFX J out uly out
-SFX A Y 763
+SFX A Y 767
SFX A st tu st
SFX A st te st
SFX A st te st
@@ -1933,6 +1935,9 @@ SFX A nit ate nit
SFX A t 0 tit
SFX A it me tit
SFX A it te tit
+SFX A t 0 htit
+SFX A it me htit
+SFX A it te htit
SFX A tit [^i]stit
SFX A tit me [^i]stit
SFX A tit te [^i]stit
@@ -2116,6 +2121,7 @@ SFX A nout la [aeiouy]rnout
SFX A nout lo [aeiouy]rnout
SFX A nout li [aeiouy]rnout
SFX A nout ly [aeiouy]rnout
+SFX A nout l [aeiouyr][^aeiouyrl][^aeiouyrl]nout
SFX A nout l [aeiouyr][^aeiouyrl]nout
SFX A out ul [^aeiouy]l[^aeiouyrl]nout
SFX A nout l l[^aeiouyrl]nout
@@ -2259,7 +2265,7 @@ SFX T t yti t
SFX T t yty t
SFX T t ytu t
-SFX B Y 257
+SFX B Y 250
SFX B e e e
SFX B e u [^cj]e
SFX B e i ce
@@ -2328,10 +2334,10 @@ SFX B u n u
SFX B u nme u
SFX B u nte u
SFX B u i lu
-SFX B u i [^aeiouy][^aeiouy]u
-SFX B u me [^aeiouy][bdfmnptvw]u
+SFX B u i [^aeiouy][^aeiouyt]u
+SFX B u me [^aeiouy][bdfmnpvw]u
SFX B u eme [^aeiouy][cghjklrsz]u
-SFX B u te [^aeiouy][bdfmnptvw]u
+SFX B u te [^aeiouy][bdfmnpvw]u
SFX B u ete [^aeiouy][cghjklrsz]u
SFX B du [aeiouy]du
SFX B du me [aeiouy]du
@@ -2387,24 +2393,17 @@ SFX B t ila t
SFX B t ilo t
SFX B t ili t
SFX B t ily t
-SFX B t ji t
-SFX B t je t
-SFX B t je t
-SFX B t jeme t
-SFX B t jete t
-SFX B t j t
-SFX B t j t
-SFX B t jme t
-SFX B t jte t
-SFX B t ji et
-SFX B t je et
-SFX B t je et
-SFX B t jeme et
-SFX B t jete et
-SFX B t j et
-SFX B t j et
-SFX B t jme et
-SFX B t jte et
+SFX B t m t
+SFX B t t
+SFX B t t
+SFX B t me t
+SFX B t te t
+SFX B t 0 t
+SFX B t me t
+SFX B t te t
+SFX B t 0 t
+SFX B t c t
+SFX B t ce t
SFX B t yji t
SFX B t yje t
SFX B t yje t
diff --git a/cs_CZ/cs_CZ.dic b/cs_CZ/cs_CZ.dic
index 77c2431..bbb4e4a 100644
--- a/cs_CZ/cs_CZ.dic
+++ b/cs_CZ/cs_CZ.dic