summaryrefslogtreecommitdiff
path: root/pt_BR/thes_data_layout_pt_BR.txt
blob: 93cfec1f90208bfd328251236a66445162c98b09 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
Descrição da estrutura dos dados necessários para MyThes
-------------------------------------------------- ------

MyThes é muito simples. Quase todos os "smarts" são realmente
no próprio arquivo de dados do dicionário de sinônimos.

O formato deste arquivo é o seguinte:

- sem dados binários

- o final da linha é uma nova linha '\n' e não um retorno de carro/avanços de linha

- A linha 1 é uma string de caracteres que descreve a codificação usada para o arquivo. Cabe ao programa de chamada converter
de e para esta codificação, se necessário.

     ISO8859-1 é usado pelo arquivo th_en_US_new.dat.

     Strings atualmente reconhecidas pelo OpenOffice.org são:

     ISO8859-1
     ISO8859-2
     ISO8859-3
     ISO8859-4
     ISO8859-5
     ISO8859-6
     ISO8859-7
     ISO8859-8
     ISO8859-9
     ISO8859-10
     KOI8-R
     CP-1251
     ISO8859-14
     ISCII-DEVANAGARI
     UTF8


- Todas as linhas remanescentes do arquivo seguem esta estrutura

entrada|num_mean
pos|syn1_mean|syn2|...
.
.
.
pos|mean_syn1|syn2|...


Onde:

   entrada - todas as versões em minúsculas da palavra ou frase que está sendo descrita
   num_mean - número de significados para esta entrada

   Há um significado por linha e cada significado é composto por

   pos - classe gramatical ou outra descrição específica de significado
   syn1_mean - sinônimo 1 também usado para descrever o próprio significado
   syn2 - sinônimo 2 para esse significado etc.


Para tornar isso ainda mais claro, aqui estão os dados reais para o
entrada "simples".

simples|9
(adj)|simples|elementar|final|supersimplificado|simplista|simplex|simplificado|não analisável |
não decomposto|não complicado|não sofisticado|fácil|simples|não subdividido
(adj)|elementar|simples|não problemático|fácil
(adj)|nua|mera|simples
(adj)|infantil|olhos arregalados|olhos orvalhados|ingênuo|naif
(adj)|estúpido|estúpido|simplório|retardado
(adj)|simples|não subdividido|sem lóbulo|suave
(adj)|simples
(substantivo)|erva|planta herbácea
(substantivo)|simplório|pessoa|indivíduo|alguém|alguém|mortal|humano|alma


Diz que "simples" tem 9 significados diferentes e cada
o significado terá sua classe gramatical e pelo menos 1 sinônimo
com outro se predefinido seguindo na mesma linha.



Depois de criar seu próprio arquivo de texto estruturado, você pode usar
o programa perl "th_gen_idx.pl" que pode ser encontrado neste
diretório para criar um arquivo de índice que é usado para buscar em
seu arquivo de dados pelo código MyThes.

A maneira correta de executar o programa perl é a seguinte:

cat th_en_US_new.dat|./th_gen_idx.pl> th_en_US_new.idx



Então, se você liderar o arquivo de índice resultante, deverá ver o
Segue:

ISO8859-1
142689
'capô|10
Gravenhage de|88
'tween|173
'tween decks|196
.22|231
.22 calibre|319
.22 calibre|365
Calibre 38|411
Calibre 38|457
Calibre .45|503
Calibre .45|549
0|595
1|666
1 crônicas|6283
1 esdras|6336


A linha 1 é a mesma string de codificação tirada do
arquivo de dados de dicionário de sinônimos estruturado.

A linha 2 é uma contagem do número total de entradas
em seu dicionário de sinônimos.

Todas as linhas restantes são do formulário

entrada|byte_offset_into_data_file_where_entry_is_found


Isso é tudo que existe também.


Kevin
kevin.hendricks@sympatico.ca