summaryrefslogtreecommitdiff
path: root/pt_BR/thes_data_layout_pt_BR.txt
diff options
context:
space:
mode:
Diffstat (limited to 'pt_BR/thes_data_layout_pt_BR.txt')
-rw-r--r--pt_BR/thes_data_layout_pt_BR.txt129
1 files changed, 129 insertions, 0 deletions
diff --git a/pt_BR/thes_data_layout_pt_BR.txt b/pt_BR/thes_data_layout_pt_BR.txt
new file mode 100644
index 0000000..93cfec1
--- /dev/null
+++ b/pt_BR/thes_data_layout_pt_BR.txt
@@ -0,0 +1,129 @@
+Descrição da estrutura dos dados necessários para MyThes
+-------------------------------------------------- ------
+
+MyThes é muito simples. Quase todos os "smarts" são realmente
+no próprio arquivo de dados do dicionário de sinônimos.
+
+O formato deste arquivo é o seguinte:
+
+- sem dados binários
+
+- o final da linha é uma nova linha '\n' e não um retorno de carro/avanços de linha
+
+- A linha 1 é uma string de caracteres que descreve a codificação usada para o arquivo. Cabe ao programa de chamada converter
+de e para esta codificação, se necessário.
+
+ ISO8859-1 é usado pelo arquivo th_en_US_new.dat.
+
+ Strings atualmente reconhecidas pelo OpenOffice.org são:
+
+ ISO8859-1
+ ISO8859-2
+ ISO8859-3
+ ISO8859-4
+ ISO8859-5
+ ISO8859-6
+ ISO8859-7
+ ISO8859-8
+ ISO8859-9
+ ISO8859-10
+ KOI8-R
+ CP-1251
+ ISO8859-14
+ ISCII-DEVANAGARI
+ UTF8
+
+
+- Todas as linhas remanescentes do arquivo seguem esta estrutura
+
+entrada|num_mean
+pos|syn1_mean|syn2|...
+.
+.
+.
+pos|mean_syn1|syn2|...
+
+
+Onde:
+
+ entrada - todas as versões em minúsculas da palavra ou frase que está sendo descrita
+ num_mean - número de significados para esta entrada
+
+ Há um significado por linha e cada significado é composto por
+
+ pos - classe gramatical ou outra descrição específica de significado
+ syn1_mean - sinônimo 1 também usado para descrever o próprio significado
+ syn2 - sinônimo 2 para esse significado etc.
+
+
+Para tornar isso ainda mais claro, aqui estão os dados reais para o
+entrada "simples".
+
+simples|9
+(adj)|simples|elementar|final|supersimplificado|simplista|simplex|simplificado|não analisável |
+não decomposto|não complicado|não sofisticado|fácil|simples|não subdividido
+(adj)|elementar|simples|não problemático|fácil
+(adj)|nua|mera|simples
+(adj)|infantil|olhos arregalados|olhos orvalhados|ingênuo|naif
+(adj)|estúpido|estúpido|simplório|retardado
+(adj)|simples|não subdividido|sem lóbulo|suave
+(adj)|simples
+(substantivo)|erva|planta herbácea
+(substantivo)|simplório|pessoa|indivíduo|alguém|alguém|mortal|humano|alma
+
+
+Diz que "simples" tem 9 significados diferentes e cada
+o significado terá sua classe gramatical e pelo menos 1 sinônimo
+com outro se predefinido seguindo na mesma linha.
+
+
+
+Depois de criar seu próprio arquivo de texto estruturado, você pode usar
+o programa perl "th_gen_idx.pl" que pode ser encontrado neste
+diretório para criar um arquivo de índice que é usado para buscar em
+seu arquivo de dados pelo código MyThes.
+
+A maneira correta de executar o programa perl é a seguinte:
+
+cat th_en_US_new.dat|./th_gen_idx.pl> th_en_US_new.idx
+
+
+
+Então, se você liderar o arquivo de índice resultante, deverá ver o
+Segue:
+
+ISO8859-1
+142689
+'capô|10
+Gravenhage de|88
+'tween|173
+'tween decks|196
+.22|231
+.22 calibre|319
+.22 calibre|365
+Calibre 38|411
+Calibre 38|457
+Calibre .45|503
+Calibre .45|549
+0|595
+1|666
+1 crônicas|6283
+1 esdras|6336
+
+
+A linha 1 é a mesma string de codificação tirada do
+arquivo de dados de dicionário de sinônimos estruturado.
+
+A linha 2 é uma contagem do número total de entradas
+em seu dicionário de sinônimos.
+
+Todas as linhas restantes são do formulário
+
+entrada|byte_offset_into_data_file_where_entry_is_found
+
+
+Isso é tudo que existe também.
+
+
+Kevin
+kevin.hendricks@sympatico.ca