Estructura

1. Estructura del vocabulari

1.1. Valors generals
Nombre total d'ocurrències del corpus (N): 2.234.498;
Nombre total de lemes (V): 26.328;
Nombre total d'accepcions: 36.057;
Índex de repetició /N/V): 84,87;
Índex de riquesa lèxica (Carrol CTTR: V/√2N): 12,45;
Nombre de lemes neològics: 5.665;
Índex de repetició dels neologismes: 5,06;
Lemes de freqüència molt alta (f_abs> 1700; f_rel > 1/1000): 116; (amb 1.103.167 ocurrències i un percentatge de lectura de 62,86%);

Lemes de freqüència alta (f_abs > 300; f_rel > 0,17/1000): 445;
Lemes de freqüència mitjana (f_abs > 30; f_rel > 0,015/1000): 2.866;
Lemes de freqüència baixa ((f_abs < 30 i >1): 11.836;
Hàpax (H): 9.601;
%H (percentatge d'hàpax sobre el total de V): 37,08%;
Freqüència màxima_abs: 141.811
Freqüència màxima_rel: 80,81/l.000.

1.2. Valors segons la tipologia textual
Textos A:

Nombre d'ocurrències (N_a): 443.728;
nombre de lemes (V_a): 9.042;
nombre d'accepcions: 11.386;
índex de repetició (N_a/V_a): 49,07;
nombre de lemes exclusius: 5.029 (= 55,57%);
índex de repetició dels lemes exclusius: 6,57;
nombre de lemes neològics: 1.313;
índex de repetició dels lemes neològics: 5,75;
índex de riquesa lèxica (Carrol CTTR: V/√2N): 9,63;

Textos B:

Nombre d'ocurrències (N_b): 455.631;
nombre de lemes (V_b): 10.120;
nombre d'accepcions: 15.012;
índex de repetició (N_b/V_b): 43,07;
nombre de lemes exclusius: 3.910 (= 38,64%);
índex de repetició dels lemes exclusius: 4,12;
nombre de lemes neològics: 2.742;
índex de repetició dels lemes neològics: 3,13;
índex de riquesa lèxica (Carrol CTTR: V/√2N): 10,83;

Textos C:

Nombre d'ocurrències (N_c): 456.967;
nombre de lemes (V_c): 10.389;
nombre d'accepcions: 14.917;
índex de repetició (N_c/V_c): 42,32;
nombre de lemes exclusius: 4.163 (= 40,07%);
índex de repetició dels lemes exclusius: 2,64;
nombre de lemes neològics: 1.352;
índex de repetició dels lemes neològics: 4,23;
índex de riquesa lèxica (Carrol CTTR: V/√2N): 11,08;

Textos D:

Nombre d'ocurrències (N_d): 439.796;
nombre de lemes (V_d): 9.807;
nombre d'accepcions: 14.250;
índex de repetició (N_d/V_d): 44,69;
nombre de lemes exclusius: 2.898 (= 30,17%);
índex de repetició dels lemes exclusius: 2,24;
nombre de lemes neològics: 2.162;
índex de repetició dels lemes neològics: 3,14;
índex de riquesa lèxica (Carrol CTTR: V/√2N): 10,48;

Textos E:

Nombre d'ocurrències (N_d): 438.312;
nombre de lemes (V_d): 9.807;
nombre d'accepcions: 14.250;
índex de repetició (N_d/V_d): 44,69;
nombre de lemes exclusius: 2.898 (= 30,17%);
índex de repetició dels lemes exclusius: 2,24;
nombre de lemes neològics: 2.162;
índex de repetició dels lemes neològics: 3,14;
índex de riquesa lèxica (Carrol CTTR: V/√2N): 10,48;

1.3. Valors funcionals

Valors nominals (sust., adj., pron. i loc. nom.):

Nombre d'accepcions: 16.189;
nombre d'ocurrències: 681.148;
índex de repetició: 42,07;
percentatge de lectura: 38,82%

Valors verbals (verbs i loc. verb.):

Nombre d'accepcions: 5.639;
nombre d'ocurrències: 295.437;
índex de repetició: 52,39;
percentatge de lectura: 16,83%

Valors adverbials (adv. pron. adv. i loc. adv.):

Nombre d'accepcions: 1.503;
nombre d'ocurrències:101.522;
índex de repetició: 67,54;
percentatge de lectura: 5,78%

Valors dels connectors i articles (prep. i loc. prep., conj. i loc. conj.):

Nombre d'accepcions: 589;
nombre d'ocurrències: 617.515;
índex de repetició: 1.048,41;
percentatge de lectura: 35,19%

Valors de l'onomàstica (nom. prop.):

Nombre d'accepcions: 8.503;
nombre d'ocurrències: 44.905;
índex de repetició: 5,28;
percentatge de lectura: 2,56%

Formes d'altres procedències (llatí, grec, català, àrab, hebreu...), frases proverbials i elements marginals:

Nombre d'accepcions: 959;
nombre d'ocurrències: 14.246;
índex de repetició: 14,85;
percentatge de lectura: 0,82%

2. Estructura de la base de dades

La base de dades del DiCCA-XV consta de diverses taules interrelacionades que permeten realitzar cerques a partir de qualsevol dels seus camps. Per això, a més de la consulta del diccionari a partir del lemari, la interfície d’usuari permet fer consultes complexes segons diferents criteris:

a) gramaticals: obtenció de llistats de locucions adverbials, o de locucions verbals, o de verbs amb determinat morfema flexiu o derivatiu...

b) lèxics i semàntics: conjunt de paraules d’un determinat camp semàntic, o llistat de verbs que seleccionen un argument determinat, o d’adjectius que exigeixen cert tret semàntic del mot que complementen...

c) etimològics: relació dels llatinismes, o dels manlleus del català o de l’italià, o dels neologismes del segle XV...

d) onomàstics: llistats de topònims de determinat àmbit geogràfic, o d’antropònims propis d’una zona o d’una població, o llistats de personatges mitològics o literaris...

d) textuals: obtenció de llistats de tots els contextos de determinat lema, o dels mots que apareixen en relació de coocurrència (en les dues posicions anteriors i posteriors), o dels que presenten determinada estructura sintàctica...

La possibilitat d’entrecreuar aquests criteris permet obtenir una infinitat de resultats amb els quals esperem facilitar la tasca investigadora de filòlegs i historiadors i, en general, de tots aquells que s’interessen per una època i una àrea geogràfica fonamentals per a la configuració de l’espanyol modern.