Estructura

1. Estructura del vocabulario

1.1. Valores generales
Número total de ocurrencias del corpus (N): 2.234.436;

Número total de lemas (V): 26.337;
Número total de acepciones: 36.064;
​Índice de repetición /N/V): 84,84;
Índice de riqueza léxica (Carrol CTTR: V/√2N): 12,45;
Número de lemas neológicos: 5.665;
​Índice de repetición de los neologismos: 5,06;
Lemas de frecuencia muy alta (fabs > 1700; frel > 1/1000): 116; (con  1.103.167 ocurrencias y un porcentaje de lectura de 62,86%);

Lemas de frecuencia alta (fabs > 300; frel > 0,17/1000): 445;
Lemas de
frecuencia media (fabs > 30; frel > 0,015/1000): 2.866;
Lemas de frecuencia baja ((fabs < 30 i >1): 11.836;
Hápax (H): 8.996;
%H (porcentaje de hapax sobre el total de V): 37,08%;

Frecuencia máximaabs: 141.811
Frecuencia máximarel: 80,81/l.000.
 

1.2. Valors segons la tipologia textual
Textos A:

Número de ocurrencias (Na): 443.728;
número de lemas (Va): 9.049;
número de acepciones: 11.398;

índice de repetición (Na/Va): 48,75;
número de lemas exclusivos: 5.029 (= 55,57%);
índice de repetición de los lemas exclusivos: 6,57;

número de lemas neológicos: 1.313;
índice de repetición de los lemas neológicos: 5,75;
índice de riqueza léxica (Carrol CTTR: V/√2N): 9,63;

Textos B:

Número de ocurrencias (Nb): 455.633;
número de lemas (Vb): 10.120;
número de acepciones: 15.012;
índice de repetición (Nb/Vb): 43,07;
número de lemas exclusivos: 3.910 (= 38,64%);
índice de repetición de los lemas exclusivos: 4,12;
número de lemas neológicos: 2.742;
índice de repetición de los lemas neológicos: 3,13;
índice de riqueza léxica (Carrol CTTR: V/√2N): 10,83;

Textos C:

Número de ocurrencias (Nc): 456.967;
número de lemas (Vc): 10.389;
número de acepciones: 14.917;
índice de repetición (Nc/Vc): 42,32;
número de lemas exclusivos: 4.163 (= 40,07%);
índice de repetición de los lemas exclusivos 2,64;
número de lemas neológicos: 1.352;
índice de repetición de los lemas neológicos: 4,23;
índice de riqueza léxica (Carrol CTTR: V/√2N): 11,08;

Textos D:

Número de ocurrencias (Nd): 439.796;
número de lemas (Vd): 9.807;
número de acepciones: 14.250;
índice de repetición (Nd/Vd): 44,69;
número de lemas exclusivos: 2.898 (= 30,17%);
índice de repetición de los lemas exclusivos: 2,24;
número de lemas neológicos: 2.162;
índice de repetición de los lemas neológicos: 3,14;
índice de riqueza léxica (Carrol CTTR: V/√2N): 10,48;

Textos E:

Número de ocurrencias (Nd): 438.312;
número de lemas (Vd): 9.807;

número de acepciones: 14.250;
índice de repetición (Nd/Vd): 44,69;
número de lemas exclusivos: 2.898 (= 30,17%);
índice de repetición de los lemas exclusivos: 2,24;

número de lemas neológicos: 2.162;
​índice de repetición de los lemas neológicos: 3,14;
índice de riqueza léxica (Carrol CTTR: V/√2N): 10,48;

 

1.3. Valores funcionales

Valores nominales (sust., adj., pron. y loc. nom.):

Número de acepciones: 16.189;
número de ocurrencias: 681.148;  
índice de repetición: 42,07;
porcentaje de lectura: 38,82%

Valores verbales (verbos y loc. verb.):

Número de acepciones: 5.639;
número de ocurrencias: 295.437;  
índice de repetición: 52,39;
porcentaje de lectura: 16,83%

Valores adverbiales (adv. pron. adv. y loc. adv.):

Número de acepciones: 1.503;
número de ocurrencias: 101.522;  
índice de repetición: 67,54;
porcentaje de lectura: 5,78%

Valores de los conectores y artículos (art., prep. y loc. prep., conj. y loc. conj.):

Número de acepciones: 589;
número de ocurrencias: 617.515;  
índice de repetición: 1.048,41;
porcentaje de lectura: 35,19%

Valores de la onomástica (nom. prop.):

Número de acepciones: 8.503;
número de ocurrencias: 44.905;  
índice de repetición: 5,28;
porcentaje de lectura: 2,56%

Formas de otras procedencias (latín, griego, catalán, árabe, hebreo...), frases proverbiales y elementos marginales:

Número de acepciones: 959;
número de ocurrencias: 14.246;  
índice de repetición: 14,85;
porcentaje de lectura: 0,82%

 

2. Estructura de la base de datos

La base de datos del DiCCA-XV consta de varias tablas interrelacionadas que permiten realizar búsquedas a partir de cualquiera de sus campos. Por ello, además de la consulta del diccionario a partir del lemario, la interfaz de usuario permite realizar consultas complejas según distintos criterios:

a) gramaticales: obtención de listados de locuciones adverbiales, o de locuciones verbales, o de verbos con determinado morfema flexivo o derivativo...

b) léxicos y semánticos: conjunto de términos de un determinado campo semántico, o listado de verbos que seleccionan un argumento determinado, o de adjetivos que exigen cierto rasgo semántico del término que complementan...

c) etimológicos: relación de los latinismos, o de los préstamos del catalán o del italiano, o de los neologismos del siglo XV...

d) onomásticos: listados de topónimos de determinado ámbito geográfico, o de antropónimos propios de una zona o de una población, o listados de personajes mitológicos o literarios...

e) textuales: obtención de listados de todos los contextos de determinado lema, o de los términos que aparecen en relación de coocurrencia (en las dos posiciones anteriores y posteriores), o de los que presentan determinada estructura sintáctica...

La posibilidad de entrecruzar estos criterios permite obtener un sinfín de resultados que esperamos que facilite la tarea investigadora de filólogos e historiadores y, en general, de cuantos se interesen por una época y una área geográfica fundamentales para la configuración del español moderno.