La segmentación de las macrounidades en enunciados, que son definiciones

Para cada parágrafo numerado he elaborado una cantidad variable de enunciados. Entiendo por enunciado, un segmento sintácticamente mínimo (frase nominal (FN) y sus eventuales modalizadores, más la frase verbal (FV) y sus eventuales modalizadores, en la terminología de Chomsky, 1965) que también semánticamente, desde el punto de vista arqueológico, debe poder considerarse una unidad mínima. Los enunciados constituyen el resultado de determinadas operaciones de análisis de los fragmentos de texto del corpus; es necesario diferenciar, por lo tanto, el concepto de fragmento de texto y el de enunciado. El primero, se refiere a un elemento cualquiera del corpus, mientras que el segundo, se refiere a un elemento generado por el análisis. Aún cuando no haya recibido más modificación que el hecho de haber sido seleccionado, ha sido recuperado mediante delimitación y recorte del fragmento de texto. En suma, ha sido extraído del corpus mediante algún criterio.

Los enunciados se obtienen de dos maneras: recortando un fragmento textual de un parágrafo, sin intervenir en él, o bien, elaborando un enunciado a partir del fragmento de texto correspondiente del corpus. En el primer caso, se trata de aquellos enunciados que constituyen definiciones explícitas, es decir, las realizadas por el autor del texto en cuestión. En el segundo caso, se trata de enunciados que el autor no expresó como definiciones, pero que se pueden recuperar como tales. Estos enunciados recuperados mediante alguna elaboración, dependen de las maneras en que está dicho el texto del corpus, y como se trata, en ese sentido, de una diversidad de maneras, hubo que realizar algunos ajustes en la recuperación de los enunciados.

Quiere decir que no todos los fragmentos de texto de los textos del corpus tienen forma definicional; de hecho, la mayoría no tiene esta forma. Sin embargo, todos estos fragmentos de texto, hablan de algo, o sea que, como decía antes, algún término o expresión está contenida en su FN. Podríamos elaborar, entonces, un diccionario con la totalidad de los enunciados recuperados del corpus, considerando como sus términos o expresiones de entrada, a los que están contenidos en su FN, siendo aquello de lo cual habla el enunciado. Este diccionario, para el corpus actual está completo.

Pero ¿qué ocurre con toda la masa de términos que no aparecen como aquello de lo que se habla en el enunciado, sino usados, para hablar de ello? Son términos que se emplearon como modalizadores en la FN o la FV o que aparecen en cualquier parte de la FV, incluído en algunos casos, el verbo sustantivado. También esos términos pueden recuperarse como cabeza en las respectivas frases nominales, y elaborarse los enunciados como definiciones de ellos. Podríamos elaborar un diccionario con estos términos (que son, en general, términos simples), pero mediante un procedimiento muy distinto que el del diccionario anterior, ya que ahora tenemos, al menos virtualmente, una cantidad de enunciados igual al total de las contextualizaciones de cada término en los fragmentos de texto del corpus. Por ejemplo, toda vez que aparece "arista" en el corpus, no importa cómo, se elabora un enunciado, y se trata por lo general de enunciados distintos, no reducibles al mismo.

Por ejemplo, el enunciado "La arista del núcleo preparado para la extracción de hojas, propagará la fuerza en una mayor extensión desde el plano de percusión" (23), contiene los términos "arista" (¿y no "arista del núcleo"?), "núcleo" (¿por qué no "núcleo preparado"?), "preparado", "hoja" (y "extracción", ¿no?), "plano" ("fuerza" o "propagación de la fuerza", al igual que "extensión", ¿no interesan?;), "percusión" (y "plano de percusión", ¿por qué no?). Y este mismo enunciado dice algo de cada uno de ellos (independientemente de mi duda respecto de cómo delimite esos términos; a identificación de los sintagmas nominales que se componen de dos o más términos es uno de los problemas del estudio de este lenguaje), que es necesario recuperar.

Cada enunciado ha sido numerado, de tal modo que es identificado mediante una secuencia compuesta por: dos dígitos para el código de texto. A efectos operativos para el manejo de la base de datos, se contemplaba también otra secuencia de tres dígitos, separados del anterior por un punto, que corresponden al parágrafo o enumeración de ese texto que origina el enunciado y, a su vez, separados por otro punto de dos nuevos dígitos, que corresponden al número de enunciado dentro de ese parágrafo de ese texto. Así, se remite fácilmente al texto (y por tanto, al autor) del que procede cada enunciado, y en él, a un parágrafo o enumeración.

El resultado de esta etapa es la obtención de diversos enunciados.