Definamos el espacio vectorial definido por los siguientes ejes: cada eje es la variaciones (importa el orden) con repetición (se pueden repetir) de tres elementos de cada una de las letras del alfabeto latino.
Es decir habrá un eje para aaa, para aab, aac, ... aba, ..., aca, ..., ... , pap, ..., per, ..., zij, zoc, ..., zzy, zzz.
Será un espacio vectorial de 28 elevado a 3 dimensiones, un espacio vectorial de 21.952 dimensiones.
Cada palabra, frase, párrafo, incluso libro tendrá un punto en este espacio vectorial.
Los párrafos de mas de un número (grande, por ejemplo 1000) de palabras de un mismo lenguaje, tendrán una dirección (los otros también pero no los tendremos en cuenta). Mi hipótesis es que estas direcciones estarán "cerca" en dicho espacio vectorial, es decir cada lenguaje estarán en una zona mas o menos acotada de dicho espacio.
Además los lenguajes "semejantes" estarán en zonas cercanas, los textos del mismo tipo estarán en zonas mas cercanas aun: Los textos jurídicos en castellano estarán mas cerca entre sí que los textos científicos.
Hacer un programa que dado un texto devuelva el punto de ese texto no es complicado. Este programa intentará demostrar estas hipótesis.
Si se cumplen se podrán hacer estudios sobre cercanía entre idiomas.
Se pueden pensar en los espacios con las variaciones tomadas de cuatro en cuatro, de cinco en cinco ...
687 - La cascada de "entonces..."
Hace 1 semana