Definamos el espacio vectorial definido por los siguientes ejes: cada eje es la variaciones (importa el orden) con repetición (se pueden repetir) de tres elementos de cada una de las letras del alfabeto latino.
Es decir habrá un eje para aaa, para aab, aac, ... aba, ..., aca, ..., ... , pap, ..., per, ..., zij, zoc, ..., zzy, zzz.
Será un espacio vectorial de 28 elevado a 3 dimensiones, un espacio vectorial de 21.952 dimensiones.
Cada palabra, frase, párrafo, incluso libro tendrá un punto en este espacio vectorial.
Los párrafos de mas de un número (grande, por ejemplo 1000) de palabras de un mismo lenguaje, tendrán una dirección (los otros también pero no los tendremos en cuenta). Mi hipótesis es que estas direcciones estarán "cerca" en dicho espacio vectorial, es decir cada lenguaje estarán en una zona mas o menos acotada de dicho espacio.
Además los lenguajes "semejantes" estarán en zonas cercanas, los textos del mismo tipo estarán en zonas mas cercanas aun: Los textos jurídicos en castellano estarán mas cerca entre sí que los textos científicos.
Hacer un programa que dado un texto devuelva el punto de ese texto no es complicado. Este programa intentará demostrar estas hipótesis.
Si se cumplen se podrán hacer estudios sobre cercanía entre idiomas.
Se pueden pensar en los espacios con las variaciones tomadas de cuatro en cuatro, de cinco en cinco ...
Feliz Gambidad
Hace 3 semanas
2 comentarios:
Como idea no está nada mal. Creo que se merece desarrollarla un poco más.
Así a bote pronto se me ocurre que habría que distinguir entre análisis del lenguaje verbal y el escrito, porque no son iguales aún tratándose del mismo idioma. Aparte de que las sílabas de una, dos y tres letras afean el resultado. Habría que buscar una mejor sistematización, ya que después de todo la gramática y la ortografía son un conjunto de reglas.
Y por último, aunque un espacio vectorial de 21.952 dimensiones mole, currándoselo un poco podría aplicarse simplificaciones y dejarlo -pongamos por caso- en uno de 5, y representarlo en un modelo tridimensional con color y tiempo (y ya tienes los cinco); que además quedaría molón que te cagas, y podrían verse las distancias entre grupos visualmente.
La cuestión es ver la distancia entre distintos textos. Molaría ver por tanto la distancia entre dos textos "semejantes", uno hablado y otro escrito. En este sentido, a lo mejor había sorpresas.
No es cuestión de ver en el espacio, sino de calcular la distancia entre dos idiomas, dos textos.
Publicar un comentario