Lenguaje de prueba de AIS que toma gramática de la ecuación

De Periodista ANASTACIO ALEGRIA en febrero 26, 2025

Los sistemas de IA generativos, como los modelos de idiomas grandes y los generadores de texto en la imagen, pueden aprobar exámenes rigurosos que necesitan que alguien se convierta en médico o abogado. Pueden hacerlo mejor que la mayoría de las personas en los Juegos Olímpicos Matemáticos. Pueden escribir a la mitad de una poesía decente, generar imágenes estéticamente agradables y componer música original.

Estas habilidades excepcionales pueden hacer que parezcan ser sistemas generativos de inteligencia artificial estarán listos para hacerse cargo de los asuntos humanos y tener un gran impacto en casi todos los aspectos de la sociedad. Sin embargo, si bien la calidad de su producción a veces se rivaliza con las personas de trabajo, también son propensas a la evaluación segura de la información fácticamente inexacta. Los escépticos también cuestionan su capacidad para razonar.

Los modelos de idiomas grandes están construidos para imitar el lenguaje humano y pensar, pero están lejos del hombre. Desde la disposición, los seres humanos aprenden a través de innumerables experiencias sensoriales e interacciones con el mundo que los rodea. Los modelos de idiomas grandes no aprenden como personas que trabajan, en cambio, están capacitados sobre el enorme costo de los datos, la mayoría de los cuales se extraen de Internet.

Las posibilidades de estos modelos son muy impresionantes y hay agentes que pueden asistir a reuniones para usted, una tienda para usted o manejar reclamos de seguro. Pero antes de enviar las claves al gran lenguaje del modelo en cualquier tarea importante, es importante evaluar cómo su comprensión del mundo en comparación con esas personas.

Soy un investigador que estudia el lenguaje y el significado. Mi grupo de investigación ha desarrollado una medida de periódico que puede ayudar a las personas a comprender las limitaciones de los modelos de idiomas grandes para comprender el significado.

Reduciendo la sedenidad de los kominyms simples

Entonces, ¿qué "tiene sentido" para el lenguaje grande? Nuestra prueba implica una prueba de sustantivos de frases significativos dos palabras. Para la mayoría de las personas que hablan inglés con fluidez, las parejas de imeun-nomenianos como "playa" y "parejas de manzanas" son significativas, pero "playa playa" y "pastel de manzana" no tienen el significado habitual. Las razones de esto no tienen nada que ver con la gramática. Estas son frases que las personas llegaron a aprender y generalmente aceptan como significativas, hablando e interactuándose con el tiempo.

Queríamos ver si el modelo de lenguaje grande tenía el mismo sentido de significado construido por esta capacidad, utilizando sustantivos de que la regla gramatical sería inútil para determinar si la frase es un significado reconocible de algún significado reconocible. Por ejemplo, el sustantivo adjetivo como una "bola roja" es significativa, mientras se da vuelta, "bola roja", hace una combinación de palabras sin sentido.

Benchmark no establece un gran modelo de idioma lo que significan las palabras. En cambio, prueba la posibilidad de un modelo de lenguaje grande para recopilar el significado de las parejas de palabras, sin confiar en la ruptura de la lógica gramatical simple. La prueba no evalúa la respuesta apropiada del objetivo por sí misma, pero juzga si los modelos de lenguaje grande tienen una sensación similar de significativa como las personas.

Utilizamos una colección de 1.789 pares de nombres evaluados previamente por tasas humanas en una escala de 1, sin sentido en absoluto, hasta 5, aporta un significado por completo. Hemos eliminado pares con grados medios para separar claramente entre pares con niveles de significado altos y bajos.

Los modelos de idiomas grandes llegan allí 'Ball Ball' significa algo, pero no son tan claros en el concepto que "Ball Beach" no funciona. Photostock-Israel / Momento a través de Getty Images

Luego establecemos los mejores modelos de grandes idiomas para evaluar estas palabras de la misma manera en que se pidió a los participantes del estudio anterior que los evaluaran, utilizando instrucciones idénticas. Los excelentes modelos de idiomas se hicieron mal. Por ejemplo, la "manzana de la torta" se evaluó como de baja intención de personas, con un grado promedio de aproximadamente 1 en una escala de 0 a 4. Pero todos los modelos de idiomas principales han sido evaluados por la gente del 95%, que haría entre 2 y 4. Diferencia No fue tan amplio para frases significativas como la "honda para perros", aunque había casos de un modelo de lenguaje grande que ofrece tales frases de menor grado del 95% de las personas.

Para ayudar a los modelos de idiomas grandes, agregamos más ejemplos de instrucciones para ver si beneficia más de un contexto sobre lo que se considera muy significativo versus no una pareja significativa. A medida que su rendimiento mejoró un poco, todavía era mucho pobre que esas personas. Para facilitarle la tarea de hacer un gran lenguaje para hacer un juicio binario, digamos que o ninguna frase tiene sentido, en lugar de evaluar el nivel de significado de 0 a 4. El rendimiento mejoró aquí, con GPT -4 y Claude 3 Opus quien funciona mejor que los demás, pero todavía estaban significativamente por debajo del rendimiento humano.

Creativo por un error

Los resultados sugieren que los grandes modelos de lenguaje no tienen las mismas habilidades de hacer sentimientos que los seres humanos. Vale la pena señalar que nuestra prueba se basa en la tarea subjetiva, donde la calificación estándar de oro dio a las personas. No existe una respuesta objetiva, a diferencia de una medida de buena reputación típica para evaluar los modelos de idioma que incluyen el razonamiento, la planificación o el código de producción.

El bajo rendimiento se guía en gran medida por el hecho de que los modelos de idiomas grandes son propensos a la sobreestimación del grado en que los sustantivos calificados calificaron como significativos. Tenían una sensación de cosas que no deberían tener mucho sentido. En una forma de hablar, los modelos eran demasiado creativos. Una posible explicación es que en algún contexto podría dar sentido a las experiencias de las palabras en un contexto particular. La playa cubierta de bolas podría llamarse "Ball Beach". Pero no hay uso común de este nombre de sustantivo entre los hablantes de inglés.

Si los grandes modelos de idiomas reemplazan parcial o completamente a las personas en algunas tareas, tendrán que desarrollarlos aún más para que puedan mejorar el sentimiento del mundo, en el armario que coincide con las personas que hacen las personas. Cuando las cosas son vagas, confusas o simples sin sentido sin sentido, ya sea un error o un ataque malicioso, es importante que los modelos halagen que tengan sentido casi todo en lugar de creativamente.

En otras palabras, es más importante que el agente de IA tenga un sentimiento similar de significado y se comporte como hombre si pudiera ser inseguro, en lugar de siempre proporcionar interpretaciones creativas.