ArXiv · Перевод

Неявные представления грамматичности в языковых моделях

Авторы оригиналаYingshan Susan Wang, Linlu Qiu, Zhaofeng Wu, Roger P. Levy, Yoon Kim

ПереводKENDEV AI

Дата2026-05-07

Теги

грамматичностьязыковые моделипредобученные моделиоценка грамматичностикросс-языковая обобщаемость

## Перевод abstract Грамматичность и вероятность — это различные понятия в человеческом языке. Предобученные языковые модели (ЯМ), которые являются вероятностными моделями языка, адаптированными для максимизации вероятности корпуса, генерируют грамматически правильный текст и хорошо различают грамматические и неграмматические предложения в строго контролируемых минимальных парах. Однако их вероятности строк не четко различают грамматические и неграмматические предложения в целом. Но приобретают ли ЯМ неявное различие грамматичности, отличное от вероятности строк? Мы исследуем этот вопрос, изучая внутренние представления ЯМ, обучая линейный зонд на наборе данных грамматических и (синтетических) неграмматических предложений, полученных путем применения возмущений к корпусу естественного текста. Мы обнаруживаем, что этот простой зонд грамматичности обобщается на оценочные ориентиры грамматичности, подготовленные людьми, и превосходит оценки грамматичности, основанные на вероятностях ЯМ. Однако при применении к ориентировкам семантической правдоподобности, в которых оба члена минимальной пары являются грамматическими и отличаются только правдоподобием, зонд показывает худшие результаты, чем вероятность строк. Также зонд, обученный на английском языке, демонстрирует нетривиальную кросс-языковую обобщаемость, превосходя вероятности строк по оценкам грамматичности на многочисленных других языках. Кроме того, баллы зонда слабо коррелируют с вероятностями строк. Эти результаты в совокупности предполагают, что ЯМ в определенной степени приобретают неявное различие грамматичности в своих скрытых слоях. ## Ключевые выводы 1. Предобученные языковые модели способны генерировать грамматически правильные предложения и различать грамматические и неграмматические конструкции, но их вероятности строк не всегда четко отражают это различие. 2. Линейный зонд, обученный на грамматических и синтетических неграмматических предложениях, демонстрирует высокую обобщаемость и превосходит вероятностные оценки ЯМ в задачах оценки грамматичности. 3. Зонд показывает худшие результаты по сравнению с вероятностями строк, когда применяется к задачам семантической правдоподобности, что указывает на различие в обработке грамматичности и правдоподобия. 4. Обученный зонд также демонстрирует успешную кросс-языковую обобщаемость, превосходя вероятности строк в оценках грамматичности на других языках. 5. Слабая корреляция между оценками зонда и вероятностями строк указывает на наличие неявного различия грамматичности в скрытых слоях языковых моделей. ## Практическая значимость Результаты исследования могут быть полезны для разработчиков и исследователей в области обработки естественного языка (NLP), так как демонстрируют, что языковые модели могут неявно улавливать грамматические структуры. Это может быть применимо в системах автоматического перевода, чат-ботах и других приложениях, где необходимо различение грамматических и неграмматических конструкций. Кроме того, понимание внутренней структуры языковых моделей может способствовать улучшению их архитектуры и обучающих процессов. ## Ограничения и критика Одним из ограничений работы является использование синтетических неграмматических предложений, что может не полностью отражать сложность грамматических ошибок в реальных текстах. Также стоит отметить, что результаты могут варьироваться в зависимости от языковых моделей и языков, что требует дальнейшего исследования для более глубокого понимания кросс-языковой обобщаемости. Наконец, исследование не рассматривает более сложные аспекты грамматичности, такие как контекстуальные или прагматические факторы, которые могут влиять на восприятие грамматичности.