newsare.net
В мире информационных технологий тихо, но уверенно происходит фундаментальный переворот. Всего пять лет назад все говорили о облаках, большиНейросети-полиглоты: почему качественный перевод стал новым краеугольным камнем ИТ-инфраструктуры
В мире информационных технологий тихо, но уверенно происходит фундаментальный переворот. Всего пять лет назад все говорили о облаках, больших данных и ML. Сегодня же центр вселенной — генеративный искусственный интеллект (GenAI). Модели вроде учатся не просто обрабатывать, но и творчески генерировать код, картинки, тексты. Их следующая цель — стать настоящими полиглотами, свободно говорящими на десятках языков.Но на этом пути технологии сталкивается с древней проблемой — вавилонским столпотворением. И именно здесь качественный перевод на иностранные языки из разряда сервисов «по требованию» переходит в категорию центральных ИТ-ресурсов.Эра данных: язык как стратегическое сырьеСовременные нейросети растут на данных. Чем их больше и чем они лучше — тем умнее и универсальнее становится модель. Англоязычный интернет — это огромный, чистый и структурированный источник такой информации: GitHub, техдокументация, научные статьи. Но что делать с русскоязычными, китайскими, арабскими сайтами, статьями или софтом? Бизнес, желающий обучить свою AI-модель для мирового рынка, больше не может игнорировать эти «золотые жилы». Здесь и возникает первая точка соприкосновения ИТ и перевода.Чтобы «накормить» нейросеть иностранным текстом, его нужно не просто перевести, а тщательно адаптировать. Техтермины, культурные нюансы, идиомы — грубый машинный перевод здесь не только неточен, но и вреден. Он засоряет датасет «мусором», что приводит к генерации неверных, а иногда и комичных результатов. Читать далее Read more