Что тебе нужно знать
- Инструменты искусственного интеллекта, такие как ChatGPT и Microsoft Copilot, вызывают массу ажиотажа во всем мире технологий.
- Генеративные системы искусственного интеллекта для обучения своих моделей полагаются на данные обучения, обычно украденные у создателей интернет-контента.
- Однако, поскольку промышленно развитый поток контента, созданного ИИ, наводняет Интернет, исследователи обеспокоены тем, как на модели ИИ могут повлиять их собственные отрыгнутые данные.
- Теперь всестороннее исследование, опубликованное в журнале Nature, похоже, предполагает, что страхи «инбридинга» ИИ действительно могут быть обоснованными.
Как человек, наблюдавший за развитием технологической индустрии за последние несколько десятилетий, я видел немало циклов шумихи и модных словечек, которые обещали произвести революцию в мире. Но ни одно из них не было столь интригующим и потенциально опасным, как нынешняя волна инструментов искусственного интеллекта и генеративных моделей.
Одним из вариантов перефразирования данного утверждения может быть следующее: «Модели искусственного интеллекта, европейские королевские семьи и Джордж Р. Р. Мартин имеют интригующую связь. Это не обязательно связано с каким-либо тревожным увлечением инцестом». Другая возможность может заключаться в следующем: «Несмотря на, казалось бы, несопоставимые миры, модели ИИ, европейские королевские семьи и Джордж Р. Р. Мартин неожиданно имеют что-то общее. Эта общность не предполагает какой-либо одержимости инцестом».
Текущие законодатели технологических тенденций включают модели искусственного интеллекта и связанные с ними инструменты от крупных технологических компаний, таких как Google, Microsoft и Meta. Примечательно, что большие языковые модели (LLM), такие как ChatGPT, Microsoft Copilot и Google Gemini, нарушают традиционные вычислительные взаимодействия, хотя этот сдвиг все еще носит в основном теоретический характер.
В настоящее время технологии искусственного интеллекта предъявляют значительные требования к серверам и сопряжены со значительными финансовыми затратами, что подталкивает лидеров отрасли, таких как OpenAI, к потенциальному банкротству без дополнительных инвестиций. Даже такие технологические гиганты, как Google и Microsoft, сталкиваются с проблемой эффективной монетизации этой технологии, поскольку потребители еще не полностью осознали ценность оплаты существующих инструментов. Некоторые утверждают, что модели ИИ, возможно, уже достигли своей вершины и со временем могут только ухудшиться.
«Коллапс модели» — это в значительной степени теоретическая концепция, которая предсказывает, что по мере того, как увеличивающееся количество контента в сети становится генерируемым ИИ, этот ИИ начнет, по сути, «инбридинг» на генерируемых ИИ обучающих данных, поскольку высококачественных данных, созданных человеком, становится все меньше. . Уже были случаи, когда это происходило в тех частях сети, где локализованных данных недостаточно из-за того, что контент создается на менее популярных языках. Теперь у нас есть более подробные исследования этого явления: новая статья опубликована в журнале Nature.
«Наше исследование показывает, что чрезмерное использование контента, сгенерированного моделями, в целях обучения может привести к необратимым ошибкам в полученных моделях, при этом крайности исходного распределения контента перестанут существовать. Это явление называется «коллапсом модели». Мы показываем, что эта проблема не уникальна для моделей большого языка, но также затрагивает вариационные автоэнкодеры (VAE) и модели гауссовой смеси (GMM)».
Проще говоря, вы можете считать, что «коллапс модели» оказывает на большие языковые модели (LLM) эффект, сравнимый с тем, как сжатие JPEG оказывает на изображения. Поскольку мемы и файлы JPEG многократно передаются и сохраняются в Интернете, они накапливают ошибки и искажения, которые распространяются дальше. Исследование предупреждает, что неизбирательное использование общедоступных данных для обучения LLM может привести к сопоставимому ухудшению качества модели.
Проще говоря, в статье утверждается, что это явление, которое мы теоретически понимаем и наблюдаем его распространенность в различных генеративных моделях, имеет решающее значение для сохранения преимуществ обучения на огромных веб-данных. Значение достоверных данных о взаимодействии людей станет более выраженным, поскольку контент, созданный LLM, становится все более распространенным в данных, полученных из Интернета.
Технологические компании не заботятся о «здоровом» ИИ
Было настоящим зрелищем наблюдать бешеное стремление технологических гигантов, таких как Google и Microsoft, получить прибыль от этого предполагаемого вычислительного сдвига между поколениями, подогреваемого чрезмерным количеством шумихи и ожиданий. По сравнению с прошлыми технологическими тенденциями, такими как блокчейн и метавселенная, которые казались скорее мимолетными причудами, LLM и генеративный искусственный интеллект, несомненно, более существенны. К сожалению, эти компании опережают друг друга в своем стремлении выпустить новые продукты, иногда с далеко не желаемыми результатами. Например, поспешное внедрение Google поисковых запросов ИИ привело к забавным, но неуместным ответам, заставив пользователей задуматься, не посоветовали ли им есть камни. С другой стороны, запуск функции «Возврат» на ПК Microsoft Copilot был полной ошибкой, демонстрирующей поразительное отсутствие чувствительности и дальновидности в отношении того, как технология искусственного интеллекта должна взаимодействовать с потребителями.
Microsoft и Google усилили свои обязательства по снижению воздействия на окружающую среду, поскольку рост использования искусственного интеллекта (ИИ) приводит к резкому росту расходов на электроэнергию и воду для центров обработки данных. К сожалению, Microsoft недавно уволила свою команду по этическому искусственному интеллекту – решение, которое, по мнению некоторых, может помешать долгосрочным достижениям в области корпоративной социальной ответственности.
Как технический энтузиаст, я не могу не выразить обеспокоенность по поводу действий, которые некоторые компании предпринимают во имя искусственного интеллекта (ИИ). Мне кажется, что они ставят собственную финансовую выгоду превыше всего, игнорируя потенциальные риски и ответственность, связанные с разработкой ИИ. Термин «коллапс модели», возможно, даже не заметен на их радаре, поскольку они могут рассматривать его как чужую проблему, которую нужно решить в следующем финансовом году.
Microsoft и Google интенсивно работают над стратегиями, которые потенциально подрывают источники дохода для создателей контента различного масштаба за счет прямого включения их работы в результаты поиска. Это может сделать создание контента экономически неустойчивым для всех, кроме крупных корпораций, что приведет к снижению качества веб-информации и потенциально усугубит феномен «пузыря фильтров». Однако вполне вероятно, что это часть их плана.
Как исследователь, я сильно сомневаюсь, что Microsoft и Google примут во внимание мои выводы, не говоря уже о том, чтобы предложить компенсацию за явное использование моей работы без разрешения. Следовательно, я готовлюсь к довольно мрачному будущему Интернета.
Смотрите также
- Акции Ашинский метзавод цена. Прогноз цены Ашинский метзавод
- Рецензия на фильм «Очень сплющенное Рождество» (2024)
- Акции Промомед цена. Прогноз цены Промомед
- Рецензия на фильм «Птицы, которые боятся смерти» (2024)
- Рецензия на фильм «Быть Робином» (2024)
- И все же семя (2024) Обзор короткометражного фильма
- Акции КарМани цена. Прогноз цены КарМани
- Акции Fix Price Group цена. Прогноз цены Fix Price Group
- Акции IVA Technologies цена. Прогноз цены IVA Technologies
- Игра в ожидании (2024) Рецензия на фильм
2024-07-26 10:39