Как будет развиваться Интернет в ближайшие десятилетия?
Писатели-фантасты исследовали некоторые возможности.
В своём романе 2019 года « Падение » писатель-фантаст Нил Стивенсон представил себе недалекое будущее, в котором интернет все ещё существует. Но он настолько загрязнен дезинформацией, непроверенной информацией и рекламой, что стал практически непригоден для использования.
Персонажи романа Стивенсона решают эту проблему, подписываясь на «редактированные потоки» — отобранные человеком новости и информацию, которые можно считать заслуживающими доверия.
Недостатком является то, что позволить себе такие индивидуальные услуги могут только богатые люди, в результате чего большая часть человечества потребляет некачественный, непроверенный онлайн-контент.
В какой-то степени это уже произошло: многие новостные организации, такие как The New York Times и The Wall Street Journal, разместили свой курируемый контент за платным доступом. Тем временем дезинформация процветает на платформах социальных сетей, таких как X и TikTok.
Достижения Стивенсона как предсказателя впечатляют: он предсказал метавселенную в своём романе 1992 года « Лавина », а ключевым элементом сюжета его « Алмазного века », выпущенного в 1995 году, является интерактивный букварь, который во многом похож на чат-бот .
На первый взгляд, чат-боты, похоже, предлагают решение эпидемии дезинформации. Распространяя фактический контент, чат-боты могли бы предоставлять альтернативные источники высококачественной информации, которые не оцеплены платными экранами.
Однако по иронии судьбы результаты работы этих чат-ботов могут представлять наибольшую опасность для будущего Интернета — на что десятилетиями ранее намекал аргентинский писатель Хорхе Луис Борхес.
Рост популярности чат-ботов
Сегодня значительная часть Интернета по-прежнему состоит из фактического и якобы правдивого контента, например, статей и книг, которые были рецензированы, проверены фактами или проверены каким-либо иным образом.
Разработчики больших языковых моделей (LLM) — движков, лежащих в основе таких ботов, как ChatGPT, Copilot и Gemini, — воспользовались этим ресурсом.
Однако, чтобы творить чудеса, эти модели должны поглощать огромные объёмы высококачественного текста для целей обучения. Огромное количество словесной шелухи уже было выцарапано из онлайн-источников и скормлено начинающим LLM.
Проблема в том, что сеть, какой бы огромной она ни была, является конечным ресурсом. Высококачественный текст, который ещё не был вырыт, становится дефицитным , что приводит к тому, что The New York Times назвала « зарождающимся кризисом контента ».
Это заставило такие компании, как OpenAI, заключать соглашения с издателями, чтобы получить ещё больше сырья для своих прожорливых ботов. Но, согласно одному прогнозу, нехватка дополнительных высококачественных данных для обучения может ударить уже в 2026 году.
Поскольку результаты работы чат-ботов попадают в сеть, эти тексты второго поколения, содержащие выдуманную информацию, называемую « галлюцинациями », а также откровенные ошибки, такие как предложения нанести клей на пиццу, ещё больше загрязняют Интернет.
А если чат-бот общается с неподходящими людьми в сети, он может перенять их отталкивающие взгляды. Microsoft убедилась в этом на собственном горьком опыте в 2016 году, когда ей пришлось отключить Tay , бота, который начал повторять расистский и сексистский контент .
Со временем все эти проблемы могут сделать онлайн-контент ещё менее заслуживающим доверия и менее полезным, чем он есть сегодня. Кроме того, LLM, которые питаются низкокалорийной диетой, могут производить ещё более проблемный продукт, который также попадает в сеть.
Бесконечная — и бесполезная — библиотека
Нетрудно представить себе цикл обратной связи, который приводит к непрерывному процессу деградации, поскольку боты питаются собственными несовершенными результатами.
В статье, опубликованной в журнале Nature в июле 2024 года , были исследованы последствия обучения моделей ИИ на рекурсивно сгенерированных данных. В ней показано, что «необратимые дефекты» могут привести к « коллапсу модели » для систем, обученных таким образом, — подобно тому, как копия изображения и копия этой копии, и копия этой копии потеряют точность исходного изображения.
Насколько все может быть плохо?
Рассмотрим рассказ Борхеса 1941 года « Вавилонская библиотека ». За пятьдесят лет до того, как учёный-компьютерщик Тим Бернерс-Ли создал архитектуру для Интернета, Борхес уже придумал аналоговый эквивалент.
В своём рассказе в 3000 слов писатель представляет мир, состоящий из огромного и, возможно, бесконечного числа шестиугольных комнат. Книжные полки в каждой комнате содержат однородные тома, которые, как интуитивно чувствуют её обитатели, должны содержать все возможные перестановки букв в их алфавите.
Поначалу это осознание вызывает радость: по определению должны существовать книги, подробно описывающие будущее человечества и смысл жизни.
Жители ищут такие книги, но обнаруживают, что подавляющее большинство из них не содержат ничего, кроме бессмысленных комбинаций букв. Истина где-то там, но также и вся мыслимая ложь. И все это заложено в невообразимо большом количестве тарабарщины.
Даже после столетий поисков найдено лишь несколько значимых фрагментов. И даже тогда нет способа определить, являются ли эти связные тексты правдой или ложью. Надежда превращается в отчаяние.
Станет ли сеть настолько загрязненной, что только богатые смогут позволить себе точную и надёжную информацию? Или бесконечное количество чат-ботов будет производить столько испорченной лексики, что поиск точной информации в сети станет похож на поиск иголки в стоге сена?
Интернет часто описывается как одно из величайших достижений человечества. Но, как и любой другой ресурс, важно серьёзно задуматься о том, как он поддерживается и управляется, чтобы не столкнуться с антиутопическим видением, созданным Борхесом.
Бессменный главный редактор, в незапамятные времена работал в издании РБК