هوش مصنوعی چطور خودکشی می‌کند؟

اگر نسل آینده کتاب نخواند و در پی آن، نویسنده‌ها هم دست از قلم بکشند، مدل‌های هوش مصنوعی در آینده از کجا یاد خواهند گرفت؟ آیا هوش مصنوعی دارد خودش را به نابودی می‌کشد؟

اما نائومی بارون، استاد زبان‌شناسی دانشگاه آمریکن که سال‌ها روی تأثیر تکنولوژی بر خواندن تحقیق کرده، هشدار می‌دهد: «یک طوفان کامل برای کتاب‌خوانی در حال شکل‌گیری است. هوش مصنوعی درست زمانی رسید که بچه‌ها و بزرگسالان از قبل زمان کمتری برای خواندن کتاب صرف می‌کردند.»

به نقل از ایسنا، آمار ملی ارزیابی پیشرفت تحصیلی آمریکا نشان می‌دهد تعداد دانش‌آموزان کلاس چهارم که تقریباً هر روز برای تفریح کتاب می‌خوانند از ۵۳ درصد در سال ۱۹۸۴ به ۳۹ درصد در ۲۰۲۲ کاهش یافته است. برای دانش‌آموزان کلاس هشتم وضعیت فاجعه‌بارتر است؛ از ۳۵ درصد در ۱۹۸۴ به تنها ۱۴ درصد در ۲۰۲۳ رسیده‌اند.

در انگلستان، نظرسنجی ۲۰۲۴ National Literacy Trust نشان داد فقط یک‌سوم نوجوانان ۸ تا ۱۸ ساله از خواندن در اوقات فراغت لذت می‌برند؛ کاهشی نزدیک به ۹ واحد درصد نسبت به سال قبل.

حالا هوش مصنوعی هم وارد معادله شده است. درست همان هوش مصنوعی که برای رشد کردن به کتاب نیاز داشت.

بیایید نگاهی کنیم به اینکه مشهورترین مدل‌های هوش مصنوعی برای یادگیری به چه میزان کتاب و داده نیاز داشته‌اند:

GPT-۴ (OpenAI): طبق اطلاعات فاش‌شده، GPT-۴ با ۱.۸ تریلیون پارامتر ساخته شده؛ یعنی ۱۰ برابر بزرگ‌تر از GPT-۳. این مدل روی ۱۳ تریلیون توکن (واحد متنی) آموزش دیده است. بخشی از این داده‌ها از دیتاست Books۳ آمده که شامل متن بیش از ۱۷۰ هزار کتاب است. منابع دیگر شامل LibGen (بیش از ۴ میلیون کتاب) و تمام گیت‌هاب بوده‌اند. هزینه آموزش این مدل؟ بیش از ۱۰۰ میلیون دلار.

Claude (Anthropic): آنتروپیک در مورد جزئیات فنی کلود کمتر حرف زده، اما اسناد دادگاهی راز را فاش کرده‌اند. در یک پرونده حقوقی علیه آنتروپیک، مشخص شد که این شرکت میلیون‌ها کتاب فیزیکی خریداری کرده، آن‌ها را اسکن کرده (با جدا کردن صحافی برای سرعت بیشتر)، و با نرم‌افزار OCR به متن دیجیتال تبدیل کرده است. هر کتاب به صورت دستی توسط مهندسان بررسی و طبقه‌بندی شده بود. کلود احتمالاً بیش از ۱۷۵ میلیارد پارامتر دارد و روی ۵ تا ۱۵ تریلیون کلمه آموزش دیده است.

Meta AI و Bloomberg: این شرکت‌ها نیز از همان دیتاست Books۳ برای آموزش مدل‌های LLaMA و BloombergGPT خود استفاده کرده‌اند.

پل ترمبلی (نویسنده و معلم آمریکایی) و مونا آواد (نویسندۀ کانادایی – آمریکایی) در ژوئیه ۲۰۲۳ علیه OpenAI شکایت کردند. آن‌ها استدلال می‌کردند که ChatGPT توانایی ارائۀ «خلاصه‌های بسیار دقیق» از کتاب‌هایشان را دارد؛ مدرکی که نشان می‌دهد مدل این شرکت روی آثارشان آموزش دیده است.

اما اینجا ماجرا عجیب می‌شود: همان ابزاری که با خوردن کتاب‌ها بزرگ شده، حالا دارد کتاب‌خوانی را غیرضروری می‌کند. بارون در پژوهش خود می‌نویسد: «امروزه می‌توانید با خواندن خلاصه‌ای که هوش مصنوعی از داستان و مضامین کلیدی تهیه کرده، از پس درس رمان کلاسی خود بربیایید. این نوع امکان، انگیزه مردم برای خواندن خودشان را تضعیف می‌کند.»

این درحالی‌ است که قاضی ویلیام آلساپ در دادگاه فدرال در ژوئن ۲۰۲۵ درباره پرونده آنتروپیک گفته بود: «شکایت نویسندگان تفاوتی با این ندارد که بگویند آموزش نوشتن به دانش‌آموزان منجر به انفجار آثار رقیب خواهد شد.» دادگاه آموزش AI را «به‌طور چشم‌گیری تحول‌آفرین» خواند و در نهایت به نفع آنتروپیک رأی داد!

اگر نسل آینده کتاب نخواند، چه اتفاقی می‌افتد؟

برخی پیش‌بینی‌ها حاکی از آن است که تا سال آینده، حدود ۹۰ درصد کتاب‌های منتشرشده در جهان تا حدی تحت تاثیر هوش مصنوعی باشند؛ از نوشتن و ویرایش گرفته تا بازاریابی و توزیع. اما اگر مردم کتاب نخوانند، نویسنده‌های آینده کمتر می‌شوند. و اگر کتاب جدید کمتر منتشر شود، هوش مصنوعی نسل بعد روی چه داده‌هایی آموزش خواهد دید؟

آیا باید روی خروجی‌های همین مدل‌های امروزی آموزش ببیند؟ پژوهشگران از این سناریو با نام “Model Collapse” یاد می‌کنند؛ زمانی که هوش مصنوعی روی داده‌های تولیدشده توسط خودش آموزش می‌بیند و کیفیت خروجی‌ها به تدریج کاهش می‌یابد. مثل نسخه‌برداری از نسخه، که هر بار کیفیتش پایین‌تر می‌آید.

پارسال، انجمن نویسندگان آمریکا فاش کرد که HarperCollins با مایکروسافت قراردادی بسته است؛ پنج‌هزار دلار برای هر عنوان کتاب غیرداستانی و برای سه سال حق استفاده به عنوان دادۀ آموزشی.

این عدد اهمیت بسیاری دارد. چرا؟ چون آنتروپیک (شرکت خالق هوش مصنوعی کلاد) در سال ۲۰۲۳ در دادگاه استدلال کرده بود که بازار داده‌های آموزشی اصلاً وجود ندارد. استیون پترسون، اقتصاددان همین شرکت، نوشت: «تحلیل اقتصادی نشان می‌دهد که بازار فرضی رقابتی برای مجوزهای پوشش‌دهنده داده برای آموزش مدل‌های زبانی پیشرفته، غیرعملی خواهد بود.» اما توافق HarperCollins این استدلال را نقض کرد. حالا عددی روی میز است و نویسندگان می‌توانند ضرر واقعی را اثبات کنند.

برایان کِیسی و مارک لملی، محققان حقوق مالکیت فکری، در مجله Texas Law Review نوشته‌اند: «مجموعه‌داده‌ها آنقدر بزرگ هستند که هیچ گزینۀ معقولی برای صدور مجوز برای همه داده‌ها وجود ندارد. بنابراین اجازه دادن به هر ادعای کپی‌رایت به معنای این نیست که صاحبان کپی‌رایت پول دریافت می‌کنند، بلکه به معنای این است که استفاده اصلاً مجاز نخواهد بود!»

در نهایت، در حالی که دادگاه‌ها به بررسی دعواها بر سر مبالغ میلیارد دلاری ادامه می‌دهند، از Getty Images علیه Stability AI گرفته تا نیویورک تایمز علیه OpenAI، آیندۀ فرهنگ کتابخوانی در یک دوراهی حساس ایستاده است.

در ایران هم که به نظر سرانۀ مطالعه فراتر نمی‌رود. در همین حال، ChatGPT با ۳۰۰ میلیون کاربر فعال ماهانه و بیش از یک میلیارد بازدید از وب‌سایتش، دارد جای کتاب را می‌گیرد!

شاید راه حل، یافتن تعادلی باشد که هم نویسندگان را به تولید محتوای باکیفیت تشویق کند، هم به نوآوری هوش مصنوعی لطمه نزند. اما تا آن زمان، هوش مصنوعی همچنان در حال تغذیه از همان منبعی است که دارد آن‌ها را نامحبوب و شاید به نظر بی‌اثر می‌کند؛ مثل موجودی که ناخواسته، شاید هم ناآگاهانه، دارد خودش را به سمت نابودی می‌کشاند.

اما سوال اصلی که شاید پاسخ آن در آینده بهتر مشخص شود، این است که آیا ما شاهد خودکشی تدریجی هوش مصنوعی هستیم؟ یا بشر در نهایت راهی برای حفظ هر دو آن‌ها (کتاب و هوش مصنوعی) خواهد یافت؟