DeepSeek: Революційний прорив у сфері штучного інтелекту

AIPU WATON GROUP

Вступ

Постійна тривога серед конкуруючих великих моделей, постачальників хмарних послуг, що змагаються за частку ринку, та працьовитих виробників чіпів — ефект DeepSeek зберігається.

З завершенням Весняного фестивалю ажіотаж навколо DeepSeek залишається сильним. Нещодавнє свято підкреслило значне відчуття конкуренції в технологічній галузі, багато хто обговорює та аналізує цього «сома». Кремнієва долина переживає безпрецедентне відчуття кризи: прихильники відкритого коду знову висловлюють свою думку, і навіть OpenAI переоцінює, чи була його стратегія закритого коду найкращим вибором. Нова парадигма нижчих обчислювальних витрат викликала ланцюгову реакцію серед чіп-гігантів, таких як Nvidia, що призвело до рекордних втрат ринкової вартості за один день в історії фондового ринку США, тоді як урядові установи розслідують відповідність чіпів, що використовуються DeepSeek, вимогам. На тлі неоднозначних відгуків про DeepSeek за кордоном, усередині країни він переживає надзвичайне зростання. Після запуску моделі R1 пов'язаний додаток зазнав сплеску трафіку, що свідчить про те, що зростання в секторах додатків сприятиме розвитку всієї екосистеми ШІ. Позитивним аспектом є те, що DeepSeek розширить можливості додатків, що свідчить про те, що покладатися на ChatGPT не буде такою дорогою в майбутньому. Цей зсув знайшов відображення в нещодавній діяльності OpenAI, включаючи надання моделі міркувань під назвою o3-mini безкоштовним користувачам у відповідь на DeepSeek R1, а також подальші оновлення, які зробили ланцюжок думок o3-mini публічним. Багато закордонних користувачів висловили вдячність DeepSeek за ці розробки, хоча цей ланцюжок думок слугує лише коротким викладом.

Оптимістично, очевидно, що DeepSeek об'єднує вітчизняних гравців. Зосереджуючись на зниженні витрат на навчання, різні виробники чіпів, проміжні хмарні постачальники та численні стартапи активно приєднуються до екосистеми, підвищуючи економічну ефективність використання моделі DeepSeek. Згідно з роботами DeepSeek, повне навчання моделі V3 вимагає лише 2,788 мільйона годин роботи на графічному процесорі H800, а процес навчання є дуже стабільним. Архітектура MoE (Суміш експертів) має вирішальне значення для зниження витрат на попереднє навчання в десять разів порівняно з Llama 3 з 405 мільярдами параметрів. Наразі V3 є першою публічно визнаною моделлю, яка демонструє таку високу розрідженість у MoE. Крім того, MLA (Багатошарова увага) працює синергетично, особливо в аспектах міркування. «Чим розрідженіший MoE, тим більший розмір пакета, необхідний під час міркування, щоб повністю використовувати обчислювальну потужність, причому розмір KVCache є ключовим обмежувальним фактором; MLA значно зменшує розмір KVCache», – зазначив дослідник з Chuanjing Technology в аналізі для AI Technology Review. Загалом, успіх DeepSeek полягає в поєднанні різних технологій, а не лише однієї. Експерти галузі високо оцінюють інженерні можливості команди DeepSeek, відзначаючи їхню майстерність у паралельному навчанні та оптимізації операторів, досягаючи новаторських результатів шляхом удосконалення кожної деталі. Підхід DeepSeek з відкритим кодом ще більше стимулює загальний розвиток великих моделей, і очікується, що якщо подібні моделі розширяться до зображень, відео тощо, це значно стимулюватиме попит у всій галузі.

Можливості для сторонніх сервісів з обґрунтування

Дані свідчать про те, що з моменту свого випуску DeepSeek набрав 22,15 мільйона щоденних активних користувачів (DAU) лише за 21 день, досягнувши 41,6% бази користувачів ChatGPT та перевищивши 16,95 мільйона щоденних активних користувачів Doubao, таким чином ставши найшвидше зростаючим додатком у світі, очолюючи Apple App Store у 157 країнах/регіонах. Однак, хоча користувачі стікалися масово, кіберхакери невпинно атакували додаток DeepSeek, створюючи значне навантаження на його сервери. Галузеві аналітики вважають, що це частково пов'язано з тим, що DeepSeek використовує картки для навчання, не маючи достатньої обчислювальної потужності для міркувань. Інсайдер галузі повідомив AI Technology Review: «Часті проблеми з серверами можна легко вирішити, стягуючи плату або фінансуючи придбання більшої кількості машин; зрештою, це залежить від рішень DeepSeek». Це являє собою компроміс між зосередженням на технології та продукції. DeepSeek значною мірою покладався на квантове квантування для самозабезпечення, отримавши мало зовнішнього фінансування, що призвело до відносно низького тиску на грошовий потік та чистішого технологічного середовища. Наразі, з огляду на вищезгадані проблеми, деякі користувачі закликають DeepSeek у соціальних мережах підвищити пороги використання або запровадити платні функції для покращення зручності користувачів. Крім того, розробники почали використовувати офіційний API або сторонні API для оптимізації. Однак, відкрита платформа DeepSeek нещодавно оголосила: «Поточні серверні ресурси обмежені, а поповнення сервісів API призупинено».

 

Це, безсумнівно, відкриває більше можливостей для сторонніх постачальників у секторі інфраструктури штучного інтелекту. Нещодавно численні вітчизняні та міжнародні хмарні гіганти запустили API моделей DeepSeek — зарубіжні гіганти Microsoft та Amazon були серед перших, хто приєднався наприкінці січня. Вітчизняний лідер, Huawei Cloud, зробив перший крок, випустивши сервіси міркувань DeepSeek R1 та V3 у співпраці з Flow, що базується на Silicon, 1 лютого. Звіти AI Technology Review свідчать про те, що сервіси Flow, що базується на Silicon, зазнали напливу користувачів, що фактично «зруйнувало» платформу. Три великі технологічні компанії — BAT (Baidu, Alibaba, Tencent) та ByteDance — також опублікували низькові пропозиції з обмеженим часом, починаючи з 3 лютого, що нагадує минулорічні цінові війни постачальників хмарних послуг, розпалені запуском моделі V2 від DeepSeek, де DeepSeek почали називати «різником цін». Шалені дії постачальників хмарних послуг перегукуються з попередніми міцними зв'язками між Microsoft Azure та OpenAI, де у 2019 році Microsoft зробила значні інвестиції в розмірі 1 мільярда доларів у OpenAI та отримала вигоду після запуску ChatGPT у 2023 році. Однак ці тісні стосунки почали погіршуватися після того, як Meta відкрила Llama, що дозволило іншим постачальникам поза екосистемою Microsoft Azure конкурувати з їхніми великими моделями. У цьому випадку DeepSeek не лише перевершив ChatGPT за популярністю продукту, але й представив моделі з відкритим кодом після випуску o1, подібно до ажіотажу навколо відродження Llama GPT-3.

 

Насправді, хмарні провайдери також позиціонують себе як шлюзи трафіку для застосунків штучного інтелекту, а це означає, що поглиблення зв'язків з розробниками призводить до превентивних переваг. Звіти показують, що Baidu Smart Cloud мала понад 15 000 клієнтів, які використовували модель DeepSeek через платформу Qianfan у день запуску моделі. Крім того, кілька менших фірм пропонують рішення, включаючи Flow на основі кремнію, Luchen Technology, Chuanjing Technology та різних постачальників інфраструктури штучного інтелекту, які запустили підтримку моделей DeepSeek. AI Technology Review дізнався, що поточні можливості оптимізації для локалізованого розгортання DeepSeek існують переважно у двох сферах: одна з них - оптимізація характеристик розрідженості моделі MoE з використанням змішаного підходу для локального розгортання моделі MoE з 671 мільярдом параметрів, використовуючи гібридний висновок GPU/CPU. Крім того, життєво важлива оптимізація MLA. Однак дві моделі DeepSeek все ще стикаються з деякими проблемами в оптимізації розгортання. «Через розмір моделі та численні параметри оптимізація справді є складною, особливо для локальних розгортань, де досягнення оптимального балансу між продуктивністю та вартістю буде складним завданням», - заявив дослідник з Chuanjing Technology. Найбільша перешкода полягає в подоланні обмежень обсягу пам'яті. «Ми застосовуємо гетерогенний підхід до співпраці, щоб повністю використовувати процесори та інші обчислювальні ресурси, розміщуючи лише нерозділені частини розрідженої матриці MoE на процесорі/DRAM для обробки за допомогою високопродуктивних операторів процесора, тоді як щільні частини залишаються на графічному процесорі», – пояснив він далі. Звіти вказують на те, що фреймворк з відкритим кодом KTransformers від Chuanjing в основному впроваджує різні стратегії та оператори в оригінальну реалізацію Transformers через шаблон, значно підвищуючи швидкість виведення за допомогою таких методів, як CUDAGraph. DeepSeek створив можливості для цих стартапів, оскільки переваги зростання стають очевидними; багато фірм повідомили про помітне зростання кількості клієнтів після запуску DeepSeek API, отримуючи запити від попередніх клієнтів, які шукали оптимізації. Галузеві інсайдери зазначили: «У минулому дещо усталені групи клієнтів часто були замкнені на стандартизованих послугах більших компаній, тісно пов'язаних своїми перевагами у вартості завдяки масштабу. Однак після завершення розгортання DeepSeek-R1/V3 перед Весняним фестивалем ми раптово отримали запити на співпрацю від кількох відомих клієнтів, і навіть раніше неактивні клієнти ініціювали зв'язок, щоб представити наші послуги DeepSeek». Наразі схоже, що DeepSeek робить продуктивність виведення моделей дедалі важливішою, і з ширшим впровадженням великих моделей це продовжуватиме суттєво впливати на розвиток галузі штучного інтелекту та інфраструктури. Якщо модель рівня DeepSeek можна буде розгорнути локально за низькою ціною, це значно допоможе зусиллям уряду та підприємств у сфері цифрової трансформації. Однак проблеми залишаються, оскільки деякі клієнти можуть мати високі очікування щодо можливостей великих моделей, що робить більш очевидним, що балансування продуктивності та вартості стає життєво важливим у практичному впровадженні. 

Щоб оцінити, чи DeepSeek кращий за ChatGPT, важливо зрозуміти їхні ключові відмінності, сильні сторони та варіанти використання. Ось повне порівняння:

Особливість/Аспект Глибокий пошук ChatGPT
Власність Розроблено китайською компанією Розроблено OpenAI
Модель джерела Відкритий код Власник
Вартість Безкоштовне використання; дешевші варіанти доступу до API Ціна за підпискою або оплатою за використання
Налаштування Висока настроюваність, що дозволяє користувачам налаштовувати та розвивати його Обмежена можливість налаштування
Продуктивність виконання конкретних завдань Відмінно справляється з певними завданнями, такими як аналіз даних та пошук інформації Універсальний з високими показниками в творчому письмі та розмовних завданнях
Підтримка мов Сильна увага до китайської мови та культури Широка підтримка мов, але з орієнтацією на США
Вартість навчання Нижчі витрати на навчання, оптимізовані для ефективності Вищі витрати на навчання, що вимагають значних обчислювальних ресурсів
Варіація відповіді Може запропонувати різні відповіді, можливо, під впливом геополітичного контексту Узгоджені відповіді на основі навчальних даних
Цільова аудиторія Орієнтовано на розробників та дослідників, які прагнуть гнучкості Орієнтовано на звичайних користувачів, які шукають можливості спілкування
Варіанти використання Більш ефективний для генерації коду та швидких завдань Ідеально підходить для створення тексту, відповідей на запити та участі в діалозі

Критичний погляд на "зрив Nvidia"

Наразі, окрім Huawei, кілька вітчизняних виробників чіпів, такі як Moore Threads, Muxi, Biran Technology та Tianxu Zhixin, також адаптуються до двох моделей DeepSeek. Виробник чіпів повідомив AI Technology Review: «Структура DeepSeek демонструє інновації, проте вона залишається LLM. Наша адаптація до DeepSeek в першу чергу зосереджена на додатках для мислення, що робить технічну реалізацію досить простою та швидкою». Однак підхід MoE вимагає вищих вимог до зберігання та розподілу, а також забезпечення сумісності під час розгортання з вітчизняними чіпами, що створює численні інженерні проблеми, які потребують вирішення під час адаптації. «Наразі вітчизняна обчислювальна потужність не відповідає Nvidia за зручністю використання та стабільністю, що вимагає участі початкового заводу для налаштування програмного середовища, усунення несправностей та оптимізації базової продуктивності», — сказав галузевий спеціаліст, спираючись на практичний досвід. Водночас: «Через великий масштаб параметрів DeepSeek R1 вітчизняна обчислювальна потужність вимагає більшої кількості вузлів для паралелізації. Крім того, вітчизняні апаратні характеристики все ще дещо відстають; наприклад, Huawei 910B наразі не може підтримувати висновок FP8, представлений DeepSeek». Однією з найяскравіших особливостей моделі DeepSeek V3 є впровадження змішаної системи прецизійного навчання FP8, яка була ефективно перевірена на надзвичайно великій моделі, що є значним досягненням. Раніше такі великі гравці, як Microsoft та Nvidia, пропонували подібну роботу, але в галузі залишаються сумніви щодо доцільності. Зрозуміло, що порівняно з INT8, основною перевагою FP8 є те, що квантування після навчання може досягти майже безвтратної точності, водночас значно підвищуючи швидкість логічного висновку. У порівнянні з FP16, FP8 може реалізувати прискорення до двох разів на Nvidia H20 та більш ніж у півтора раза на H100. Примітно, що оскільки дискусії щодо тенденції поєднання вітчизняної обчислювальної потужності та вітчизняних моделей набирають обертів, спекуляції щодо того, чи може Nvidia бути порушена, і чи можна обійти бар'єр CUDA, стають все більш поширеними. Один незаперечний факт полягає в тому, що DeepSeek дійсно спричинив суттєве падіння ринкової вартості Nvidia, але цей зсув викликає питання щодо цілісності високоякісної обчислювальної потужності Nvidia. Раніше прийняті наративи щодо накопичення обчислювальних ресурсів, зумовлених капіталом, ставляться під сумнів, проте Nvidia залишається складною для повної заміни в навчальних сценаріях. Аналіз глибокого використання CUDA компанією DeepSeek показує, що гнучкість, така як використання SM для зв'язку або пряме маніпулювання мережевими картами, не є можливою для звичайних графічних процесорів. Галузеві точки зору підкреслюють, що рів Nvidia охоплює всю екосистему CUDA, а не лише саму CUDA, а інструкції PTX (Parallel Thread Execution), які використовує DeepSeek, все ще є частиною екосистеми CUDA. «У короткостроковій перспективі обчислювальну потужність Nvidia неможливо обійти — це особливо очевидно в навчанні; однак розгортання вітчизняних карт для міркувань буде відносно простішим, тому прогрес, ймовірно, буде швидшим. Адаптація вітчизняних карт в першу чергу зосереджена на логічних висновках; нікому ще не вдалося навчити модель продуктивності DeepSeek на вітчизняних картках у великому масштабі», — зазначив галузевий аналітик AI Technology Review. Загалом, з точки зору логічних висновків, обставини є обнадійливими для великих моделей вітчизняних чіпів. Можливості для вітчизняних виробників мікросхем у сфері логічного висновку більш очевидні через надмірно високі вимоги до навчання, що перешкоджає входу на ринок. Аналітики стверджують, що достатньо простого використання вітчизняних карт логічного висновку; за необхідності придбання додаткової машини є можливим, тоді як моделі навчання створюють унікальні проблеми — керування більшою кількістю машин може стати обтяжливим, а вищий рівень помилок може негативно вплинути на результати навчання. Навчання також має певні вимоги до масштабу кластера, тоді як вимоги до кластерів для логічного висновку не такі суворі, що полегшує вимоги до графічного процесора. Наразі продуктивність однієї карти Nvidia H20 не перевершує продуктивність Huawei або Cambrian; її сила полягає в кластеризації. Виходячи з загального впливу на ринок обчислювальної потужності, засновник Luchen Technology, Ю Ян, зазначив в інтерв'ю AI Technology Review: «DeepSeek може тимчасово підірвати створення та оренду надвеликих навчальних обчислювальних кластерів. У довгостроковій перспективі, значно зменшуючи витрати, пов'язані з навчанням великих моделей, міркуваннями та додатками, попит на ринку, ймовірно, зросте. Тому наступні ітерації ШІ, засновані на цьому, будуть постійно стимулювати стійкий попит на ринку обчислювальної потужності». Крім того, «підвищений попит DeepSeek на послуги з міркування та точного налаштування більше сумісний з вітчизняним обчислювальним ландшафтом, де місцеві потужності відносно слабкі, що допомагає зменшити втрати через простої ресурсів після створення кластера; це створює життєздатні можливості для виробників на різних рівнях вітчизняної обчислювальної екосистеми». Luchen Technology співпрацювала з Huawei Cloud для запуску API міркувань серії DeepSeek R1 та хмарних сервісів обробки зображень на основі вітчизняних обчислювальних потужностей. Ю Ян висловив оптимізм щодо майбутнього: «DeepSeek вселяє довіру до рішень вітчизняного виробництва, заохочуючи до більшого ентузіазму та інвестицій у вітчизняні обчислювальні можливості в майбутньому».

微信图片_20240614024031.jpg1

Висновок

Чи є DeepSeek «кращим» за ChatGPT, залежить від конкретних потреб та цілей користувача. Для завдань, що потребують гнучкості, низької вартості та налаштування, DeepSeek може бути кращим. Для творчого письма, загальних запитів та зручних розмовних інтерфейсів ChatGPT може зайняти лідируючі позиції. Кожен інструмент служить різним цілям, тому вибір значною мірою залежатиме від контексту, в якому вони використовуються.

Знайдіть рішення для кабелів ELV

Контрольні кабелі

Для кабелів BMS, BUS, промислових, інструментальних.

Структурована кабельна система

Мережа та дані, оптоволоконний кабель, патч-корд, модулі, лицьова панель

Огляд виставок та подій 2024 року

16-18 квітня 2024 року. Енергетична виставка Близького Сходу в Дубаї.

16-18 квітня 2024 року, Securika в Москві

9 травня 2024 року в Шанхаї відбувся запуск нових продуктів і технологій

22-25 жовтня 2024 року, SECURITY CHINA у Пекіні

19-20 листопада 2024 р. CONNECTED WORLD KSA


Час публікації: 10 лютого 2025 р.