Для BMS, автобуса, промислового, приладобудного кабелю.

Коли весняний фестиваль закінчується, хвилювання навколо DeepSeek залишається сильним. Нещодавнє свято підкреслило значне відчуття конкуренції в галузі технічної галузі, багато хто обговорює та аналізує цей "сом". Силіконова долина переживає безпрецедентне почуття кризи: прихильники відкритого коду знову висловлюють свою думку, і навіть OpenAI переоцінює, чи є її стратегія із закритим кодом найкращим вибором. Нова парадигма нижчих обчислювальних витрат викликала ланцюгову реакцію серед гігантів чіп, як Nvidia, що призвело до реєстрації одноденних втрат на ринковій вартості в історії фондового ринку США, тоді як урядові установи досліджують відповідність мікросхем, що використовується DeepSeek. Серед змішаних відгуків про DeepSeek за кордоном, на внутрішньому рівні, він відчуває надзвичайне зростання. Після запуску моделі R1 асоційований додаток спостерігається приплив трафіку, що вказує на те, що зростання в секторах додатків сприятиме загальній екосистемі AI вперед. Позитивний аспект полягає в тому, що DeepSeek розширить можливості програми, припускаючи, що покладатися на Чатгпт у майбутньому не буде таким дорогим. Ця зміна була відображена в останніх заходах OpenAI, включаючи надання моделі міркувань під назвою O3-Mini для вільних користувачів у відповідь на DeepSeek R1, а також подальші оновлення, які зробили ланцюжок думки громадськості O3-Mini. Багато закордонних користувачів висловили подяку DeepSeek за ці події, хоча цей ланцюг думки служить резюме.
Оптимістично очевидно, що DeepSeek об'єднує домашніх гравців. З акцентом на зменшення витрат на навчання, різних виробників мікросхем, проміжних провайдерів хмар та численні стартапи активно приєднуються до екосистеми, що підвищує економічну ефективність для використання моделі DeepSeek. Згідно з документами Deepseek, для повного навчання моделі V3 потрібно лише 2,788 мільйона годин GPU HPU, а навчальний процес є дуже стабільним. Архітектура МО (суміш експертів) має вирішальне значення для зменшення витрат попереднього тренування на десять порівняно з LLAMA 3 з 405 мільярдами параметрів. В даний час V3 - це перша публічно визнана модель, що демонструє таку високу рідкість у МО. Крім того, MLA (багатошарова увага) працює синергетично, особливо в аспектах міркувань. "Чим рідше МО, тим більший розмір партії, необхідний під час міркувань для повного використання обчислювальної потужності, при цьому розмір kvcache є ключовим обмежувальним фактором; MLA значно зменшує розмір Kvcache", - зазначив дослідник технології Чуанджін в аналізі огляду технологій AI. Загалом, успіх Deepseek полягає в поєднанні різних технологій, а не лише одних. Інсайдери галузі хвалять інженерні можливості команди Deepseek, відзначаючи їх досконалість у паралельній підготовці та оптимізації операторів, досягаючи новаторських результатів, вдосконалюючи кожну деталь. Підхід DeepSeek з відкритим кодом ще більше підживлює загальний розвиток великих моделей, і передбачається, що якщо подібні моделі розшиться на зображення, відео та інше, це суттєво стимулюватиме попит у цій галузі.
Можливості для сторонніх міркувань
Дані вказують на те, що з моменту його випуску DeepSeek накопичив 22,15 мільйонів щоденних активних користувачів (DAU) протягом всього 21 дня, досягнувши 41,6% бази користувачів Chatgpt та перевищивши 16,95 мільйонів щоденних активних користувачів Дубао, тим самим стаючи найбільш швидко зростаючими програмами в усьому світі, очолюючи магазин додатків Apple у 157 країнах/регіонах. Однак, поки користувачі стікалися в побиттях, кібер -хакери безжально атакують додаток DeepSeek, викликаючи значне напруження на його серверах. Аналітики галузі вважають, що це частково пояснюється DeepSeek, що розгортає картки для навчання, не маючи достатньої обчислювальної потужності для міркувань. Інсайдер галузі повідомив огляд технологій AI: "Часті проблеми сервера можуть бути легко вирішені шляхом стягнення зборів або фінансування для придбання більше машин; в кінцевому підсумку це залежить від рішень DeepSeek". Це представляє компроміс у зосередженні на технології та продуктизації. DeepSeek значною мірою покладається на квантове квантовування для самостійного, отримавши невелике зовнішнє фінансування, що призводить до відносно низького тиску грошових потоків та більш чистого технологічного середовища. В даний час, зважаючи на вищезгадані проблеми, деякі користувачі закликають DeepSeek у соціальних медіа підняти пороги використання або ввести оплачувані функції для підвищення комфорту користувачів. Крім того, розробники почали використовувати офіційний API або сторонні API для оптимізації. Однак нещодавно відкрита платформа DeepSeek оголосила: "Поточні ресурси сервера дефіцитні, а перезарядки служби API були призупинені".
Це, безсумнівно, відкриває більше можливостей для сторонніх постачальників в секторі інфраструктури ШІ. Нещодавно численні вітчизняні та міжнародні хмарні гіганти запустили модель API DeepSeek - Giants Giants Microsoft та Amazon були одними з перших, хто приєднався до кінця січня. Внутрішній лідер Huawei Cloud зробив перший крок, випустивши послуги DeepSeek R1 та V3 у співпраці з потоком на основі кремнію 1 лютого. Звіти з огляду технологій AI свідчать про те, що послуги потоку на основі кремнію показали приплив користувачів, фактично "аварію" платформи. Великі три технологічні компанії-Bat (Baidu, Alibaba, Tencent) та Bytedance-також видав низькоздатні пропозиції з обмеженим часом, починаючи з 3 лютого, що нагадує минулорічну хмарну цінову війни, запалені запуском моделі V2 Deepseek, де DeepSeek почав називати "ціною". Шалені дії постачальників хмар перегукуються з попередніми міцними зв'язками між Microsoft Azure та OpenAI, де в 2019 році Microsoft зробила істотні інвестиції в 1 мільярд доларів у OpenAI і отримала переваги після запуску Chatgpt у 2023 році. У цьому випадку DeepSeek не тільки перевершив чатгпт з точки зору тепла продукту, але також запровадив моделі з відкритим кодом після випуску O1, подібно до хвилювання, що оточує відродження LLAMA GPT-3.
Насправді хмарні постачальники також позиціонують себе як шлюзи дорожнього руху для додатків AI, тобто поглиблення зв'язків з розробниками означає превентивні переваги. Звіти свідчать, що Baidu Smart Cloud мав понад 15 000 клієнтів, які використовують модель DeepSeek через платформу Qianfan у день запуску моделі. Крім того, кілька менших фірм пропонують рішення, включаючи кремнієвий потік, технологію Luchen, технології Чуанджінга та різні інфрачервоні постачальники AI, які запустили підтримку моделей DeepSeek. Technology Review дізнався, що поточні можливості оптимізації для локалізованих розгортань DeepSeek в основному існують у двох областях: одна є оптимізацією для характеристик розріджувача моделі MOE, використовуючи змішаний підхід до міркувань для розгортання 671 мільярда параметрів MOE локально, використовуючи гібридний урив GPU/CPU. Крім того, оптимізація MLA є життєво важливою. Однак дві моделі DeepSeek все ще стикаються з деякими проблемами в оптимізації розгортання. "Завдяки розміру моделі та численними параметрами, оптимізація дійсно є складною, особливо для локальних розгортань, де досягнення оптимального балансу між продуктивністю та витратами буде складним", - заявив дослідник з технології Чуанджін. Найбільш вагома перешкода полягає в подоланні обмежень ємності пам'яті. "Ми застосовуємо неоднорідний підхід до співпраці для повного використання процесорів та інших обчислювальних ресурсів, розміщуючи лише не зацікавлені частини розрідженої матриці Мое на процесорі/драм для обробки за допомогою високопродуктивних операторів процесора, тоді як щільні частини залишаються на GPU",-ще більше пояснив. Звіти свідчать про те, що рамки відкритого коду Чуанджіна в першу чергу вводить різні стратегії та операторів у оригінальну реалізацію трансформаторів за допомогою шаблону, значно підвищуючи швидкість висновку, використовуючи такі методи, як Cudagraph. DeepSeek створив можливості для цих стартапів, оскільки переваги зростання стають очевидними; Багато фірм повідомили про помітне зростання клієнтів після запуску API DeepSeek, отримуючи запити від попередніх клієнтів, які шукають оптимізації. Інсайдери галузі зазначали: "У минулому дещо усталені клієнтські групи часто були зафіксовані в стандартизованих послугах великих компаній, щільно пов'язані з їхніми витратами через масштаб. Однак, завершивши розгортання Deepseek-R1/V3 перед весняним фестивалем, ми раптом отримали запити на співпрацю від кількох відомих клієнтів, а навіть раніше споживачі клієнти ініціювали контакт з введенням наявних послуг". В даний час виявляється, що DeepSeek робить модель результативності виводу все більш критичним, і при більш широкому впровадженні великих моделей це буде продовжувати впливати на розвиток в інфратологічній галузі AI. Якщо модель на рівні DeepSeek може бути розгорнута на місцевому рівні за низькою вартістю, це значно допоможе урядовим та підприємству цифровій трансформації. Однак виклики зберігаються, оскільки деякі клієнти можуть мати великі очікування щодо великих можливостей моделі, що робить більш очевидним, що збалансування продуктивності та витрат стає життєво важливим для практичного розгортання.
Щоб оцінити, чи є DeepSeek кращим, ніж Чатгпт, важливо зрозуміти їх ключові відмінності, сильні сторони та використання випадків. Ось всебічне порівняння:
Функція/аспект | DeepSeek | Чатгпт |
---|---|---|
Власність | Розроблений китайською компанією | Розроблений OpenAI |
Модель джерела | З відкритим кодом | Власний |
Вартість | Безкоштовно у використанні; Дешевші параметри доступу API | Підписка або ціна на оплату за використання |
Налаштування | Дуже настроюється, що дозволяє користувачам налаштувати та будувати на ньому | Доступне обмежене налаштування |
Продуктивність у конкретних завданнях | Переваги в певних областях, таких як аналітика даних та пошук інформації | Універсальний з сильною виконанням у творчому письмі та розмовних завданнях |
Мовна підтримка | Сильна спрямованість на китайську мову та культуру | Широка мовна підтримка, але орієнтована на США |
Вартість навчання | Нижні витрати на навчання, оптимізовані для ефективності | Вищі витрати на навчання, що вимагають значних обчислювальних ресурсів |
Варіація відповіді | Може запропонувати різні відповіді, можливо, впливати на геополітичний контекст | Послідовні відповіді на основі даних про навчання |
Цільова аудиторія | Спрямовані на розробників та дослідників, які бажають гнучкості | Націлені на загальних користувачів, які шукають розмовні можливості |
Використання випадків | Більш ефективно для генерації коду та швидких завдань | Ідеально підходить для створення тексту, відповіді на запити та введення в діалог |
Критичний погляд на "порушення nvidia"
В даний час, окрім Huawei, кілька вітчизняних виробників мікросхем, таких як Moore Threads, Muxi, Biran Technology та Tianxu Zhixin, також адаптуються до двох моделей DeepSeek. Виробник чіпів сказав, що AI Technology Review: "Структура DeepSeek демонструє інновації, але вона залишається LLM. Наша адаптація до DeepSeek в основному зосереджена на міркувальних програмах, що робить технічну реалізацію досить простою та швидкою". Однак підхід до MOE вимагає більш високих вимог щодо зберігання та розповсюдження в поєднанні з забезпеченням сумісності при розгортанні з внутрішніми мікросхемами, представляючи численні інженерні проблеми, які потребують вирішення під час адаптації. "В даний час вітчизняна обчислювальна потужність не відповідає NVIDIA у зручності та стабільності, що вимагає оригінальної фабричної участі для налаштування програмного середовища, усунення несправностей та основоположної оптимізації ефективності", - заявив практикуючий галуззю на основі практичного досвіду. Одночасно, "Через велику шкалу параметрів DeepSeek R1, внутрішня обчислювальна потужність вимагає більшої кількості вузлів для паралелізації. Крім того, технічні характеристики апаратури все ще дещо відстають; наприклад, Huawei 910B в даний час не може підтримувати висновок FP8, введений DeepSeek". Однією з родзинок моделі Deepseek V3 є введення FP8 змішаної точності точності точності, яка була ефективно підтверджена на надзвичайно великій моделі, що відзначає значне досягнення. Раніше такі основні гравці, як Microsoft та Nvidia, запропонували пов'язану роботу, але сумніви затримаються в цій галузі щодо доцільності. Зрозуміло, що порівняно з INT8, основна перевага FP8 полягає в тому, що квантування після тренувань може досягти майже без втрат точності, одночасно значно підвищуючи швидкість виводу. Порівнюючи з FP16, FP8 може реалізувати до двох разів прискорення на H20 Nvidia та понад 1,5 рази прискорення на H100. Зокрема, оскільки дискусії щодо тенденції внутрішньої обчислювальної потужності плюс вітчизняні моделі набирають обертів, спекуляції щодо того, чи можна було порушити Nvidia, і чи можна обходити рови Куда, стає все більш поширеним. Одним із безперечних фактів є те, що DeepSeek дійсно спричинив значне падіння ринкової вартості Nvidia, але ця зміна викликає питання щодо обчислювальної цілісності потужності високого класу NVIDIA. Раніше прийняті розповіді щодо накопичення обчислювальної кількості, орієнтованих на капітал, оскаржуються, але NVIDIA залишається складно повністю замінити у навчальних сценаріях. Аналіз глибокого використання CUDA DeepSeek показує, що гнучкість - наприклад, використання SM для спілкування або безпосередньо маніпулювання мережевими картками - неможлива для регулярних графічних процесорів. Точки зору галузі підкреслюють, що ров Nvidia охоплює всю екосистему CUDA, а не просто саму CUDA, а інструкції PTX (паралельне виконання потоку), які використовує DeepSeek, все ще є частиною екосистеми CUDA. "За короткий термін обчислювальна потужність NVIDIA не може бути обхідною - це особливо зрозуміло на навчанні; однак, розгортання внутрішніх карток для міркувань буде порівняно простішим, тому прогрес, ймовірно, буде швидше. Адаптація внутрішніх карт в основному зосереджується на висновках; ніхто ще не вдався навчити модель продуктивності Deepseek на вітчизняних картках у масштабі", промислова аналітична рецензія. Загалом, з точки зору висновку, обставини заохочують для вітчизняних великих модельних мікросхем. Можливості для вітчизняних виробників мікросхем у царині висновку є більш очевидними через надмірно високі вимоги навчання, які перешкоджають вступу. Аналітики стверджують, що просто використовує домашні картки виводу; Якщо необхідно, придбання додаткової машини є здійсненним, тоді як тренувальні моделі створюють унікальні проблеми - керуючи збільшенням кількості машин можуть стати обтяжливими, а більш високі показники помилок можуть негативно вплинути на результати навчання. Тренінг також має конкретні вимоги до кластерних масштабів, тоді як вимоги до кластерів для висновку не є настільки суворими, тим самим полегшуючи вимоги GPU. В даний час ефективність одиночної картки H20 NVIDIA не перевершує продукцію Huawei або Cambrian; Його сила полягає в кластеризації. Based on the overall impact on the computational power market, the founder of Luchen Technology, You Yang, noted in an interview with AI Technology Review, "DeepSeek may temporarily undermine the establishment and rental of ultra-large training computational clusters. In the long run, by significantly reducing the costs associated with large model training, reasoning, and applications, market demand is likely to surge. Subsequent iterations of AI based on this will therefore continually drive sustained Попит на ринку обчислювальної електроенергії ". Крім того, "посилений попит Deepseek на міркування та тонкі настройки є більш сумісними з внутрішнім обчислювальним ландшафтом, де місцеві потужності відносно слабкі, допомагаючи пом'якшити відходи від холостого кластера, що створює життєздатні можливості для виробників на різних рівнях внутрішньої обчислювальної екосистеми". Luchen Technology співпрацював з Huawei Cloud, щоб запустити API серії DeepSeek R1 та послуги хмарних зображень на основі внутрішньої обчислювальної потужності. Ви Ян висловили оптимізм щодо майбутнього: "DeepSeek вселяє впевненість у рішеннях, що виробляються на внутрішніх умовах, заохочуючи більший ентузіазм та інвестиції у внутрішні обчислювальні можливості, що рухаються вперед".

Висновок
Незалежно від того, чи є DeepSeek "кращий", ніж чатгпт, залежить від конкретних потреб та цілей користувача. Для завдань, що потребують гнучкості, низької вартості та налаштування, DeepSeek може бути вищим. Для творчого письма, загального запиту та зручних для користувачів розмовних інтерфейсів Chatgpt може взяти на себе керівництво. Кожен інструмент служить різним цілям, тому вибір буде значно залежати від контексту, в якому вони використовуються.
Контрольні кабелі
Структурована система кабелів
Мережа та дані, волоконно-оптичний кабель, патч-шнур, модулі, лицьова панель
16 квіт.
16 квіт.
9 травня, 2024 р. Нові запуску продуктів та технологій у Шанхаї
Жовтень 22-го, 2024 р. Китай у Пекіні
19 листопада, 2024 р. Зв'язаний світ KSA
Час посади: лютий-10-2025