V2モデルの研究開発は、すべて中国国内人材による
V2 模型的研发都是本土人才
暗涌:OpenAI前政策主管、Anthropic※2 联合创始人※1Jack Clark 认为 DeepSeek 雇佣了「一批高深莫测的奇才」,做出 DeepSeek v2 的是怎样一群人?
暗涌:OpenAIの元政策責任者で、Anthropicの共同創業者であるJack Clark氏は、DeepSeekが「計り知れないほどの奇才集団」を雇っていると考えています。DeepSeek v2を作り出したのはどのような人達なのですか?
※1联合创始人
[lián hé chuàng shǐ rén]
※2Anthropic
[Anthropic]
梁文锋:并没有什么高深莫测※3的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
梁文锋:「計り知れない奇才」などではありません。彼らは皆、一流大学の新卒生、まだ卒業していない博士課程4、5年目のインターン、そして一部は卒業してまだ数年目の若者たちです。
※3高深莫测
[gāo shēn mò cè]
暗涌:很多大模型公司都执着地去海外挖人※4,很多人觉得这个领域前 50 名的顶尖人才※5可能都不在中国的公司,你们的人都来自哪里?
暗涌:多くの大規模モデル企業はみな、海外(中国国外)からの“引き抜き”に拘っており、多くの人が「この分野のトップ50の“ハイエンド人材”はもう中国の企業にはいないのではないか」と考えています。あなた方の人材はどこから来ているのですか?
梁文锋:V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
梁文锋:V2モデルに外国帰りの人はいません、みんな中国国内の人材です。トップ50のハイエンド人材は中国にいないかもしれませんが、もしかすると私たちは自社でこのような人材を作り出せるかもしれません。
暗涌:这次 MLA 创新*是如何发生的?听说 idea 最早来自一个年轻研究员的个人兴趣?幻方提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用※6降到了过去最常用的MHA架构的5%-13%。
暗涌:今回のMLAの革新はどのように起きたのですか?最初の発想は一人の若い研究員の個人的な興味からだそうですね。幻方が打ち出した斬新なMLA(新しいマルチヘッド潜在アテンション)アーキテクチャは、メモリ使用率を従来最も使用されていたMHAアーキテクチャの5%-13%にまで下げました。
梁文锋:在总结出 Attention 架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个 team,花了几个月时间才跑通 ※8。
梁文锋:Attentionアーキテクチャの主流の変遷パターンをまとめたあと、彼は突然奇抜な発想でひとつの代替案を設計しました。しかし、発想から完成までに、その間にはとても長いプロセスがありました。私たちはそのために1つのチームを組み、数か月の時間を費やしてようやく軌道にのりました。
※8跑通
[pǎo tōng]
暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下※10地指派※11目标或任务。但 AGI ※12这种充满不确定性的前沿探索,是否多了管理动作?
暗涌:この種の多方向的なインスピレーションの誕生と、あなた方の完璧な革新的な組織構造はとても関係があります。幻方時代、あなた方は社内のトップダウンで目標やタスクを命じることはほとんどありませんでした。しかし、AGIのような不確実性に満ちた最先端分野の探求では、管理アクションが多くはなりませんか?
梁文锋:DeepSeek 也全是自下而上※14。而且我们一般不前置※13分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源※9。
梁文锋:DeepSeekもすべてボトムアップです。それに私たちは通常、あらかじめ作業を分担することはなく、自然に分業します。一人ひとりが独自の成長経験を持ち、皆が自分の考えを持っているので、彼らをpushする必要はありません。探究のプロセス中に問題に遭遇したら、彼らは自ら人を巻き込んで議論します。しかし、ひとつのアイディアがポテンシャルを示した時は、私たちもトップダウンでリソースを合理的に調整することもあります。
※9调配资源
[diào pèi zī yuán]
※10自上而下
[zì shàng ér xià]
※11指派
[zhǐ pài]
※12AGI
[AGI]
※13前置
[qián zhì]
※14自下而上
[zì xià ér shàng]
暗涌:听说 DeepSeek 对于卡和人的调集非常灵活。
暗涌:DeepSeekはGPUや人の調達に対し、非常に柔軟だそうですね。