全球主机交流论坛

标题: deepseek怎么看怎么像是当年的砂纸磨出来的芯片梗 [打印本页]

作者: lonefly    时间: 2025-2-17 22:55
标题: deepseek怎么看怎么像是当年的砂纸磨出来的芯片梗

作者: httpd    时间: 2025-2-17 22:57
這個話題比我丈母娘**蒂還敏感,可不中說噢
作者: mahunta    时间: 2025-2-17 22:58
本帖最后由 mahunta 于 2025-2-17 22:59 编辑

原来这么久了还有人不知道deepseek是开源的吗?





还不止一个人不知道 (

作者: 蒙面人    时间: 2025-2-17 23:00
mahunta 发表于 2025-2-17 22:58
原来这么久了还有人不知道deepseek是开源的吗?

反贼只看立场不看智力。
作者: 吊打华伪    时间: 2025-2-17 23:20
mahunta 发表于 2025-2-17 22:58
原来这么久了还有人不知道deepseek是开源的吗?


原来这么久了还有人不知道deepseek是假/半开源的吗?

他只是放出了最后结果免费给你用。

但你并不能重新生成一个! 你也不知道他是如何生成的!
作者: 玄武    时间: 2025-2-17 23:32
吊打华伪 发表于 2025-2-17 23:20
原来这么久了还有人不知道deepseek是假/半开源的吗?

他只是放出了最后结果免费给你用。

你能复制一份在本地内网,而且允许你商用  这代表什么你是真不知道还是装不知道?
作者: Hoshizama    时间: 2025-2-18 02:14
玄武 发表于 2025-2-17 23:32
你能复制一份在本地内网,而且允许你商用  这代表什么你是真不知道还是装不知道? ...

训练数据是一点没开源,别家都是开源训练数据的,可以自己从头训练
作者: KleinerSource    时间: 2025-2-18 02:54
蒙面人 发表于 2025-2-17 23:00
反贼只看立场不看智力。

能说出“反贼”这个词的,至少也得是包衣奴才才配说吧
作者: momomo    时间: 2025-2-18 07:08
把楼主跟“跟现有华为后有天”的关一个房间,就负负得正了
作者: cherbim    时间: 2025-2-18 07:15
那倒不至于,有点类似“5G”的感觉,看似屌炸天,其实没吊用
作者: 刘十九    时间: 2025-2-18 07:38
看似屌炸天,其实吊用木有
作者: jamesbonde    时间: 2025-2-18 08:11
半年后一切终将水落石出
作者: 纯天然    时间: 2025-2-18 08:15
确实和姜萍那个事件差不多,哈哈哈
作者: 01801l    时间: 2025-2-18 08:24
吊打华伪 发表于 2025-2-17 23:20
原来这么久了还有人不知道deepseek是假/半开源的吗?

他只是放出了最后结果免费给你用。

你们1450能不能先了解一下再开喷,论文也给你了,训练方法也给你了,结果也给你了,你训不出来怪别人?另外,你确实不知道他是如何生成的,AI的可解释性至今也是学术界的热门话题,并没有很统一的结论
作者: Marss    时间: 2025-2-18 08:38
蒸馏水你喝吗
作者: 方块李    时间: 2025-2-18 08:47
成绩是不错的,不能全面否定。
但是国人高潮的太快了~~现在政府都在推,感觉就是找个口子拉动下经济,真正能不能落地,能干什么,都不明确。。反正就是跟风干~
作者: 蒙面人    时间: 2025-2-18 09:04
Hoshizama 发表于 2025-2-18 02:14
训练数据是一点没开源,别家都是开源训练数据的,可以自己从头训练

llama这可是正宗美爹家科技巨头的玩意,他也是这么开源的。
作者: 上药三品    时间: 2025-2-18 09:56
笑嘻了,宁这砂纸论是拿pr循环灵车的破母鸡CPU搓出来的吧?但凡抢过一回甲骨文arm都不会把分布式训练和五金店diy混成浆糊嗷!建议宁把A100改造成角磨机,反正对宁这种脑回路降级到php5.2的mjj来说,nvlink和砂带传动也没区别
作者: 吊打华伪    时间: 2025-2-18 14:21
01801l 发表于 2025-2-18 08:24
你们1450能不能先了解一下再开喷,论文也给你了,训练方法也给你了,结果也给你了,你训不出来怪别人?另 ...

全世界谁都训练不出来,又不是我一个!  我给你1万张GPU  你照样也整不出来!
论文那些虚头八脑的玩意,和金三胖为你指明了前进方向差不多!

最重要的是:他是不是真按照论文弄出来的,你都不知道!
全世界谁都没有重现过一个R1, 当然有不少在尝试,全是通过逆向猜测在做尝试!
作者: register    时间: 2025-2-18 14:40
脑瘫
显然deepseek是假新闻,世界上不存在deepseek这玩意
作者: Dacoo    时间: 2025-2-18 14:49
别的不知道,反正越南这边dk应该市场霸榜第一
作者: jinxin1967    时间: 2025-2-18 15:28
吊打华伪 发表于 2025-2-17 22:21
全世界谁都训练不出来,又不是我一个!  我给你1万张GPU  你照样也整不出来!
论文那些虚头八脑的玩意, ...

蒸馏出来的宝贝怎么能给你看?
作者: 男人三十    时间: 2025-2-18 16:26
好了好了 台巴子说是什么就是什么吧!
作者: wywb610    时间: 2025-2-18 16:54
1450 台巴子现在都自带**了
作者: pykane    时间: 2025-2-18 17:25
你能说这话,就跟傻逼一样。
动点脑子,DS要是个垃圾,能引起这么大的动静? 抱脸上那么多模型,你见过哪个能火成这样?
你脑子了不行,看战线结果也不会看吗?

作者: elgt    时间: 2025-2-18 18:26
是的,你说的对,deepseek r1是套壳的gpt o1
我们偷了openai的源码拿来给你开源了
作者: u104b230    时间: 2025-2-18 20:02
01801l 发表于 2025-2-18 08:24
你们1450能不能先了解一下再开喷,论文也给你了,训练方法也给你了,结果也给你了,你训不出来怪别人?另 ...

他說的其實有道理,目前訓練數據集,數據集收集完整過程,模型訓練代碼,訓練參數都沒有公開,只給模型權重和推理代碼,其實跟開源一半差不多,不然怎麼那麼多人在嘗試寫訓練代碼。像你說的論文給了,訓練方法也給,很多閉源模型也有,在沒有訓練代碼情況,要完整復現難度,其實跟deepseek一樣,舉個例子,你看到食品上有標示配料表和營養成分,你就能做出一樣味道?
目前最多人關注復現就是Open-R1,最後能不能訓練出來不知道。deepseek宣稱低成本,其實說的是訓練一次過程的花費,要訓練幾次才能達到那水平未知,數據集收集的花費未知。不管在機器學習還是深度學習,數據集乾淨程度,其實很大程度影響模型性能,所以才有Garbage In, Garbage Out說法,這也是最多人想知道,到底是數據集乾淨造成影響,還是模型本身牛逼。
像deepseek會吐出chatgpt結果,所以有不少人懷疑是使用openai輸出進行學習,這就是目前最大爭議。我個人認為其實用了也沒關係,在論文說明就好,有些開源項目,其實也有註明。
就像我上面說的,很多人質疑模型本身其實不怎麼厲害,是靠學習別人輸出才有高指標。如果真是學習對方輸出造成優勢,在多數情況是很難超過對方模型,這也是蒸餾模型最常見缺陷。
不過我是滿看好deepseek,至少有開源模型權重,讓很多企業能直接用,至少對他們來說,根本不在乎訓練過程。
作者: sortie    时间: 2025-2-19 08:50
简单说分为科学、工具、模型三级,ds大部分开放的只是模型这级,核心的另外两级基本没有开放或极少开放,所谓的know how只有他懂。
作者: 羊村你喜哥    时间: 2025-2-19 08:58
httpd 发表于 2025-2-17 22:57
這個話題比我丈母娘**蒂還敏感,可不中說噢

好家伙,deepseek是不是开源的倒是其次,这事你是怎么知道的?
作者: ``````    时间: 2025-2-19 08:59
现在都不装了,发明了一个词叫“数据蒸馏”




欢迎光临 全球主机交流论坛 (https://d.168530.xyz/) Powered by Discuz! X3.4