V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  trungdieu031  ›  全部回复第 1 页 / 共 2 页
回复总数  22
1  2  
5 天前
回复了 kdbtg91 创建的主题 OpenAI 如何评价 OpenAI 的 o3?
@youthfire o1 整体上还是要强于 claude3.5 的。 目前 llm 领域的顶级三家 OpenAI , Google, Anthropic 的模型,OpenAI 整体推理能力最强,幻觉最少,Anthropic 的对齐最好,最有人格化特征,在情感哲学方面体验最好,编程方面因为 finetune 过,也是在目前可用的最强梯队,Google 新出的 gemini2.0 版本多模态能力最强,应该对档的 O 和 A 家下一代基础大模型。
o1 代表了 RL + LLM 新范式。在能用基础模型解决的问题上没有显著的优势。只有长链的推理能力才能体验优点 ~
5 天前
回复了 kdbtg91 创建的主题 OpenAI 如何评价 OpenAI 的 o3?
@haiku 从报告上看,目前推理成本太高确实是最大的问题。
但我对推理成本的下降持乐观态度。至少在 2030 年之前,gpu 的推理成本是稳步下降的,我直观体验上至少比摩尔定律描述的下降速度要快。
给个不精确数字的话,我感觉每年推理成本至少比前年下降 1/4 ~
5 天前
回复了 kdbtg91 创建的主题 OpenAI 如何评价 OpenAI 的 o3?
超级强,距离上一代 o1 进步巨大。 那些说是画大饼没啥用的我只能说你们开心就好~
如果你对报告里那些测试集有个大概的认识,就会知道这种进步意味着什么。别的不说就拿 frontier math 这种一下从完全不会到 25% 的真确率,arc-agi 这种专为 AI 设计的难度考题一次性从 35% 上升到 75% ...
看来 Sora 期货带来的后遗症太强了,导致现在 OpenAI 一有延迟发布的动向都会被说搞期货 ~
长远来看 ( 10 年内),AI 取代 99% 人的工作是板上钉钉的事~
9 天前
回复了 gebiwanger 创建的主题 程序员 老铁,从哪里了解最新的 AI 动向?
毫无疑问目前来说一手的信息都是在 x 上 ~
配 64G 内存的主机,做下量化,完全可以跑 32B 的模型了。如果不特别追求速度的话也不用非得上两块 GPU~
83 天前
回复了 sudoy 创建的主题 问与答 大语言模型提取个人信息返回虚假信息
你这个问题要解决有一下集中思路:
1. 更换不同厂家的模型,都试试说不定就有安全措施不那么严格的
2. 采用类似反爬虫的机制。增加请求延时,更换 ip , 更换请求账号 ...
3. 编写专门的 prompt 来绕过限制。有点类似 LLM 的越狱机制
4. 部署本地大模型处理。如果是英文邮件的话,可能 llama 的中大模型会好点 ...
83 天前
回复了 sudoy 创建的主题 问与答 大语言模型提取个人信息返回虚假信息
你这个应该确实是触发了某种安全机制。看过美剧刑侦剧的都知道 John Doe 这个名字使用指定未知人物姓名的。大模型返回结果可能处于数据隐私方面的考虑对返回结果做了替换 ~
144 天前
回复了 Daybyedream 创建的主题 问与答 OCR 怎么提高准确率?
标注或合成一部分数据,自己训练/微调一个模型
232 天前
回复了 wtf12138 创建的主题 iPad 请教一下 iPad 的真实使用场景
我自己主要用来看书,微信读书以及专业书籍 pdf ,尤其是专业书籍 pdf 配合 apple pencil 做笔记简直是神奇。看剧反倒几乎没有,因为屏幕太小,观感远不如电视。
245 天前
回复了 dododada 创建的主题 程序员 国产 AI 推理服务器的适配难易程度问题
建议如果不是强制必须用国产的话,还是上英伟达的卡好点。昇腾 上适配模型会让你适配到怀疑人生,尤其是项目交付有固定期限的情况下...
247 天前
回复了 lstz 创建的主题 OpenAI 用贵的国产大模型 API 是否效果堪比 GPT4?
同等参数级别的大模型,尤其是 70B 以上参数的模型,国产模型确实不如 OpenAI 和 llma, 也就在特定的中文问题上表现好点;
楼上有人说拥有上万卡的公司有好几家,大厂以前囤积的卡包括后来从各地高价收购的卡加起来上万也没啥问题,但这些卡在大厂里也是分散在各处,并不是在一个统一调度的集群里,所以能用来训练大模型的也就在千张量级;
有些早期的大厂模型比如百度这些可能不是用 llma 微调的,但国内确实也有很多微调的大模型,由于国产大模型都没怎么开源,所以也很难判断,但从大厂一贯开源节流,“效率优先”的传统来讲,在开源模型上用中文语料库 finetune 似乎也是预料之中的事;
中文语料由于长期思想审查带来的语料质量方面的问题是存在的;所以会有从 chatGPT 这种大模型里生成中文数据来训练的情况出现;
很多排行榜有数据污染的情况,国产大模型很多为了刷榜提升知名度,会做一些面向刷榜的特定优化
329 天前
回复了 trungdieu031 创建的主题 硬件 有没有可以用作大屏显示器的头显设备?
@zgw199012 这个还是第一次听说。用来办公的话会怎么样,能看清字吗,或者说刷网页体验怎么样?
330 天前
回复了 trungdieu031 创建的主题 硬件 有没有可以用作大屏显示器的头显设备?
@ccinsomnia 回头我看看 q3 的测评。不过说实话光从外形上看感觉还是有些厚重
330 天前
回复了 trungdieu031 创建的主题 硬件 有没有可以用作大屏显示器的头显设备?
@AoEiuV020JP [裂开]!!! ar/vr 都搞了这么多年了,讲道理这个需求应该也不是非常小众, 居然也没有~

20 厘米我随意写的大概值。反正差不多平时看桌面显示器的距离就行。30-50 感觉是个合理的值。
341 天前
回复了 qdwang 创建的主题 问与答 腾讯口碑最好的 app
微信读书排版,字体都做的可以。最大的问题还是审查,出版商删减过的书它还要二次审查删减。不过这也算国内特色了,毕竟老大哥盯着呢 ...
@cheitu ,你好,能加个 tg 吗? c3V0dGVybWlsbA==
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1270 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 17:50 · PVG 01:50 · LAX 09:50 · JFK 12:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.