Z Tech|我们与开源顶流实验室一起聊了聊 Harness Design
Z Tech|我们与开源顶流实验室一起聊了聊 Harness Design过去一年,大模型的能力曲线几乎是指数上升的——推理更强、工具调用更稳、上下文窗口越撑越大。但一个越来越尖锐的问题也随之浮出水面:模型变强了,可承接它的那层东西在哪?
过去一年,大模型的能力曲线几乎是指数上升的——推理更强、工具调用更稳、上下文窗口越撑越大。但一个越来越尖锐的问题也随之浮出水面:模型变强了,可承接它的那层东西在哪?
有没有想过让「龙虾」替你打麻将?
昨天我发现 Qwen3.6“倒反天罡”。
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300 + 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。
知名苹果爆料人、彭博社记者马克·古尔曼最新曝光,苹果正在开发其首款智能眼镜,苹果内部代号为N50,其计划在2026年底或次年年初发布,正式上市则要到2027年。
1977 年,乔治·卢卡斯为了拍《星球大战》,专门成立了一家公司,叫工业光魔。
SiFive 是一家由加州大学伯克利分校工程师创办的公司,这些工程师创造了开源芯片设计,该公司已获得一轮超额认购的 4 亿美元融资,公司估值达 36.5 亿美元。
这个月,具身智能领域又卷出新高度:硅谷独角兽公司 Generalist AI 发布全新一代基础模型 GEN-1,将机器人包装手机、折纸箱这些活的平均成功率直接拉到了创纪录的 99%,折纸箱的速度更是飙到了以前的三倍(34s vs 12.1s)。
最近我测试了一下,用AI辅助创作公众号小号,陆续发了一些文章,效果有点超预期。
刚测完 Kimi K2.5,就拿到 Beta 版内测模型了。 一点喘息的机会都不给啊~~