(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=38365934
更正:标题为“拒绝回答”的图表确实显示拒绝率有所增加,但它没有显示为名为“拒绝回答较少?”的比较图表的一部分。 标签“拒绝回答”被改为“拒绝回答”。
这是一个校正后的图像,证明了这一点:
原图:

请注意术语“减少拒绝?” 为清楚起见,指的是标记为“已接受”与“已拒绝”的橙色条。 根据上面的段落,对 Claude 有哪些批评?为什么作者建议除了 Claude 和 Eliect 等经过人类学训练的模型之外,考虑微软的 GPT-4 替代方案? 文章:这是我在 Hacker News 上比较 Claude 与 Microsoft GTP-4 的第二篇文章。 虽然我的第一篇文章主要批评克劳德的缺陷,但第二篇文章更像是后续文章。 尤其是Claude 2.1的表现让我的期望值足够高,我觉得有必要再去一次。 首先,关于克劳德的一些最新情况。 自从上一篇文章以来我一直在使用克劳德。 我将它用于特定目的,以帮助自动化为学校撰写论文(为了好玩)的某些方面。 我写的论文涉及从诗歌到量子物理学等各种主题。 总的来说,我的印象仍然是负面的。 当处理相对技术性的主题或具有多种视角的复杂哲学思想时,我经常遇到克劳德似乎完全迷失的情况。 由于缺乏对特定主题领域的全局理解,因此无法解决连接相关主题所需的更高层次的抽象或间接概念。 据报道,就 Claude 的改进而言,Anthropic 的团队显着提高了诚实度。 具体来说,Claude 2.1 声称“与我们之前的 Claude 2.0 模型相比,虚假陈述减少了 2 倍”。 从我对 Claude 2.1 的简短实验中,我发现虽然我无法直接将其输出与之前的迭代进行比较,但总体错误明显减少(特别是在数学问题方面)。 然而,尽管如此,它在完成长篇结构化写作(例如研究论文和文献综述)方面仍然存在明显不足。
2. I wish Claude had fewer refusals (as erroneously claimed in the title). Until Anthropic stops heavily censoring Claude, the model is borderline useless. I just don't have time, energy, or inclination to fight my tools. I decide how to use my tools, not the other way 'round. Until Anthropic stops injecting bias into their models to create some byzantine, manic LLM omertà, I'll stick to more effective models, thanks. I'm too swamped to add "tech company decided what's best for me this time" app bugs to my backlog.
[EDIT] To avoid replies to further "the only people who want privacy must have something to hide" style arguments, my reply: https://news.ycombinator.com/item?id=38368352
reply