IT之家 1 月 27 日消息,《华盛顿邮报》科技专栏作家 Geoffrey A. Fowler 测试 OpenAI 最新上线的 ChatGPT Health 功能,导入其十年积累的 Apple Watch 数据(含 2900 万步记录和 600 万次心跳测量),结果被错误判定心脏健康为“不及格”(F)。
Fowler 感到恐慌并立即联系了医生。医生在详细检查后,断然否定了 AI 的诊断,指出 Fowler 的心脏病发作风险极低,甚至无需进行额外的有氧适能测试来证伪 AI 的结论。
深入分析显示,ChatGPT 的误判主要源于误读数据性质。Fowler 指出,AI 将 Apple Watch 记录的 VO2 max(最大摄氧量)视为绝对精准的医疗数据,并据此给出了负面评价。实际上,苹果官方明确说明该数据仅为“估算值”,主要用于追踪趋势而非临床诊断。
此外,Fowler 更换新款 Apple Watch 后,因传感器升级导致的静息心率基准变化,也被 AI 错误地解读为生理机能的实质性改变,完全忽略了硬件迭代这一关键变量。
除了误读数据,ChatGPT Health 反馈结果还存在不稳定情况,当 Fowler 重复询问同一健康问题时,AI 的评分竟在“F”到“B”之间剧烈摇摆。IT之家附上相关截图如下:
更严重的是,该系统表现出明显的“健忘症”和逻辑断层,在对话中多次遗忘用户的性别、年龄等基础信息,甚至在拥有近期血液检测报告的情况下,分析时却选择性忽略这些关键的临床证据。返回搜狐,查看更多
{dede:pagebreak/}
《情深深雨濛濛》中,何书桓如果早出生几十年会有三妻四妾吗?
晒晒你们的办公桌/书桌?
有没有一个特别好用的Linux系统?
055大驱到底强在哪里?
为什么这么久了还是没有主流软件开发鸿蒙版?
怎么感觉小米有点方寸大乱呢?
《诛仙》作者萧鼎于近日修改《诛仙》原作并大量删去碧瑶戏份,如何看待这一行为?
Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升?
有什么快速挣钱的正规路子?
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
中国发动机是技术落后,还是材料技术没有攻克?
为什么央视不再报道洛杉矶***了?
Vue性能优于React,那为什么还不用Vue?
为什么linux桌面那么丑?
把《武林外传》中的打工人郭芙蓉放在现代,她能干长久吗?
《西西里美丽传说》女主角,在当时打扮这么高调,不觉得带给自己很多不便吗?如何理解她的心态?