因为Excel,科学家们修改了27种人类基因的名称

2020-08-11

电子表格类软件,已经深度参与到我们日常工作的各个环节。

而其中的翘楚无疑是微软的 Excel,不管是 WPS 或是 Numbers,都无法撼动这款已经拥有 35 年历史的软件。但最近它的某些功能却给一些科学家们带来了困扰。

藏在基因名称中的“隐患”

人类基因组,有 23 对染色体,包含约 30 亿个 DNA 碱基对,部分碱基对组成了大约 20000 到 25000 个基因。在科学研究中,学者需要为每个基因起一个特定的名称以便快速定位,这些名称一般由字母加数字的形式组成。

但是在最近一年左右的时间里,有约 27 种人类基因被重新命名,Excel 正是这一系列行为的“肇事者”,它会将这些基因名称误读为日期格式,并直接修改成了默认格式。

这种事情并不新鲜,我们每个人或多或少都遇到过类似情况。

但是,当 Excel 将一些关键数据误读,而科学家们恰好使用这些数据来分析,甚至临床试验的时候,就可能产生不可挽回的严重后果。

当遇到类似情况时,科学家们必须手工设置单元格格式以还原数据,但难免也会产生遗漏的情况。据一项 2016 年的调查表明,这类 “Bug” 非常普遍,以至于在 3597 篇样本论文中,约五分之一都受到了影响。

图 | 微软 Excel 将基因名称误读作日期

“这真的非常非常烦人”,英国 Quadram 研究所的系统生物学家 Dezső Módos 在报道中这样描述。他的工作会涉及到分析新近测序的遗传数据,他说这类 Excel “错误”非常常见,而恰好 Excel 是科学家们分析数据时的首选。“在解决计算问题的时候,它真的很方便”。

并没有一种简单的解决方法能够修复这类“Bug”,Excel 没有关闭自动修改格式的开关,为了避免自动“转型”,只能重设整列单元格数据类型。但是这种修复是一次性的,一旦其他人引用了相关数据,问题会再次出现。

改名,是为了彻底解决问题

国际人类基因组组织(HUGO)下辖的 HGNC(基因命名委员会),近期发布了包含 “影响数据处理和索引的符号” 的关于基因命名格式的新指南。从今往后,人类的基因命名将避开 Excel 的“Bug”。例如:MARCH1 将变为 MARCHF1;SEPT1 变为 SEPTIN1。

这并不是一个轻易作出的决定,HGNC 的权威性来自科学家群体的共识。HGNC 必须及时通知受到改名影响较大的群体,从改名到日常使用将是一个缓慢的过程。

图 | 美国国家生物技术信息中心(NCBI)已经更新

此前,在遗传学早期,基因的命名一度非常随意,往往体现了科学家的强烈个人偏好,例如 “臭名昭著” 的“音速刺猬索尼克”、INDY(I’m not dead yet)等等。

图 | 左边是索尼克,右边也是索尼克

不过现在,HGNC 已经将命名规则制定权牢牢掌握在手中,在他们的规则下,基因的命名不再能够让科学家们自由发挥,基因名称不得使用上标或下标,只能包含字母和数字,不能由姓名或单词组成,尤其是一些令人反感的词汇。

为了避免在搜索时产生歧义,他们曾经将 CARS 基因更名为 CARS1、WARS 更名为 WARS1 等等。

HGNC 的协调员 Bruford 说道,这是第一次该组织针对软件问题而对基因名称及命名规则进行修改,截止目前,收到的反馈总体上是积极的。

图 | 生物学家的回应

但 Bruford 也提到,他们听到了一些争议的声音:为什么选择重新命名人类基因,而不是修复 Excel 的“Bug”?为什么整个遗传学界会输给一家商业公司?

微软并未对此置评。

但 Bruford 这样解释道,Excel 并不值得因此而改变所有的产品功能,我们在微软庞大的用户群中只占很小的一部分。如果微软就此做出修改,反而将对更多的人造成影响。

最后她说,同永恒的人类基因相比,Excel 不过沧海一粟。


来源: DeepTech深科技

责任编辑:
阅读
点赞
评论
加载中...

相关新闻