客人列| 2019年6月18日

AI，数据完整性和生命科学：让我们不要等到有人死亡

可以思考的机器的想法成为20世纪初的科幻主题^TH.世纪,有趣的阅读。科学赶上来了，“人工智能”(AI)一词是由约翰·麦卡锡在1956年达特茅斯夏季人工智能研究项目(DSRPAI)创造的，第一个人工智能程序逻辑理论家，由艾伦纽威尔，悬崖肖和赫伯特西蒙提出。¹

人工智能研究在最初几年蓬勃发展，直到由于计算能力的限制而放缓，但在20世纪80年代，由于计算工具和投资，人工智能重新获得了活力。约翰•霍普菲尔德(John Hopfield)和戴维•鲁梅尔哈特(David Rumelhart)推广了深度学习技术，使计算机可以利用经验进行学习。¹下次对AI进步的限制在计算机存储中，在20世纪90年代后期不再是一个问题，因为存储进步产生了便宜和无处不在的解决方案。在我们现代的世界中，我们在日常生活中携带设备，即仅几十年前的超级计算机的存储能力。AI现已成为主流，将实验室留在我们的起居室，智能助理（即亚历克萨和Siri）和智能电视。AI在新闻中，在我们的舌头上，一周几乎没有一周的情况，没有电视商务或我们的社交界中的某人而提到ai。但是，在适用于生命科学时，它是如何影响我们的生活？

垃圾进垃圾出

为了便于讨论，我们可以同意，人工智能可能会导致预测、分类和决策的计算分析，这些计算分析基于机器学习(ML)，来自有代表性的数据源，并进一步由上述数据和相关结果提供信息。在这种情况下，例如，人工智能可能在提高研发活动的效率方面展现出巨大的潜力，例如识别可供进一步研究的可行药物靶点。或者，人工智能可以通过减少潜在的缺陷和加速产品审查、发布和通过供应链运输的处置来提供更大的制造能力。然而，这种潜在的巨大回报风险仍然很大，因为糟糕的人工智能结果造成的错误或损失可能会对公共卫生造成负面影响。

今天的一个AI挑战正在开发和管理ML和AI，以处理可用的大量不同和非标准化数据。我们的生活迅速采用，在消费电子产品的例子中显而易见。Karan Bedi，Blaupunkt Televisions印度的Coo，报道称，“消费品公司不留下石油无法授权他们用数字和AI技术授权他们的产品”和“许多家电制造商将物联网（物联网）和AI集成在家庭产品中。“²一个常见的例子是智能电视，其全球份额从2015年的55%上升到2018年的70%以上。^3.

想想糟糕的数据会如何影响AI体验。数据完整性和数据质量在人工智能结果中起着关键作用。低质量的输入可能会产生意外或错误的AI输出。例如，在使用智能电视时，不小心输入了Netflix的数据(例如，随机选择了感兴趣的节目)，或者是一位房客输入了Hulu账户登录。当这些服务中用于定向广告或建议节目的算法应用到数据集时，结果可能与当前的观众没有任何关联。虽然这可能会令人恼火或没有帮助，但它不会危及生命。

但是，与生命科学应用相关的粗心数据输入或不正确的数据集可能具有包括死亡率的后果。“机器学习算法非常依赖于准确，干净，标记良好的培训数据，以便他们可以提供准确的结果，”Ron Schmelzer说。⁴在ML期间，有偏差或错误的输入可能导致不准确或异常的输出，与手边的患者无关。虽然不太可能出现错误，但考虑到对病人健康和公共安全的负面影响，错误的可接受性大幅下降。观看Netflix的节目广告是一件毫无意义的事，而服用不正确的药物则完全是另一回事。

开始就要考虑如何结束

为数据准备解决方案出现了一个市场（包括Clearstory数据，DataMeer，DataWatch，Melissa数据，Oracle，Paxata，SAP，SAS，TIBCO软件，TRIFACTA和UNIFI软件），可执行数据绞刑，数据清洁和数据准备以启用ml和ai。事实上，“绝大多数机器学习项目时间”由这些活动占据。⁴然而，按照数据创建的速度，准备数据的能力很可能会被准备的积压数据所超越。

数据准备仍然需要一定程度的人类交互。至少，当从多个数据源收集数据或将数据迁移到中央数据存储时，人类必须在ETL(提取、转换和加载)期间配置数据转换规范。然而，数据争论代表了潜在的更大的人类参与，因为上下文可能是执行健壮数据转换的高级处理所必需的。

无论数据准备解决方案能否持续，提高数据完整性和质量的争论仍然存在当它被创造时，而不是试图稍后清理，因为它正在为ML和AI做准备。这在很大程度上是通过数据管理和信息治理来实现的，其中数据完整性和数据质量是核心原则。那些为生命科学创造人工智能解决方案的人有责任最大限度地关注数据完整性和数据质量，以减轻对患者健康和公共安全产生负面影响的风险。与其他行业相比，生命科学领域的人工智能解决方案的标准更高。

数据完整性是一个关键的成功因素

数据完整性和数据质量是生命科学领域人工智能解决方案成功的关键因素。对于打算应用ML/AI的数据集，必须提高数据完整性和数据质量的标准和验证。简单地执行计算机系统验证(CSV)或在CGMP条件下管理计算机系统不足以确保数据完整性和数据质量。

在成熟的质量管理系统中，数据完整性和数据质量必须是共同的主题，并作为核心业务活动主动集成到数据管理和信息治理中。我们发现，当企业理解数据完整性和数据质量是关键的成功因素时，其结果就是竞争优势。可能会发生更少的人为错误，而且调查工作可能会更快、更成功地完成。有了可靠的数据和理解并能解释这些数据的人力资源，尽职调查更容易进行，估值更清晰，并购活动变得更有效和高效。这些成功因素将带来更好的人工智能结果，提高为患者提供产品的能力，增加所有者和股东的价值。

现在，人工智能已经变得越来越普遍，在我们“允许人工智能稳步改进并在社会中横行”的同时，我们也非常直接地面临着实际和伦理问题。¹基于错误数据的人工智能结果什么时候会导致人受伤甚至死亡?在什么情况下会涉及恶意影响这些人工智能结果导致伤害或死亡?还记得1981年的“泰诺谋杀案”吗?随之而来的监管和行业行动永远改变了我们包装药品的方式。⁵我们会表现出反应性，等待“泰诺级赛事”强迫我们管理自己和我们通过AI泵送的坏数据？或者我们会立即行事，以便热切地管理我们的数据，以防止对患者健康和人类生活产生负面影响？

引用:

Anyoha，R。（2017年8月28日）。人工智能史。从新闻网站的科学中检索到2019年6月8日：http://sitn.hms.harvard.edu/flash/2017/History-Atte-intelligence/
Bedi，K。（2019年2月21日）。人工智能如何重新发明消费电子部门。从企业家网站检索2019年6月7日：https://www.entrepreneur.com/article/328400
2015-2018年全球智能电视市场份额(2018年7月)。检索日期:2019年6月7日，从统计网站:https://www.statista.com/statistics/889000/worldwide-smart-tv-market-share/
Schmelzer，R。（2019年3月7日）。AI [FORBES]的Achilles的脚跟。从2019年6月7日检索到的https://www.forbes.com/sites/cognitifyworld/2019/03/07/the-achilles-heel-of-ai/#d08829c7be7e.
Markel, H.(2014年9月29日)。1982年的泰诺谋杀案如何改变了我们服用药物的方式。2019年6月8日，PBS新闻一小时网站:https://www.pbs.org/newshour/health/tylenol-murders-1982

关于作者:

Kip Wolf是Tunnell Consulting的校长，在那里他带来了数据完整性实践。狼拥有超过25年的管理顾问的经验，在此期间，他还暂时在世界上一些顶级生命科学公司举行了各种领导职位。狼暂时工作在Wyeth Pre-Pfizer合并和Inside Merck后Schering合并中。在两种情况下，他领导了业务流程管理（BPM）组 - 在Wyeth的制造部门和默克的研发部门。在Tunnell，他使用他的产品开发计划管理经验，以提高成功监管备案和产品发布的可能性。他还咨询了，教导，发言和发布了数据完整性和质量系统的主题。可以达到狼Kip.Wolf@tunnellconsulting.com．

本网站使用cookie以确保您在我们网站上获得最佳体验。了解更多

客人列| 2019年6月18日

AI，数据完整性和生命科学：让我们不要等到有人死亡

时事通讯注册