大数据时代是一把双刃剑吗?

如题所述

                                           大数据与生物信息学的应用研究与实践


摘要:2月20日,青岛大学数据科学与软件工程学院教授、博士、副院长李劲华在CIO时代APP微讲座栏目作了题为《大数据与生物信息学的应用研究与实践》的主题分享,他从大数据领域背景和有关科研工作(大数据在生物信息学方面的教学和研究工作)两大方面展开叙述。
关键词: CIO时代APP 微讲座


  2月20日,青岛大学数据科学与软件工程学院教授、博士、副院长李劲华在CIO时代APP微讲座栏目作了题为《大数据与生物信息学的应用研究与实践》的主题分享,他从大数据领域背景和有关科研工作(大数据在生物信息学方面的教学和研究工作)两大方面展开叙述。


  一、相关背景

  (一)生物信息学产生背景

  众所周知,生物信息学是八十年代末随着人类基因组计划的启动而兴起的一门畸形交叉学科,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到解释数据所蕴含的生物学意义的目的。当前生物信息学发展的主要推动力来自于分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面。因此,目前的生物信息学可以狭义的定义为将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科,实质是理论概念与实践应用并重的学科。

  生物信息学的产生与发展已有三十多年,美国人类基因组计划中对基因组信息学的定义是一门学科领域,包含着基因学组信息的获取、处理、存储、分配、分析和解释的所有方面。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测试工作发展极为迅速,提前完成了约四十多种生物的全基因测试与工作。截止到目前,仅登录在美国GeneBank的DNA系列总量便超过70亿碱基因对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测试所建立起来的EST数据库已超过数百万条,在这些数据基础上派生、整理出来的数据库已达5000多个。

  这一切构成了一个生物学数据的海洋。这种科学数据的极速和海量积累在科学发展史上是空前的,但数据并不等于信息和知识,当然,它是信息和知识的源泉,关键在于如何从中对其进行挖掘。与正在以指数方式增长的生物学数据相比,人类相关知识的增长却十分缓慢。一方面是巨量的数据,另一方面是我们在医学、药物、农业与环境等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。

  信息学大数据研究工作主要以分析海量多元组学数据为目标,组学大数据为生命科学带来了前所未有的机遇,在研究基因功能、疾病机理、精准医学等方面具有重要意义。大数据的规模性、多样性、高速性等这些特征为生物信息学带来了新的挑战,在数据计算方面,亟需解决中小实验室对计算资源的弹性需求;在数据分析方面,亟需多组学整合分析体系解决生物学问题。缺乏相应的生物学工具是大数据时代生命科学领域面临的主要瓶颈。

  (二)青岛大学生物信息学研究背景

  1.2009年,位于武汉大学的国家软件工程重点实验室在青岛举办暑期学校,首次听到西方学者提到计算机以生物学跨学科研究,主要包括基因测序、生物大数据可视化等。

  2.2011年起,青岛大学与深圳华大基因研究院联合创立青岛大学华大基因创新班,培养大数据时代生物基因组学、生物信息学领域拔尖创新人才。在大学生入校后一个月的时间内,从全校九千多名不同专业学生中择优挑选30人,按照厚基础、宽口径、综合式、国际化的要求,在学科基础课和专业课程阶段设有两个选课模块,一个是医学检验,一个是信息处理。

  3.2016年,与青岛大学医学部教授合作,共同申报获批了生物信息学二级学科的硕士点,研究方向主要是:序列和基因组学的分析、药物研发、生物学网络整合、数据挖掘和数据分析(主要是在生物学应用领域)、生物信息学软件方法学的研究。

  二、生物信息学研究的主要内容、主要问题和关键技术

  (一)生物信息学研究的主要内容

  1.基因组学研究

  基因组学包含了构成和维持一个生活有机体所必备的基本信息,由细胞内进行的多种分子生物学反应将这些信息转换为真正的生命现象。基因组的一部分编码蛋白质和RNA,其他部分调控这些大分子的表达。表达的蛋白质及RNA折叠为高度专一的三维结构,在体内的特定位置上实现这些功能,这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,形成大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门植根于全面深入的实验事实和数据的理论生物学。

  2.生物信息的收集、存储、管理与提供。

  包括建立国际基本生物信息库和生物信息传输的国际网络系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。

  3.基因组序列信息的提取和分析。

  包括基因的发现与鉴定,如利用国际EST数据库和各自实验室测定的相应数据,经过大规模并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明这些区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。

  4.生物信息分析的技术与方法研究。

  包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,如电子网格等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;

  5.应用与发展研究。

  汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。

  (二)研究问题

  1.生物大数据的存储与管理

  包括生物大数据的存储结构、存储标准、管理技术等,生物大数据数量大、结构复杂、存储标准多样,存在非结构化数据、半结构化数据和结构化数据等多种数据结构,如何选择分布式文件系统、分布式数据组合、分布式并行数据库系统也是生物大数据存储与管理技术的主要问题之一

  2.生物大数据可视化

  生物大数据由于数量巨大,具有普遍生物意义,合理的可视化可以帮助生物学家快速理解和分析生物数据。

  3.生物大数据的分析与处理

  整合多组学数据进行计算分析已解决实际的生物问题。

  (三)关键技术

  生物大数据领域中的关键技术有:

  1.生物大数据标准化和集成、融合技术

  研究组学数据、医疗数据和健康数据集成融合关键技术,研究开发组学、医疗和健康数据信息模型与集成引擎,研究基于国内外标准规范的消息、文档等接口实现技术,基于下一代互联网技术网络安全技术和高吞吐量传输技术。

  2.生物大数据表述索引、搜索与存储访问技术

  重点突破生物大数据资源描述和并行访问技术,构建生物大数据高效索引和可靠可扩展存储管理系统,基于语义的生物大数据资源检索、生物医疗数据关联搜索等关键技术,建立生物大数据资源搜索与获取服务系统。

  3.心血管疾病和肿瘤疾病大数据处理分析与应用研究

  分别针对心血管疾病和肿瘤疾病,集成电子病历、图像影像、临床检验数据等多类型数据(覆盖50万以上个体人群,总数据量50TB),开展医疗大数据的处理、存储、分析、应用研究,为提高重大疾病的诊治水平提供大数据支撑。

  4.基于区域医疗与健康大数据处理分析与应用研究

  选择覆盖100万以上个体人群,总数据量不少于100TB的区域医疗与健康数据,通过处理、存储、分析、整合,构建面向健康服务的知识库及支撑平台,并提供应用服务。

  5.组学大数据中心和知识库构建与服务技术

  集成包括基因组、蛋白质组等组学数据,总数据量不少于100TB,至少60%以上的数据提供对外访问,重点突破个人基因组可视化技术,组学注释与疾病风险评估技术,建立组学大数据知识库及搜索引擎、数据挖掘和可视化分析平台。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2016-11-21

一、 维克托·迈尔—舍恩伯格——开大数据系统研究之先河

    

《经济学人》说,在大数据领域,他是最受人尊敬的权威发言人之一;《科学》说,若要发起一场关于这个问题的深入探讨,没有比他更好的发起者了。他是欧盟互联网官方政策背后的重要制定者与参与者;他是最早洞见大数据时代发展趋势的数据科学家之一;他就是维克托·迈尔—舍恩伯格。

 


他说,世界的本质就是数据,大数据将开启一次重大的时代转型;

他说,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望;

他说,从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。


二、颠覆商业传统——海量数据后的相关关系

   

维克托·迈尔—恩伯格与时俱进地提出了在大数据时代的诸多变革,首先是分析思维的变革,而伴随这种变革会带来行动变革,而这种变革会发生在社会的方方面面,诸如商业领域、公共卫生、咨询决策以及国家政策等各个领域。最终会影响我们的生活方式与社会产业结构。

 

 

 大数据时代的变革,其动力来自于技术的进步与获取数据的方便性与低廉性。而这恰恰为颠覆传统时代由于各种限制而采取抽样技术而获取有用信息的途径提供了可能。现在技术成熟了,人们在获取信息时考虑的是尽可能多的样本数据,且可以是样本等于全体。同时在分析数据时更多的关注的是相关关系而非因果关系,知道是什么就已经足够了,没有必要去探究为什么。在商业领域是什么比为什么更加重要,而我觉得根据相关关系也可以去推论因果关系,这对于学术领域应该是极具有价值的。相关关系是大数据时代最重要的思维变革,而通过计算机对诸多数据的云计算与处理可以帮助我们发现这些相关关系,而这也广泛地应用于商业领域,世界上最大的零售商沃尔玛在飓风来临时把蛋挞和飓风用品摆放在一起,能获得大卖。蛋挞和飓风之间有什么因果关系吗?没有,因果在此刻没有任何意义,相关才是重要的。


 更有趣的是零售商们通过获取和分析女人们的消费数据,可以发现哪些消费者是即将要怀孕的。因为许多女人在怀孕后的三个月会在消费习惯上发生变化,(例如她会使用无香化妆品)而且是夫妻生活的分水岭,在此之后他们会关注他们以前没有关注过的品牌,并且建立对品牌的忠诚。之后公司会不定期向她们发放和赠送一些商品优惠券,比如婴儿床、奶粉等。这样地就有助于提高商家的销售额,带来很大的经济利益。



三、大数据时代——人类社会变革的双刃剑

 

大数据时代也有其宽容的一面,它允许误差的存在,不要求数据有多精确,因为海量数据会削弱误差的影响,但是更加追求效率。以上就是我们在大数据时代最重要的三项变革,而这种变革蕴藏着巨大的机会,我们的经济模式会发生巨大的变化,市场导向更加明显,重点消费对象一览无余,而这就是所谓的“反馈经济”。



在大数据时代我们每一个人都有机会去施展才华,但大数据也会让我们变得“透明”。因为我们本身就是一个数据库,我们的位置信息、消费方式、人际交往以及许多数据,都在被他者有意无意的搜集,而且我们自身却一无所知。我们的行为可以被预测,我们没有隐私。这是大数据所带来的道德问题与社会困扰。我们的世界被赤裸裸的数字包围,而或许更需要灵魂的滋润与丰满。人类的自由意志与诸神之下的尊严是否会在这条道路上异化,我不得而知,而我只想在这个时代做一个麦田里的守望者与思考者,幸福地生活才不会辜负时代与生命。

本回答被网友采纳
相似回答