大数据 (巨量数据集合(IT行业术语))

大家好,今天带大家了解大数据。对于外行来说,大数据名词听起来很高端、大气。却很抽象,让人无法理解。但作为编程人员、数据库管理员,大数据是需要详细了解的。这将会成为你们未来的发展方向。

首先简介一下大数据能干什么?大家都知道,我们在淘宝购物。需要注册帐号,然后选购商品、加入购物车、付款发货、货物的物流信息等等。这些信息在电脑里被称为数据。产生的数据都会存储到淘宝的服务器里。每天数以亿计的数据,被存储到淘宝服务器里。由于这些数据很庞大,所以被称为大数据。再根据基础大数据,在后台进行智能分析。就能分析出指定用户的购物喜好。某些产品的销售量等等信息。然后通过挖掘大数据的结果,向用户推送指定商品。这就是大数据时代,给你我带来的便利。

由于大数据里有海量的数据,存储和分析这些数据最主要就是要解决效率的问题。如何快速存储和分析海量的数据?目前都采用了一些什么技术?带着这些问题。我来讲一下,需要充电学习的方面。首先java语言是必须精通掌握的基础,用于大数据开发。接下来必须了解网络编程,mysql等数据库。再进一步学习,就需要了解集群技术。因为海量的数据需要采用多个数据库来进行存储和处理。即分布式存储。目前解决的方案,是采用hadoop架构。Hadoop实现一个分布式存储,具有高容错性、高吞吐量来访问应用程序的数据,适合超大数据集的应用程序。Hadoop的高吞吐,海量数据处理的能力使人们可以方便地处理海量数据。但hadoop不擅长实时计算,另一项大数据技术storm由此而生。他具有实时的数据处理能力。比如你昨天在淘宝买了一双鞋,今天你想买一顶帽子。而大数据分析的结果还是昨天的,系统不断的在向你推荐鞋子。而不去考虑你今天的需求。使用了storm技术,就会实时的分析你的需求,系统就会根据结果,向你推荐帽子。大数据的另一项技术Apache spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。用于配合hadoop和storm技术处理大数据。通过并行化地计算,加快的大数据的处理。

大数据的另一方向就是机器学习,要想得到一个高效的机器学习系统。就需要先用少量的数据去训练它。在少量的数据下机器学习系统不出错。再加大学习量,最终就能通过反复测试上线。大数据下的机器学习需要很多学习样本,在大量的学习样本下。机器可以类似于人工一样筛选,分析处理得到有用的数据,最终将结果反馈给用户。机器学习要掌握R语言、python和mahout技术。机器学习应用前景很广,不只是大数据可以使用。可能会成为未来程序员必修的课程。


相关文章