当前频道：

数据分析

涵盖数据分析相关研究热点、技术难点与应用场景，让用户更好地学习、使用数据分析的各种工具。

数据分析数据可视化 Hadoop Spark 数据仓库

数据分析

数据科学家 / 统计学家应该养成哪些好习惯？

做过一点统计模型，做过一点数据分析，现在工作名字叫数据科学家，厚着脸皮抛砖引玉，聊聊数据分析中需要养成的良好习惯。
查看全文
玩笑到现实，大数据涉足文学研究–用数据模型分析莎翁著作

自然语言研究一直以来都是计算机研究的一个重要方向。随着大数据时代的到来，人们也越来越关注自然语言这方面的进展。而文学是自然语言这个皇冠上的明珠。人们都拭目以待大数据摘下这颗明珠的那一天。
查看全文
数据分析机器学习的泰坦尼克案例-牛刀小试

我是51CTO学院讲师唐宇迪，在51CTO学院“4.20 IT充电节”(4月19~20日)到来之际，和大家分享一下机器学习实战案例经验。
查看全文
数据分析该分析什么

不管是用Python还是R，其实和用Excel一样，只不过现在之所以用Python、R是因为大数据时代么，数据太多，Excel的处理能力跟不上，但是这些都只是一个工具而已，核心还是围绕统计学不变的。
查看全文
创业公司做数据分析(五)微信分享追踪系统

本文重点探讨数据采集层中的微信分享追踪系统。
查看全文
创业公司做数据分析(六)数据仓库的建设

本文将重点探讨数据处理层中数据仓库的建设。在第二篇运营数据系统一文，有提到早期的数据服务中存在不少问题，虽然在做运营Dashboard系统时，对后台数据服务进行了梳理，构建了数据处理的底层公共库等，但是仍然存在一些...
查看全文
关于数据治理，你需要知道些什么？

每个有效的企业数据计划都离不开数据治理，也就是精心设计的政策，以明确职责、解决不同利益相关方之间的冲突，提供维护和扩展，保护敏感信息。
查看全文
微服务架构下的分布式数据管理

在微服务架构中，每个微服务都有自己私有的数据集。不同微服务可能使用不同的SQL或者NoSQL数据库。尽管数据库架构有很强的优势，但是也面对数据分布式管理的挑战。第一个挑战就是如何在多服务之间维护业务数据一致性;第二...
查看全文
非数据科学家如何进行数据分析?

大多数业务人员和分析师都将通过自助式BI工具来准备和分析大数据。虽然目前国内的发展现状无法在2018年达到自助式分析的局面，但这一趋势无法否认。即便不是数据科学家，但仍然可以轻松地分析数据，从中获取价值，才是大数...
查看全文
关联规则推荐算法的原理及实现

本文将通过一个简单的例子来说明关联规则中各个术语的含义以及具体的计算方法。
查看全文
关于大数据采集平台架构分析的简述

我们简单讨论了几种流行的数据收集平台，它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入，输出和中间的缓冲的架构。利用分布式的网络连接，大多数平台都能实现一定程度的扩展性和高可靠性。
查看全文
为何HDFS是大数据分析的软肋

分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark，你仍然需要将大量的数据快速的存入内存，所以文件系统一定要可以是高速率的。但是，HDFS并不像它标榜的那样好，它是大数据分析的薄弱环节。
查看全文
数据分析行业需要具备哪些技术如何快速进入

在本文中，我将介绍一些最常用的方法，从高质量训练数据的重要性，到超参数的选择，再到更快的做出 DNN 原型的通用技巧。
查看全文
从不同的角度来认识和理解Impala的架构设计

我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。
查看全文
为什么说Storm比Hadoop 快？

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而mapreduce可以将每次运算的数据集缩小(比如几分钟启动一次)，facebook的puma就是基于hadoop做的流计算系统。
查看全文
创业公司做数据分析(二)运营数据系统

作为系列文章的第二篇，本文将首先来探讨应用层中的运营数据系统，因为运营数据几乎是所有互联网创业公司开始做数据的起点，也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实...
查看全文
创业公司做数据分析(三)用户行为数据采集系统

用户在前端UI上的操作，大多数表现为两类：第一类，打开某个页面，浏览其中的信息，然后点击感兴趣的内容进一步浏览;第二类，打开某个页面，根据UI的提示输入相关信息，然后点击提交。其行为可以归纳为三种：浏览、输入和点击(...
查看全文