Hadoop - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

使用 TiDB 进行实时数据分析-马晓宇

��@PingCAP About Me ● ��@PingCAP ● �� BigData Infra Team Lead ● ��SQL on Hadoop �� ● �� ● �� Data Sink �� SQL Server Events BI Tools Web Console �� ● �� NoSQL ○ �� ○ �� ● �� Hadoop ○ �� RDBMS �� NoSQL ○ �� Update�� ● �� ○ �� ○ �� ● �� Query ○ �� → �� Join �� ○ SQL �� → Data Science / Machine Learning ○ �� → �� Hadoop �� ● �� TiDB �� TiSpark ● TiSpark �� TiDB �� Apache Spark �� ● �� Apache Spark

0 码力 | 36 页 | 9.32 MB | 1 年前
3
分布式NewSQL数据库TiDB

做出决策，故需要将分散在各个系统的数据汇聚在同⼀个系统并进⾏⼆次加⼯处理⽣成 T+0 或 T+1 的报表。传统常⻅的解决⽅案是采⽤ ETL + Hadoop 来完成，但 Hadoop 体系太复杂，运维、存储成本太⾼⽆法满⾜⽤⼾的需求。与 Hadoop 相⽐，TiDB 就简单得多，业务通过 ETL ⼯具或者 TiDB 的同步⼯具将数据同步到 TiDB，在 TiDB 中可通过 SQL 直接⽣成报表

0 码力 | 120 页 | 7.42 MB | 5 月前
3
TiDB 与 TiFlash扩展——向真 HTAP 平台前进韦万

OLTP specialized database or NoSQL ○ For historical data, use Hadoop / analytical database ● Offload data via the ETL process into your Hadoop cluster or analytical database ○ Per hour or even per day

0 码力 | 45 页 | 2.75 MB | 5 月前
3
PingCAP TiDB&TiKV Introduction OLTP

Spanner 2013 F1 BigTable Map Reduce GFS Google 十年前基于内部分布式处理框架发表的三篇论文奠定了大数据分析处理基石；开源社区以此为基础打造了Hadoop F1 Data Flow Spanner Colossus Google 内部新一代分布式处理框架，于12/13年发表相关论文，奠定下一代分布式 NewSQL的理论和工程实践基石。PingCAP以此为基础打造了TiDB 我们的数据库能解决什么问题 - 1 ● 无限线性水平扩展（Scale Out）无论多大的数据量，都可以轻松通过增加节点来解决，写入和读取时延固定（毫秒级别），无需分库分表或者搭建复杂的 Hadoop 集群，完整的 MySQL 兼容接口轻松处理高并发实时写入、实时查询和分析，极大的简化程序设计、应用维护，轻松应对大数据存储问题。 ● 高并发、高吞吐、完整的跨行事务支持、强一致性通过简单

0 码力 | 21 页 | 613.54 KB | 5 月前
3
TiDB中文技术文档

Spark。对于 Standalone 模式且无需 Hadoop 支持，请选择 Spark 2.1.x 且带有 Hadoop 依赖的 Pre-build with Apache Hadoop 2.x 任意版本。如您有需要配合使用的 Hadoop 集群，请选择对应的 Hadoop 版本号。您也可以选择从源代码自行构建以配合官方 Hadoop 2.6 之前的版本。请注意目前 TiSpark 仅支持 +-------------+ 2. | Count (1) | 3. +-------------+ 4. | 600000000 | 5. +-------------+ Q. 是独立部署还是和现有 Spark／Hadoop 集群共用资源？ A. 您可以利用现有 Spark 集群无需单独部署，但是如果现有集群繁忙，TiSpark 将无法达到理想速度。 Q. 是否可以和 TiKV 混合部署？ A. 如果 TiDB 以及 Data Federation（桥接其他数据源，最好能和社区同步，这个接进来可以比较好扩展 Usecase，如果再做一个 InputFormat 适配就可以接 Hive 和 Presto 这些 Hadoop 上的数仓） On-Premise 版本集成部署 (K8s based) On-Premise 版本 Dashboard UI 集群备份和恢复工具（结合物理备份）数据迁移工具（Wormhole

0 码力 | 444 页 | 4.89 MB | 5 月前
3
TiDB: HBase分布式事务与SQL实现

predicate push down via server side Filters ● MVCC What did they say ? “Nothing is hotter than SQL-on-Hadoop, and now SQL-on- HBase is fast approaching equal hotness status” Form HBaseCon 2015 We

0 码力 | 34 页 | 526.15 KB | 1 年前
3
TiDB v5.3 Documentation

traditional solution is to use ETL and Hadoop, but the Hadoop system is complicated, with high operations and maintenance cost and storage cost. Compared with Hadoop, TiDB is much simpler. You can replicate mode without Hadoop support, use Spark 2.4.x and any version of the pre-build binaries with Hadoop dependencies, for example spark-2.4.8-bin-hadoop2 �→ .7.tgz. If you need to use the Hadoop cluster, choose choose the corresponding Hadoop version. You can also choose to build from the source code to match the previous version of the official Hadoop 2.x. Example: wget https://archive.apache.org/dist/spark/spark-2

0 码力 | 2996 页 | 49.30 MB | 1 年前
3
TiDB v5.1 Documentation

traditional solution is to use ETL and Hadoop, but the Hadoop system is complicated, with high operations and maintenance cost and storage cost. Compared with Hadoop, TiDB is much simpler. You can replicate mode without Hadoop support, use Spark 2.3.x and any version of Pre-build with Apache Hadoop 2.x with Hadoop dependencies. If you need to use the Hadoop cluster, choose the corresponding Hadoop version. You You can also choose to build from the source code to match the previous version of the official Hadoop 2.x. Suppose you already have a Spark binaries, and the current PATH is SPARKPATH, you can copy the

0 码力 | 2745 页 | 47.65 MB | 1 年前
3
TiDB v5.2 Documentation

traditional solution is to use ETL and Hadoop, but the Hadoop system is complicated, with high operations and maintenance cost and storage cost. Compared with Hadoop, TiDB is much simpler. You can replicate mode without Hadoop support, use Spark 2.3.x and any version of Pre-build with Apache Hadoop 2.x with Hadoop dependencies. If you need to use the Hadoop cluster, choose the corresponding Hadoop version. You You can also choose to build from the source code to match the previous version of the official Hadoop 2.x. Suppose you already have a Spark binaries, and the current PATH is SPARKPATH, you can copy the

0 码力 | 2848 页 | 47.90 MB | 1 年前
3
TiDB 开源分布式关系型数据库

小红书是年轻人的生活方式平台, 用户可以通过短视频,图文等形式记录生活点滴, 分享生活方式。截至到 2019 年 10 月, 小红书月活跃用户数已经过亿, 并持续快速增长。业务挑战在数据报表场景, 原先采用 Hadoop 数仓对数据做预聚合, 然后放到 MySQL 里面做查询, 随着业务增长，报表形式更加多样化, MySQL 的扩展性成为瓶颈。多节点 MySQL 的分库分表方案复杂度高, 运维非常困难。在反欺诈分析场景

0 码力 | 58 页 | 9.51 MB | 1 年前
3

共 37 条前往

页

分类

语言

格式

使用 TiDB 进行实时数据分析-马晓宇

分布式NewSQL数据库TiDB

TiDB 与 TiFlash扩展——向真 HTAP 平台前进韦万

PingCAP TiDB&TiKV Introduction OLTP

TiDB中文技术文档

TiDB: HBase分布式事务与SQL实现

TiDB v5.3 Documentation

TiDB v5.1 Documentation

TiDB v5.2 Documentation

TiDB 开源分布式关系型数据库