Hadoop目前来讲,多数还是应用于处理线下数据,其处理的数据来源大多还是传统的关系型数据库,在这种应用场景下,Hadoop平台类似于一个数据处理工厂,输入是原材料(原始数据),而输出是生产的产品(分析或挖掘后的数据)。由谁来运输原材料和产品呢,我们可以自建车队,自定义物流系统,但是有这么一家优质的快递公司-Sqoop提供了物流服务,而且是免费的(开源),怎能不用之?所以,这篇文章主要介绍Sqoop的基本原理和相关用法。
Sqoop是一个开源工具,它允许用户将数据从关系型数据库抽取到Hadoop中,用于进一步的处理。抽取出的数据可以被MapReduce程序使用,也可以被其他类似于Hive的工具使用。一旦形成分析结果,Sqoop便可以将这些结果倒回数据库,供其他客户端使用。
1. 导入数据
要从关系型数据库中导入数据到HDFS,需要用到Sqoop的import工具,import工具会运行一个MapReduce作业,该作业会连接MySQL数据库并读取表中的数据。默认情况下,该作业会并行使用4个map任务来加速导入过程。每个任务都会将其所导入的数据写到一个单独的文件,但所有4个文件都位于同一个目录中。如下所示:
sqoop import --connect jdbc:mysql://localhost:dbname --table tablename -m 1
-m指定map任务数量,如上面提到的,默认值为4。在上面的实例中,使用了连接字符串(jdbc:mysql://localhost:dbname ),表明需要从本地机器上的数据库中读取数据,如果使用分布式Hadoop集群,则在连接字符串中不能使用localhost,否则,与数据库不在同一台机器上运行的map任务都将无法连接到数据库。即使是从数据库服务器所在主机运行Sqoop,也需要为数据库服务器指定完整的主机名。
默认情况下,Sqoop会将我们导入的数据保存为逗号分隔的文本文件。如果导入数据的字段内容中存在分隔符,则我们可以另外指定分隔符、字段包围字符和转义字符。使用命令行参数可以指定分隔符、文件格式、压缩以及对导入过程进行更加细粒度的控制。具体参见“Sqoop User Guide”。
分享到:
相关推荐
apache-atlas-2.2.0-sqoop-hook.tar.gz
配置环境变量加入Sqoop的安装路径: 1、进入存放sqoop-1.4.7.tar.gz安装的目录执行下面的命令 sudo tar -zxvf /home/thinkgamer/下载/sqoop-1.4.7.tar.gz –C sudo mv sqoop-1.4.7/ sqoop 2、编辑/etc/profile文件,...
实验13-sqoop数据集成.docx
apache-atlas-2.1.0-sqoop-hook.tar.gz--基于cdh6.3.1编译完成
大数据技术基础实验报告-sqoop的安装配置与应用
大数据教程-Sqoop安装与使用实录,详细细节安装、部署步骤
大数据平台-Sqoop培训.pdf
Sqoop是SQL-to-Hadoop的缩写,是Hadoop的周边工具,它的主要作用是在结构化数据存储与Hadoop之间进行数据交换。Sqoop可以将一个关系型数据库(例如MySQL、Oracle、PostgreSQL等)中的数据导入Hadoop的HDFS、Hive中,...
FlinkX-1.10、Sqoop-1.4.7
配合实战使用~
数据迁移工具sqoop和Hadoop系统集成步骤说明
利用eclipse开发工具 远程调试sqoop一些相关问题描述。
2. 练习使用Sqoop将数据从Mysql中导入到HBase中 3. 练习使用Sqoop将数据在Mysql与Hive之间的导入导出 4. Sqoop上的操作举例
NULL 博文链接:https://chengjianxiaoxue.iteye.com/blog/2235797
Hadoop-Sqoop-Oracle 使用Sqoop在Oracle数据库和HDFS之间进行导入和导出 内容 使用 操作系统-Ubuntu 20.04.1 LTS(VMware) 后端-Java (JDK 1.8), Sqoop(v1.4.7) , Hadoop(v3.3.0) 库-OJDBC(v7),...
sqoop自动安装脚本,需修改文件路径以及配置路径,相关资源下载后按照指定路径存放后运行即可!
实践报告
上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎,同时实现变量、脚本、函数和资源文件等用户资源的跨上层应用互通,以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。...
1.集群配置,包含三个结点,主节点控制所有的子节点 2.集群已经搭建好了,解压之后...3.包含全套组件:hdfs,hbase,hive,sqoop,mysql,pig,spark等大数据组件 4.如果不知道如何使用,或者需要做Hadoop项目可以私信博主