Sqoop官方中文手册(2)

2019-01-07 16:15

有事务会将结果先存放在该表中，然后最后由该表通过一次事务将结果写入到目标表中。 –clear-staging-table 如果该staging-table非空，则通过该参数可以在运行导入前清除staging-table里的数据。 –batch 该模式用于执行基本语句（暂时还不太清楚含义） 6. import

将数据库表的数据导入到hive中，如果在hive中没有对应的表，则自动生成与数据库表

名相同的表。

sqoop import –connect jdbc:mysql://localhost:3306/hive –username root –password

123456 –table user –split-by id –hive-import –split-by指定数据库表中的主键字段名，在这里为id。

参数说明 –append 将数据追加到hdfs中已经存在的dataset中。使用该参数，sqoop将把数据先导入到一个临时目录中，然后重新给文件命名到一个正式的目录中，以避免和该目录中已存在的文件重名。 –as-avrodatafile 将数据导入到一个Avro数据文件中 –as-sequencefile 将数据导入到一个sequence文件中 –as-textfile 将数据导入到一个普通文本文件中，生成该文本文件后，可以在hive中通过sql语句查询出结果。 –boundary-query 边界查询，也就是在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据，格式如：–boundary-query ?select id,creationdate from person where id = 3‘，表示导入的数据为id=3的记录，或者select min(), max() from ，注意查询的字段中不能有数据类型为字符串的字段，否则会报错：java.sql.SQLException: Invalid value for getLong() 目前问题原因还未知 –columns 指定要导入的字段值，格式如：–columns id,username –direct 直接导入模式，使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快 –direct-split-size 在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从PostgreSQL导入数据的时候，可以将一个到达设定大小的文件分为几个独立的文件。 –inline-lob-limit 设定大对象数据类型的最大值 -m,–num-mappers 启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数 –query，-e 从查询结果中导入数据，该参数使用时必须指定–target-dir、–hive-table，在查询语句中一定要有where条件且在where条件中需要包含$CONDITIONS，示例：–query ?select * from person where $CONDITIONS ? –target-dir /user/hive/warehouse/person –hive-table person –split-by 表的列名，用来切分工作单元，一般后面跟主键ID –table 关系数据库表名，数据从该表中获取 –target-dir

指定hdfs路径 –warehouse-dir 与–target-dir不能同时使用，指定数据导入的存放目录，适用于hdfs导入，不适合导入hive目录 –where 从关系数据库导入数据时的查询条件，示例：–where ?id = 2′ -z,–compress 压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件 –compression-codec Hadoop压缩编码，默认是gzip –null-string 可选参数，如果没有指定，则字符串null将被使用 –null-non-string 可选参数，如果没有指定，则字符串null将被使用增量导入

参数说明 –check-column (col) 用来作为判断的列名，如id –incremental (mode) append：追加，比如对大于last-value指定的值之后的记录进行追加导入。lastmodified：最后的修改时间，追加last-value指定的日期之后的记录 –last-value (value) 指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值对incremental参数，如果是以日期作为追加导入的依据，则使用lastmodified，否则就使用append值。

7. import-all-tables

将数据库里的所有表导入到HDFS中，每个表在hdfs中都对应一个独立的目录。

sqoop import-all-tables –connect jdbc:mysql://localhost:3306/test

sqoop import-all-tables –connect jdbc:mysql://localhost:3306/test –hive-import

参数说明 –as-avrodatafile 同import参数 –as-sequencefile 同import参数 –as-textfile 同import参数 –direct 同import参数 –direct-split-size 同import参数 –inline-lob-limit 同import参数 -m,–num-mappers 同import参数 –warehouse-dir

同import参数 -z,–compress 同import参数

共4页:

Sqoop官方中文手册(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档