Sqoop官方中文手册(2)

2019-01-07 16:15

有事务会将结果先存放在该表中,然后最后由该表通过一次事务将结果写入到目标表中。 –clear-staging-table 如果该staging-table非空,则通过该参数可以在运行导入前清除staging-table里的数据。 –batch 该模式用于执行基本语句(暂时还不太清楚含义) 6. import

将数据库表的数据导入到hive中,如果在hive中没有对应的表,则自动生成与数据库表

名相同的表。

sqoop import –connect jdbc:mysql://localhost:3306/hive –username root –password

123456 –table user –split-by id –hive-import –split-by指定数据库表中的主键字段名,在这里为id。

参数 说明 –append 将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。 –as-avrodatafile 将数据导入到一个Avro数据文件中 –as-sequencefile 将数据导入到一个sequence文件中 –as-textfile 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。 –boundary-query 边界查询,也就是在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:–boundary-query ?select id,creationdate from person where id = 3‘,表示导入的数据为id=3的记录,或者select min(), max() from ,注意查询的字段中不能有数据类型为字符串的字段,否则会报错:java.sql.SQLException: Invalid value for getLong() 目前问题原因还未知 –columns 指定要导入的字段值,格式如:–columns id,username –direct 直接导入模式,使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快 –direct-split-size 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。 –inline-lob-limit 设定大对象数据类型的最大值 -m,–num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数 –query,-e 从查询结果中导入数据,该参数使用时必须指定–target-dir、–hive-table,在查询语句中一定要有where条件且在where条件中需要包含$CONDITIONS,示例:–query ?select * from person where $CONDITIONS ? –target-dir /user/hive/warehouse/person –hive-table person –split-by 表的列名,用来切分工作单元,一般后面跟主键ID –table 关系数据库表名,数据从该表中获取 –target-dir

指定hdfs路径 –warehouse-dir 与–target-dir不能同时使用,指定数据导入的存放目录,适用于hdfs导入,不适合导入hive目录 –where 从关系数据库导入数据时的查询条件,示例:–where ?id = 2′ -z,–compress 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件 –compression-codec Hadoop压缩编码,默认是gzip –null-string 可选参数,如果没有指定,则字符串null将被使用 –null-non-string 可选参数,如果没有指定,则字符串null将被使用 增量导入

参数 说明 –check-column (col) 用来作为判断的列名,如id –incremental (mode) append:追加,比如对大于last-value指定的值之后的记录进行追加导入。lastmodified:最后的修改时间,追加last-value指定的日期之后的记录 –last-value (value) 指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值 对incremental参数,如果是以日期作为追加导入的依据,则使用lastmodified,否则就使用append值。

7. import-all-tables

将数据库里的所有表导入到HDFS中,每个表在hdfs中都对应一个独立的目录。

sqoop import-all-tables –connect jdbc:mysql://localhost:3306/test

sqoop import-all-tables –connect jdbc:mysql://localhost:3306/test –hive-import

参数 说明 –as-avrodatafile 同import参数 –as-sequencefile 同import参数 –as-textfile 同import参数 –direct 同import参数 –direct-split-size 同import参数 –inline-lob-limit 同import参数 -m,–num-mappers 同import参数 –warehouse-dir

同import参数 -z,–compress 同import参数


Sqoop官方中文手册(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:城关镇成人文化技术学校2009年教学计划 2009

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: