Hive应用sqoop从MS-SQL 和Oracle 全量增量导入至HIVE
作者:admin 日期:2017-05-25
全量导入比较容易,关键在于增量导入
Sqoop导入数据顺序
其实可以把导入的代码固定成脚本,然后只要把库名跟表名换掉就可以了
Sqoop的增量导入要与sqoop的Job关联在一起
全量导入MS-SQL数据至HIVE
复制内容到剪贴板 程序代码
#Set the RDBMS connection params
rbms_driver='com.microsoft.sqlserver.jdbc.SQLServerDriver'
rdbms_connstr="jdbc:sqlserver://MSSQL数据库主机;username=用户名;password=密码;database=库名"
rdbms_username="MSSQL数据库用户名"
Hive 的字符串UrlDecode 中文解码
作者:admin 日期:2017-05-23
真没想到,原来HIVE自己有Urldecode,原本以为要写一个UDF,结果不然。
业务场景: 某字段基本为中文字符,采集时做了urlEncode处理,入到库中没有解码。
要解决的问题:将encode的数据做urldecode处理
方案一:自构建一个UDF函数,需要继承UDF,实现其evaluate()方法
复制内容到剪贴板 程序代码
@Description(name = "decoder_url", value = "_FUNC_(url [,code][,count]) - decoder a URL from a String for count times using code as encoding scheme ", extended = ""
+ "if count is not given ,the url will be decoderd for 2 time,"
+ "if code is not given ,GBK is used")
public class UDFDecoderUrl extends UDF {
private String url = null;
private int times = 2;
private String code = "GBK";
public UDFDecoderUrl() {