预览模式: 普通 | 列表

Hive 自动生成建表语句



搜索了很多文章,感觉这个最实在实用,写个脚本批量执行就可以了。



#!/bin/bash
hive -e "use hive_dbname;show tables;" > tables.txt
cat tables.txt | while read eachline
do
hive -e "use hive_dbname;show create table $eachline" >>tablesDDL.txt
done



执行如下




查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2167

大数据应用之应用场景



随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。很多组织或者个人都会受到大数据的分析影响,但是大数据是如何帮助人们挖掘出有价值的信息呢

















查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1905


全量导入比较容易,关键在于增量导入


Sqoop导入数据顺序




其实可以把导入的代码固定成脚本,然后只要把库名跟表名换掉就可以了


Sqoop的增量导入要与sqoop的Job关联在一起

全量导入MS-SQL数据至HIVE

#Set the RDBMS connection params
rbms_driver='com.microsoft.sqlserver.jdbc.SQLServerDriver'
rdbms_connstr="jdbc:sqlserver://MSSQL数据库主机;username=用户名;password=密码;database=库名"
rdbms_username="MSSQL数据库用户名"

查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3533

Hive 的字符串UrlDecode 中文解码



真没想到,原来HIVE自己有Urldecode,原本以为要写一个UDF,结果不然。

业务场景: 某字段基本为中文字符,采集时做了urlEncode处理,入到库中没有解码。



要解决的问题:将encode的数据做urldecode处理

方案一:自构建一个UDF函数,需要继承UDF,实现其evaluate()方法

@Description(name = "decoder_url", value = "_FUNC_(url [,code][,count]) - decoder a URL from a String for count times using code as encoding scheme ", extended = ""  
    + "if count is not given ,the url will be decoderd for 2 time,"  
    + "if code is not given ,GBK is used")  
public class UDFDecoderUrl extends UDF {  
  private String url = null;  
  private int times = 2;  
  private String code = "GBK";  
  
  public UDFDecoderUrl() {  

查看更多...

分类:编程技术 | 固定链接 | 评论: 1 | 引用: 0 | 查看次数: 22214

2017.05.14. 2017凯乐石广州龙洞越野



没有准备好的比赛 成绩就是好不了 这次跑得累 每个点都要上楼梯 导致整体都慢下来了

这样是搞不了100公里的 还是要多跑多上山















查看更多...

Tags: 广州 龙洞越野

分类:成长 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2104

Hive的某字段去重导入




需求:
1从源数据导入的数据按日期递增分区存储
2.在实际业务使用时只取最早录入的记录即入库里
3.定时过滤并存储到另一张表内。

关键:
每天从源数据导入的业务数据是全量更新 但存储的时候是增量更新 务必会存在某字段数据重复 需要处理

查询源数据


要得到的数据



要使用到的Hive 函数 row_number()   not in

查询所有最早时间录入的源数据

查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 6431

2017.04.22 深圳磨房100公里



一直听说这个很有来头,今年尝试了一下。以走的方式参与,走下来一点不比越野累。







其实是为了奖牌去的....


查看更多...

分类:成长 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2326

2017 03.05  2017东莞森林马拉松



这是迄今为止跑得最虐的一个马拉松 一是赛道 二是大半个月没跑就直接就去参赛了











查看更多...

分类:成长 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2039

大数据架构之Storm流式处理框架

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2005

《以奋斗者为本》读书笔记



不是很喜欢这样语录式的结构 感觉就是任总的话语摘抄 但里面的话又都说得很实在很清楚

















查看更多...

分类:读书&想法 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2144

大数据应用之电商运营数据分析指标








查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1935

2017 02.12  2017香港渣打马拉松



马拉松一组53名 杠杠的











这是第一次去HK 顺便去了一下维多利亚港





查看更多...

分类:成长 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1914

大数据架构之Spark内存计算框架

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1950

大数据架构之Haddop离线应用框架



大数据学习之离线应用框架组件简介

















查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1876

2017 01.27 年夜饭



好长时间没有晒咱家的年夜饭了

















查看更多...

分类:摄影 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2003

大数据应用之APP产品数据分析指标



花了点时间了解和搜寻了一下相关的知识,感觉在用户体验这块的指标体系较难量化。








这里还有一份友盟的,可供参考





查看更多...

分类:编程技术 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2085
重命名文件夹或文件提交SVN报错:

both sides of the move must be committed together

环境:java+idea+svn

解决办法:

把要提交的文件所在的整个文件夹的文件复制一份出来暂时放在一个地方

删除当前的文件夹,提交svn commit changes

在Project里新增一个跟原来文件夹名一样的文件夹 提交svn commit changes

再把原来的文件粘贴回来 提交svn  commint changes

OK 了

查看更多...

分类:编程技术 | 固定链接 | 评论: 1 | 引用: 0 | 查看次数: 12953

2017 01.08 厚街半程马拉松



新年前的最后一赛,权当拉练.





奖牌




成绩






纪念

查看更多...

分类:成长 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2012

《自控力》读书笔记



这是今年看的第一本书。

人到中年,确实需要一些改变,当然,自己也在改变着。

不过这本书看起来名气大,感觉是本鸡汤书。













查看更多...

分类:读书&想法 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1852