数据埋点日志awk脚本快速入库

cfyme

浏览: 263226 次
性别:
来自: 杭州

最近访客更多访客>>

taotesea

alushuai159

renfang232

i_am_erduo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

工作积累
shell脚本
linux

工作上有这样一个需求：

服务端每天产生的埋点日志比较多>200万行,凌晨2点将这个日志的数据入库到数据库，便于BI分析。

最初我的思路是：写一个shell脚本，将入库的逻辑放入shell脚本中，再将这个shell脚本放入到linux服务器crontab任务中。

说起来简单，但在编写的过程中遇到了问题，主要是日志量大，入库的速度很慢，最初的实现是

cat statlog.log | while read line 这种遍历日志，按行读取来入库，速度超慢。

经优化，采用awk的方式来做：

1,代码如下：

BEGIN{
    FS=","   
    user="test"
    passwd="test"
    host="192.168.0.9"
    print "==============start=================="
    sqlInsert="INSERT INTO log.logs_mobile_stat (p1, p2, p3, p4, p5, type, cookie, user_id, time, platform) VALUES"
    sql=sqlInsert
    idx=0
    conMysql="mysql -h" host " -u" user " -p'" passwd "' log -e " "date +%Y-%m-%d\ %H:%M:%S" | getline time;print time;	
}

{
	idx=idx+1
	#每1000条记录拼接长一条sql
	if(idx==1000){		
		sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"');"		
		sql=sql sqlValues		
		str=conMysql "\"" sql "\" "
		system(str)
		idx=0
		sql=sqlInsert
	}else{		
		sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"'),"
		sql=sql sqlValues
	}
}

END{         
	#去掉最后的分号
	sql= substr(sql, 0, length(sql))	
    
	str=conMysql "\"" sql "\" "
	
	#执行最后不足1000条记录的sql
	if(idx>0 && idx<1000){
		system(str)
		print"=============end============idx====="idx	
	}	
	
    "date +%Y--%m-%d\ %H:%M:%S" | getline time2;print time2
    print"=============end================="	

}

2,将上面的代码保存为stat.awk文件，写个调度stat.awk文件的shell，文件名为executeStat.sh

#!/bin/sh

date=`date   -d   -1day +%Y-%m-%d`;
 
log=/home/www/logs/taofen8/api/statlog.log.$date 

sudo awk -f /tmp/stat.awk  $log

3,将executeStat.sh加入到crontab定时任务中，每天凌晨2点执行

0 2 * * * sudo /tmp/executeStat.sh > /tmp/stat.log

经线上测试，200万左右的日志入库2分钟左右，速度还可以吧。

分享到：

vi常用命令 | 统计push点击次数的shell脚本版本2

2015-04-14 00:38
浏览 1218
评论(0)
论坛回复 / 浏览 (0 / 2056)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据埋点日志awk脚本快速入库

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据埋点日志awk脚本快速入库

评论

发表评论

相关推荐

nginx一段时间内的访问量统计

如何kill某个进程

《vi中的替换艺术》-linux命令五分钟系列之十一

Linux去除重复列（awk之数组妙用）

一个Bash Shell 实现的局域网即时通信工具 ^_^

shell 脚本编程的10 个最佳实践

收集实用linux命令

linux开放指定端口

非root用户启动tomcat

linux使用vi中文乱码的解决办法

jstl choose标签实现if else

常用统计分析 SQL 在 AWK 中的实现

串行执行批量任务脚本

Linux服务器性能评估

shell一些技巧和知识点

linux常用命令技巧

在服务器上排除问题的头五分钟

修改user.home

查看日志非常实用的命令

流量监控脚本

最近访客更多访客>>