选拔crontab定期起步nutch遭受的难题

然后再用crontab -e将3 18 * * * /root/runcrawler.sh 1>/tmp/log3
2>/tmp/log4添加定时启动文件中,问题得到了解决。

1、认识Cron
cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron
是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务:
/sbin/service crond start //启动服务
/sbin/service crond stop //关闭服务
/sbin/service crond restart //文字重启服务
/sbin/service crond reload //重新载入配置
你也可以将这个服务在系统启动的时候自动启动:
在/etc/rc.d/rc.local这个脚本的末尾加上:
/sbin/service crond start
2、Cron服务
1)直接用crontab命令编辑
cron服务提供crontab命令来设定cron服务的,以下是这个命令的一些参数与说明:
crontab -u
//设定某个用户的cron服务,一般root用户在执行这个命令的时候需要此参数
crontab -l //列出某个用户cron服务的详细内容
crontab -r //删除没个用户的cron服务
crontab -e //编辑某个用户的cron服务
比如说root查看自己的cron设置:crontab -u root -l
再例如,root想删除fred的cron设置:crontab -u fred -r
在编辑cron服务时,编辑的内容有一些格式和约定,输入:crontab -u root -e
(注:大哥大姐,看文章时别忘记关注我哟,嘿嘿)
进入vi编辑模式,编辑的内容一定要符合下面的格式:*/1 * * * * ls
>> /tmp/ls.txt
这个格式的前一部分是对时间的设定,后面一部分是要执行的命令,如果要执行的命令太多,可以把这些命令写到一个脚本里面,然后在这里直接调用这个脚本就可以了,调用的时候记得写出命令的完整路径。时间的设定我们有一定的约定,前面五个*号代表五个数字,数字的取值范围和含义如下:
分钟 (0-59)
小時 (0-23)
日期 (1-31)
月份 (1-12)
星期 (0-6)//0代表星期天
除了数字还有几个个特殊的符号就是”*”、”/”和”-“、”,”,*代表所有的取值范围内的数字,”/”代表每的意思,”*/5″表示每5个单位,”-“代表从某个数字到某个数字,”,”分开几个离散的数字。以下举几个例子说明问题:
每天早上6点
0 6 * * * echo “Good morning.” >> /tmp/test.txt
//注意单纯echo,从屏幕上看不到任何输出,因为cron把任何输出都email到root的信箱了。
每两个小时
0 */2 * * * echo “Have a break now.” >> /tmp/test.txt
晚上11点到早上8点之间每两个小时,早上八点
0 23-7/2,8 * * * echo “Have a good dream:)” >>
/tmp/test.txt
每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点
0 11 4 * 1-3 command line
1月1日早上4点
0 4 1 1 * command line
每次编辑完某个用户的cron设置后,cron自动在/var/spool/cron下生成一个与此用户同名的文件,此用户的cron信息都记录在这个文件中,这个文件是不可以直接编辑的,只可以用crontab
-e
来编辑。cron启动后每过一份钟读一次这个文件,检查是否要执行里面的命令。因此此文件修改后不需要重新启动cron服务。
2)编辑/etc/crontab 文件配置cron
cron
服务每分钟不仅要读一次/var/spool/cron内的所有文件,还需要读一次/etc/crontab,因此我们配置这个文件也能运用cron服务做一些事情。用crontab配置是针对某个用户的,而编辑/etc/crontab是针对系统的任务。此文件的文件格式是:
SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root //如果出现错误,或者有数据输出,数据作为邮件发给这个帐号
HOME=/ //使用者运行的路径,这里是根目录
# run-parts
01 * * * * root run-parts /etc/cron.hourly
//每小时执行/etc/cron.hourly内的脚本
02 4 * * * root run-parts /etc/cron.daily
//每天执行/etc/cron.daily内的脚本
22 4 * * 0 root run-parts /etc/cron.weekly
//每星期执行/etc/cron.weekly内的脚本
42 4 1 * * root run-parts /etc/cron.monthly
//每月去执行/etc/cron.monthly内的脚本
3、实例
我在/etc/crontab 文件中配置cron;
#product price trend picture
0 1 * * * root sh /home1/picture/myconfig.sh  
(每天1点钟时执行root用户中的/home1/picture/myconfig.sh )
我的myconfig.sh:
JAVA_HOME=/home1/jdk1.5.0_03;export JAVA_HOME
JAVA_OPTS=”-server -Djava.awt.headless=true”;export JAVA_OPTS
(由于我的应用是一个绘图应用,所以要以上两段,指定JDK等)
cd /home1/picture/lib (指定我的JAR文件所在位)
/home1/jdk1.5.0_03/bin/java -cp
/home1/picture/lib/PriceTrendPicture.jar:/home1/picture/lib/classes12.jar:/home1/picture/lib/ibatis-common-2.jar:/home1/picture/lib/ibatis-dao-2.jar:/home1/picture/lib/ibatis-sqlmap-2.jar:log4j-1.2.8.jar:/home1/picture/lib/xmlparserv2.jar:/home1/picture/lib/commons-logging.jar
com.yesky.run.PriceTrendPicture
/home1/jdk1.5.0_03/bin/java -cp 这是我的JDK位置
随后加上所有使用的JAR文件 最后是有main()的执行类

确保已经安装了Hadoop并保证hadoop运行正常。关于hbase与hadoop的版本依赖关系,请参考: 

关于java和hadoop的安装和配置请参考:http://www.linuxidc.com/Linux/2014-04/100934.htm 本文不再赘述,只给出/etc/profile中关于JAVA_HOME,HADOOP_HOME和HBASE_HOME的配置参考:

Linux下使用crontab定时启动nutch时,发现不能正常启动,将错误输出到日志log中报“Error:
JAVA_HOME is not set.”

JAVA_HOME=/usr/java/jdk1.7.0_51
HADOOP_HOME=/usr/local/hadoop
HBASE_HOME=/usr/local/hbase
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin
export JAVA_HOME HADOOP_HOME HBASE_HOME PATH

#!/bin/bash 
cd /home/program/nutch-1.2/ 
export JAVA_HOME=/usr/java/jdk1.6.0_34 
bin/nutch crawl5 1>/tmp/log1 2>/tmp/log2 
exit 

1.4 配置slave结点列表

说明java路径没有设置好,但Linux系统下已经在profile文件中配置了JAVA_HOME。

export JAVA_HOME=/usr/java/jdk1.7.0_51
export HBASE_LOG_DIR=/var/hbase/logs

后来,写了一个runcrawler.sh文件,文件内容为

更多详情见请继续阅读下一页的精彩内容
http://www.linuxidc.com/Linux/2014-04/100935p2.htm

图片 1

  1. 安装与配置
  1. 启动

发表评论

电子邮件地址不会被公开。 必填项已用*标注