Ubuntu1010下Nutch12的配置以及在Eclipse下运行Nutch12源码.pdf 立即下载
2024-09-12
约8.2千字
约8页
0
419KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

Ubuntu1010下Nutch12的配置以及在Eclipse下运行Nutch12源码.pdf

Ubuntu1010下Nutch12的配置以及在Eclipse下运行Nutch12源码.pdf

预览

免费试读已结束,剩余 3 页请下载文档后查看

15 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

真水无香:705642839

本文分为两部分,第一部分介绍了Ubuntu10.10下配置Nutch1.2的方法。第二部分介绍
Eclipse下编译运行Nutch1.2的方法。说明:这两部分内容均参考了互联网上的博客文章,
本文末尾会给出参考文献。
一、Ubuntu下配置Nutch
因为Nutch是一个搜索引擎,是一个应用程序,里面包含了爬虫、索引和提供搜索。所
以为了提供查询服务,还需要下载tomcat,另外呢因为Nutch是使用java开发的,其运行
自然少不了jdk啊。本文采用的jdk版本是jdk-6u24-linux-i586.bin;Nutch版本是1.2,tomcat
版本是apache-tomcat-7.0.14。这些软件都可以去官方下载,闲话少叙,下面进入配置流程:
首先配置jdk,如果机器未安装jdk的话需要进行配置,即命令行下进入jdk-6u24
-linux-i586.bin所在文件夹,输入./jdk-6u24-linux-i586.bin,等待片刻,就会在同一目录下生
成jdk1.6.0_24文件夹,之后配置环境变量,命令行下执行sudogedit/etc/environment,更
新PATH,并添加CLASSPATH以及NUTCH_JAVA_HOME,如下:
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/opt/jdk1.6/bi
n"
CLASSPATH=".:/opt/jdk1.6/lib"
NUTCH_JAVA_HOME="/opt/jdk1.6/"(配置nutch的时候会用到)
TOMCAT_HOME="/opt/tomcat/"(这个事tomcat的环境变量,在此一起配置了)
以上环境变量中的’/opt/’这是我放置各个软件的目录,如果软件放在别的地方,此处要做对
应的修改。
配置tomcat
增加一tomcat用户,gedit/opt/tomcat/conf/tomcat-users.xml,在</tomcat-users>前面加
入一行:<userusername=”admin”password=”password”roles=”admin,manager”/>
为解决搜素过程中的乱码问题,修改tomcat下的server.xml文件,设置为utf8编码。
gedit/opt/tomcat/conf/server.xml,将connector改为:
<Connectorport="8080"protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8"
useBodyEncodingForURI="true"/>
启动tomcat:运行bin下的startup.sh,查看http://localhost:8080,看到tomcat页面,成
功。
{常见问题:
(1)对tomcat6/bin下所有的sh文件进行chmod授权,如:sudochmod+xdigest.sh。

否则报错:T
heBASEDIRenvironmentvariableisnotdefinedcorrectlyThisenvironmentvariableis
neededtorunthisprogram
(2)在tomcat6文件夹下创建一个名为logs的文件夹:mkdir
/home/username/tomcat/tomcat6/logs
否则报错:touch:无法触碰“/tomcat/tomcat6/logs/catalina.out”:没有那个文件或目录

ps:如果运行时遇到问题,可以打开logs查看问题信息。
Tomcat
的网页主目录是/tomcat/tomcat/webapps/,只需在webapps目录中添加相应网页即可
真水无香:705642839

在浏览器访问,Tomcat默认目录是webapps下的ROOT目录。
如果页面无法载入,并在logs/catalina.out中出现错误:
信息:TheAPRbasedApacheTomcatNativelibrarywhichallowsoptimalperformancein
productionenvironmentswasnotfoundonthejava.library.path:
/usr/lib/jvm/java-6-sun-1.6.0.24/jre/lib/i386/client:/usr/lib/jvm/java-6-sun-1.6.0.24/jre/lib/i386
:/usr/lib/jvm/java-6
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

Ubuntu1010下Nutch12的配置以及在Eclipse下运行Nutch12源码

文档大小:419KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用