您的当前位置：首页正文

本地Spark环境读取云上的HDFS文件

来源：尚车旅游网

1. 腾讯云hadoop环境的搭建

参考我之前的文档

有坑：关于本机的ip设置要设置成内网的ip，关于其他机器的ip要设置成公网ip

搭建完成之后访问公网的50070端口

2. 使用spark操作云上的HDFS文件

上传文件 hdfs dfs -put

会遇到问题：

ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0) org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2074914242-172.23.8.102-1618472170982:blk_1073744030_3207 file=/user/hive/warehouse/hdu.db/city_info/city_info.txt at org.apache.hadoop.hdfs.DFSInputStream.chooseDataNode(DFSInputStream.java:976) at org.apache.hadoop.hdfs.DFSInputStream.blockSeekTo(DFSInputStream.java:632)

是因为datanode内部通信有问题，没有使用域名

可以设置使用域名，参考：

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文