如何在HDFS中读取指定文件的内容？

热舞 • 2024-07-29 11:15 • 帮助中心 • 阅读 14

读取HDFS指定文件内容通常涉及使用Hadoop分布式文件系统（HDFS）的客户端工具或API。这可以通过编写代码实现，例如使用Java的HDFS API，或者通过命令行工具如hadoop fscat来直接查看文件内容。

要读取HDFS上的指定文件内容，可以使用Hadoop的Java API或者Python的PyArrow库，这里我将给出使用Java API的方法。

（图片来源网络，侵删）

确保你已经安装了Hadoop，并且配置了环境变量，你需要在你的项目中添加Hadoop的依赖，如果你使用的是Maven，可以在pom.xml文件中添加以下依赖：

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoopclient</artifactId>
    <version>3.3.1</version>
</dependency>

你可以使用以下代码来读取HDFS上的指定文件内容：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
public class HDFSReadFile {
    public static void main(String[] args) throws IOException {
        // HDFS文件路径
        String hdfsFilePath = "hdfs://localhost:9000/user/hadoop/test.txt";
        // 创建Hadoop配置对象
        Configuration conf = new Configuration();
        // 设置HDFS的地址
        conf.set("fs.defaultFS", "hdfs://localhost:9000");
        // 获取HDFS文件系统对象
        FileSystem fs = FileSystem.get(URI.create(hdfsFilePath), conf);
        // 打开文件输入流
        FSDataInputStream inputStream = fs.open(new Path(hdfsFilePath));
        // 使用缓冲区读取文件内容
        BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }
        // 关闭资源
        reader.close();
        inputStream.close();
        fs.close();
    }
}

这段代码首先创建一个Hadoop配置对象，并设置HDFS的地址，它获取一个HDFS文件系统对象，并使用该对象打开指定的文件，使用缓冲区读取文件内容，并将每一行输出到控制台，关闭所有打开的资源。