C语言如何读取csv到数组中

C语言如何读取CSV到数组中

要在C语言中读取CSV文件到数组中，可以使用文件I/O操作、字符串处理函数、动态内存分配。以下是详细步骤：

首先，打开CSV文件并读取其内容，然后将每一行解析为字符串数组。接着，将字符串数组解析为相应的数据类型（如整型、浮点型等），并存储在二维数组中。以下详细介绍这些步骤。

一、文件I/O操作

在C语言中，文件操作通常使用标准库函数，如fopen、fclose、fgets等。首先，我们需要打开CSV文件，并确保文件成功打开。

#include <stdio.h>
#include <stdlib.h>
int main() {
    FILE *file = fopen("data.csv", "r");
    if (file == NULL) {
        perror("Error opening file");
        return -1;
    }
    // Further processing
    fclose(file);
    return 0;
}

二、读取文件内容

使用fgets函数逐行读取文件内容，并存储在一个字符数组中。每次读取一行内容后，可以使用strtok函数分割字符串。

#include <string.h>
#define MAX_LINE_LENGTH 1024
int main() {
    FILE *file = fopen("data.csv", "r");
    char line[MAX_LINE_LENGTH];
    while (fgets(line, sizeof(line), file)) {
        // Process the line
    }
    fclose(file);
    return 0;
}

三、字符串处理

使用strtok函数将一行字符串分割成多个部分，以逗号为分隔符。每个部分表示CSV文件中的一个字段。

while (fgets(line, sizeof(line), file)) {
    char *token = strtok(line, ",");
    while (token != NULL) {
        // Process each token
        token = strtok(NULL, ",");
    }
}

四、动态内存分配

为了存储CSV文件中的数据，我们需要动态分配内存。假设我们要读取一个含有N行M列的CSV文件，可以使用malloc函数动态分配二维数组。

#define ROWS 100
#define COLUMNS 10
int data = (int )malloc(ROWS * sizeof(int *));
for (int i = 0; i < ROWS; i++) {
    data[i] = (int *)malloc(COLUMNS * sizeof(int));
}

五、将字符串转换为数值

在读取并分割CSV文件中的字符串后，我们需要将这些字符串转换为相应的数值类型。可以使用标准库函数如atoi（用于整型）或atof（用于浮点型）。

while (fgets(line, sizeof(line), file)) {
    char *token = strtok(line, ",");
    int column = 0;
    while (token != NULL) {
        data[row][column++] = atoi(token);
        token = strtok(NULL, ",");
    }
    row++;
}

六、完整示例

以下是一个完整的示例程序，用于读取CSV文件并将其内容存储在一个二维数组中。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX_LINE_LENGTH 1024
#define ROWS 100
#define COLUMNS 10
int main() {
    FILE *file = fopen("data.csv", "r");
    if (file == NULL) {
        perror("Error opening file");
        return -1;
    }
    int data = (int )malloc(ROWS * sizeof(int *));
    for (int i = 0; i < ROWS; i++) {
        data[i] = (int *)malloc(COLUMNS * sizeof(int));
    }
    char line[MAX_LINE_LENGTH];
    int row = 0;
    while (fgets(line, sizeof(line), file)) {
        char *token = strtok(line, ",");
        int column = 0;
        while (token != NULL) {
            data[row][column++] = atoi(token);
            token = strtok(NULL, ",");
        }
        row++;
    }
    fclose(file);
    // Print the data to verify
    for (int i = 0; i < row; i++) {
        for (int j = 0; j < COLUMNS; j++) {
            printf("%d ", data[i][j]);
        }
        printf("n");
    }
    // Free the allocated memory
    for (int i = 0; i < ROWS; i++) {
        free(data[i]);
    }
    free(data);
    return 0;
}

七、处理大文件和异常情况

在实际应用中，CSV文件可能非常大，或者包含一些异常情况（如空行、缺失值等）。需要进一步优化代码以处理这些情况。

1、处理大文件

使用分页读取的方法，避免一次性将整个文件加载到内存中。可以逐行读取文件，并在每处理一定数量的行后，进行适当的内存释放。

2、处理异常情况

在读取和解析CSV文件时，需要检查每个字段是否为空或格式不正确，并进行相应处理。例如，如果某个字段为空，可以使用默认值替代。

while (fgets(line, sizeof(line), file)) {
    // Skip empty lines
    if (line[0] == 'n') continue;
    char *token = strtok(line, ",");
    int column = 0;
    while (token != NULL) {
        if (token[0] == '') {
            // Handle missing value
            data[row][column++] = 0; // Default value
        } else {
            data[row][column++] = atoi(token);
        }
        token = strtok(NULL, ",");
    }
    row++;
}

八、使用更高效的数据结构

对于更复杂的数据处理需求，可以使用链表、哈希表等数据结构，进一步提高代码的灵活性和效率。

1、链表

使用链表可以动态增加和删除节点，适合处理动态数据集。

typedef struct Node {
    int value;
    struct Node *next;
} Node;
Node *create_node(int value) {
    Node *new_node = (Node *)malloc(sizeof(Node));
    new_node->value = value;
    new_node->next = NULL;
    return new_node;
}
void append_node(Node head, int value) {
    Node *new_node = create_node(value);
    if (*head == NULL) {
        *head = new_node;
    } else {
        Node *current = *head;
        while (current->next != NULL) {
            current = current->next;
        }
        current->next = new_node;
    }
}

2、哈希表

使用哈希表可以实现快速查找和插入操作，适合处理需要频繁查询的数据集。

typedef struct HashNode {
    int key;
    int value;
    struct HashNode *next;
} HashNode;
#define HASH_SIZE 100
HashNode *hash_table[HASH_SIZE];
int hash_function(int key) {
    return key % HASH_SIZE;
}
void insert(int key, int value) {
    int hash_index = hash_function(key);
    HashNode *new_node = (HashNode *)malloc(sizeof(HashNode));
    new_node->key = key;
    new_node->value = value;
    new_node->next = hash_table[hash_index];
    hash_table[hash_index] = new_node;
}
int search(int key) {
    int hash_index = hash_function(key);
    HashNode *current = hash_table[hash_index];
    while (current != NULL) {
        if (current->key == key) {
            return current->value;
        }
        current = current->next;
    }
    return -1; // Key not found
}

九、使用第三方库

对于复杂的CSV文件处理任务，可以考虑使用第三方库，如libcsv或csv-parser。这些库提供了更高效和简洁的API，可以大大简化代码。

1、libcsv

libcsv是一个轻量级的CSV文件处理库，使用方便，性能优越。可以通过包管理工具安装，并按照文档使用。

#include <csv.h>
void field_callback(void *s, size_t len, void *data) {
    // Process field
}
void row_callback(int c, void *data) {
    // Process row
}
int main() {
    struct csv_parser p;
    csv_init(&p, 0);
    FILE *file = fopen("data.csv", "r");
    char buf[1024];
    size_t bytes_read;
    while ((bytes_read = fread(buf, 1, 1024, file)) > 0) {
        csv_parse(&p, buf, bytes_read, field_callback, row_callback, NULL);
    }
    csv_fini(&p, field_callback, row_callback, NULL);
    csv_free(&p);
    fclose(file);
    return 0;
}

2、csv-parser

csv-parser是一个C++库，功能强大，支持多种CSV文件格式。可以通过C++代码进行封装，并在C语言项目中使用。

#include "csv.hpp"
int main() {
    csv::CSVReader reader("data.csv");
    for (csv::CSVRow &row : reader) {
        for (csv::CSVField &field : row) {
            // Process field
        }
    }
    return 0;
}

十、总结

在C语言中读取CSV文件到数组中，需要使用文件I/O操作、字符串处理函数、动态内存分配。通过逐行读取文件内容，使用strtok函数分割字符串，并将其转换为相应的数据类型，最终存储在二维数组中。此外，还需要处理大文件和异常情况，并根据具体需求使用更高效的数据结构或第三方库。通过这些方法，可以高效地读取和处理CSV文件中的数据。