HuggingFace
Dataset
csvファイルからDatasetDictを作成する例
import pandas as pd
from sklearn.model_selection import train_test_split
from datasets import Dataset, DatasetDict, ClassLabel
train_base_df = pd.read_csv("train.csv")
train_df, valid_df = train_test_split(train_all_df, test_size=0.1,
stratify=train_base_df["label"], random_state=SEED)
# reset_indexしないとindexが特徴量として認識される
train_df = train_df.reset_index(drop=True)
valid_df = valid_df.reset_index(drop=True)
dataset_dict = DatasetDict({
"train": Dataset.from_pandas(train_df),
"valid": Dataset.from_pandas(valid_df),
})
# ClassLabelクラスに変換
class_label = ClassLabel(num_classes=2, names=["normal", "hate"])
dataset_dict = dataset_dict.cast_column("label", class_label)トークナイザ処理
隠れ次元のベクトルを得る方法
モデルのconfig確認
EvalPrediction
SchedulerType
MTEB
Last updated