BAAI
/

IndustryCorpus2_Classifier

Model card Files Files and versions

MonteXiaofeng commited on Oct 9, 2024

Commit

0f8e11f

·

verified ·

1 Parent(s): d29cec7

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -52,9 +52,9 @@ base_model:
   - 数据构建
-    数据来源：预训练预训练语料抽样和开源文本分类数据，其中预训练语料占比90%，通过数据采样，保证中英文数据占比为1:1
-    标签构造：使用LLM模型对数据进行多次分类判定，筛选多次判定一致的数据作为训练数据
-    数据规模：36K
   数据构造的整体流程如下：
   ![image-20240919140307205](./img/classify.png)

   - 数据构建
+    - 数据来源：预训练预训练语料抽样和开源文本分类数据，其中预训练语料占比90%，通过数据采样，保证中英文数据占比为1:1
+    - 标签构造：使用LLM模型对数据进行多次分类判定，筛选多次判定一致的数据作为训练数据
+    - 数据规模：36K
   数据构造的整体流程如下：
   ![image-20240919140307205](./img/classify.png)