SentenceTransformer based on AITeamVN/Vietnamese_Embedding_v2
This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding_v2. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: AITeamVN/Vietnamese_Embedding_v2
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Các hoạt động gây quỹ của CLB được tổ chức ra sao?',
'TRAINING: Trong quá trình training, các bạn sẽ được đào tạo và sử dụng thành thạo về ngôn ngữ C. Ngôn ngữ C là một ngôn ngữ phổ biến, cú pháp tường minh, dễ sử dụng đối với những người bắt đầu với lập trình. Và điều đặc biệt cho các PTITER là ngôn ngữ C sẽ được học vào kỳ 2 năm nhất, cho nên bạn sẽ có lợi thế khi mà tham gia khoá training này.',
'Nhận được quyền lợi gì khi tham gia vào CLB ? Khi bạn vào CLB bạn sẽ có những lợi thế về các môn chuyên ngành trên trường. CLB sẽ giúp các bạn định hướng phát triển các kỹ năng lập trình. Bên cạnh đó CLB còn tổ chức các hoạt động ngoại khóa để các thành viên gắn kết hơn. Ngoài ra khi tham gia vào các CLB bạn sẽ được cộng 0.1 điểm khuyến khích học bổng (Đây sẽ là 1 lợi thế rất lớn khi xét học bổng tại Học Viện vào cuối kì bạn nhé).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Dataset:
validation - Evaluated with
EmbeddingSimilarityEvaluator
| Metric | Value |
|---|---|
| pearson_cosine | 0.7532 |
| spearman_cosine | 0.7062 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 1,457 training samples
- Columns:
sentence_0,sentence_1, andlabel - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 7 tokens
- mean: 18.48 tokens
- max: 34 tokens
- min: 10 tokens
- mean: 112.0 tokens
- max: 512 tokens
- min: 0.0
- mean: 0.65
- max: 1.0
- Samples:
sentence_0 sentence_1 label CLB này có thường xuyên tổ chức các buổi sinh hoạt cho thành viên không?PHÒNG TRUYỀN THỐNG:0.0Hoạt động gây quỹ của Câu lạc bộ được triển khai ra sao?Tham gia CLB có mất phí không ạ ? Khi trở thành thành viên chính thức, CLB cũng có một khoản thu nhỏ hàng tháng gọi là quỹ để duy trì CLB nhé em.1.0Để rèn luyện tay nghề lập trình, CLB có các hoạt động cụ thể gì cho hội viên?BIG GAME S2B Là một hoạt động ngoại khóa thường niên được tổ chức nhằm mục đích gắn kết các thành viên giữa ba câu lạc bộ thuộc cộng đồng S2B là CLB Lập trình PTIT, CLB Multimedia PTIT và CLB Nhà sáng tạo game PTIT. Đây là buổi để 3 bên CLB Multimedia PTIT, CLB Nhà sáng tạo game PTIT và CLB PROPTIT gặp mặt, cùng nhau nhìn lại chặng đường đã qua và đồng thời tri ân thế hệ đi trước.0.0 - Loss:
CosineSimilarityLosswith these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 2per_device_eval_batch_size: 2fp16: Truemulti_dataset_batch_sampler: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 2per_device_eval_batch_size: 2per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin
Training Logs
| Epoch | Step | Training Loss | validation_spearman_cosine |
|---|---|---|---|
| 0.9973 | 364 | - | 0.6508 |
| 1.0 | 365 | - | 0.6474 |
| 1.3699 | 500 | 0.1352 | - |
| 1.9945 | 728 | - | 0.6794 |
| 2.0 | 730 | - | 0.6800 |
| 2.7397 | 1000 | 0.0688 | - |
| 2.9918 | 1092 | - | 0.7062 |
Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.52.4
- PyTorch: 2.6.0+cu124
- Accelerate: 1.8.1
- Datasets: 3.6.0
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 3
Model tree for iwillcthew/vietnamese-embedding-PROPTIT-domain-ft
Spaces using iwillcthew/vietnamese-embedding-PROPTIT-domain-ft 2
Evaluation results
- Pearson Cosine on validationself-reported0.753
- Spearman Cosine on validationself-reported0.706