| | --- |
| | license: apache-2.0 |
| | language: |
| | - pt |
| | pipeline_tag: text-classification |
| | library_name: transformers |
| | widget: |
| | - text: | |
| | As palavras "feliz" e "alegre" são sinônimos? |
| | tags: |
| | - portuguese |
| | - bert |
| | - sinônimos |
| | model-index: |
| | - name: simnonym |
| | results: |
| | - task: |
| | type: text-generation |
| | dataset: |
| | type: lrds-code/sym-pair |
| | name: sym-pair |
| | config: pt |
| | split: validation |
| | metrics: |
| | - type: Accuracy |
| | value: 91.79 |
| | datasets: |
| | - lrds-code/sym-pair |
| | --- |
| | |
| | <hr> |
| |
|
| | # Simnonym |
| |
|
| | Simnonym é um classificador BERT-based de sinônimos da língua portuguesa. |
| |
|
| | ## Entrada |
| |
|
| | A entrada deve sempre seguir o template do prompt |
| | - **'As palavras "{}" e "{}" são sinônimos?'** |
| |
|
| | ## Dados de Treinamento |
| |
|
| | O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair). |
| |
|
| | Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não. |
| |
|
| | Sym-Pair é composto por: |
| | - Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)). |
| | - Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos. |
| |
|
| | ## Descrição do Modelo |
| |
|
| | - **Desenvolvido por:** [Leonardo Souza](https://huggingface.co/lrds-code) |
| | - **Tipo do modelo:** BERT |
| | - **Licença:** Apache 2.0 |
| | - **Fine-tunado do modelo:** [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased) |
| |
|
| | ## Como Usar |
| |
|
| | Exemplo de uma única classificação: |
| | |
| | ```python |
| | import torch |
| | from transformers import AutoTokenizer |
| | from transformers import AutoModelForSequenceClassification |
| | |
| | model_name = 'lrds-code/simnonym' |
| | |
| | tokenizer = AutoTokenizer.from_pretrained(model_name) |
| | model = AutoModelForSequenceClassification.from_pretrained(model_name) |
| | |
| | inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt') |
| | |
| | with torch.no_grad(): |
| | output = model(**inputs).logits |
| | |
| | predict_id = logits.argmax().item() |
| | model.config.id2label[predict_id] |
| | ``` |