Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from sentence-transformers/LaBSE. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'BertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
(3): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'kabupaten ngada kabupaten pulau flores provinsi nusa tenggara timur indonesia ibu kota kabupaten bajawa luas wilayah jumlah penduduk pertengahan sebanyak jiwa kabupaten ngada memiliki tiga suku besar suku nagekeo suku bajawa suku riung geografi kabupaten ngada membentang lintang selatan bujur timur kabupaten ngada memiliki luas daratan luas perairan panjang pantai rincian berikut luas perairan pantai utara panjang pantai luas perairan pantai selatan panjang pantai batas wilayah batas batas wilayahnya berikut topografi kondisi topografi kabupaten ngada umumnya berbukit tingkat kemiringan lahan relatif tinggi komposisi kemiringan derajat seluas luas wilayah kabupaten ngada kemiringan derajat seluas total luas wilayah kabupaten kemiringan atas derajat seluas total luas wilayah kabupaten ngada hidrologi keadaan hidrologis kabupaten ngada terdiri atas sumber sumber air berasal air tanah air permukaan curah hujan daerah mempunyai permukaan bergunung gunung air tanah umummya didapatkan mata air berasal kawasan pegunungan mempunyai kondisi jenis flora tumbuhan pepohonan cukup rapat kondisi hidrologi kabupaten ngada merupakan air sungai sungai sungai bermuara baik pantai utara maupun pantai selatan kabupaten ngada merupakan hulu daerah aliran sungai das aesesa meliputi sub das wulabhara sub das wae woki iklim berdasarkan klasifikasi iklim wilayah kabupaten ngada sebagian besar beriklim sabana tropis sebagian kecil lainnya beriklim muson tropis suhu udara wilayah ngada sangat erat kaitannya kontur topografinya berbukit bukit suhu udara sebagian besar wilayah ngada cenderung lebih sejuk dibandingkan wilayah nusa tenggara timur berkisar tingkat kelembapan bervariasi beriklim sabana tropis wilayah kabupaten ngada memiliki musim musim penghujan musim kemarau musim kemarau wilayah kabupaten ngada berlangsung bulan bulan mei hingga oktober bulan terkering bulan agustus musim penghujan wilayah berlangsung periode bulan bulan basah november hingga april puncak musim hujan terjadi pertengahan bulan januari hingga bulan februari rata rata curah hujan bulanan lebih per bulan curah hujan tahunan wilayah ngada berkisar per tahun jumlah hari hujan bervariasi hari hujan per tahun pemerintahan kepala daerah dewan perwakilan berikut komposisi anggota dprd kabupaten ngada tiga periode terakhir kecamatan kabupaten ngada terdiri kecamatan kelurahan desa tahun jumlah penduduknya mencapai jiwa luas wilayah sebaran penduduk jiwa daftar kecamatan kelurahan kabupaten ngada berikut demografi penduduk jumlah penduduk kabupaten ngada tahun sebanyak jiwa terdiri laki laki perempuan jumlah penduduk terbanyak terpadat berada kecamatan bajawa jumlah penduduk paling sedikit berada kecamatan wolomeze kecamatan kepadatan penduduk terjarang berada kecamatan riung barat suku bahasa kabupaten ngada memiliki tiga suku besar suku nagekeo suku bajawa suku riung masing masing suku mempunyai kebudayaan sendiri sendiri dipertahankan rumah adat bahasa berbeda satu sama lainnya tarian pakaian adat kebudayaan ngada rumah adat main peranan penting pola kemasyarakatan seorang ngada bagian suatu rumah adat berarti satu marga lambang marga berupa ukiran daerah ngada dimasukkan world heritage tentative list unesco tanggal oktober kategori kebudayaan bahasa utama daerah ngada bahasa ngada agama mayoritas penduduk kabupaten ngada menganut agama kekristenan sebesar rincian katolik sebanyak selebihnya menganut agama kristen protestan sebanyak sebagian lainnya menganut agama islam sebanyak hindu sebanyak kesehatan rumah sakit pariwisata wisata budaya kabupaten ngada sangat terkenal kalangan wisatawan asing tertarik kebudayaan beberapa kampung adat paling banyak dikunjungi kabupaten ngada kampung bena desa tiworiwu kecamatan jerebuu kampung wogo desa ratogesa kecamatan golewa mana terdapat rumah adat peninggalan megalithik kampung bela desa beja kecamatan bajawa kampung gurusina desa watumanu kecamatan jerebuu kampung belaraghi desa keligejo kecamatan aimere wisata alam kabupaten ngada memiliki banyak objek wisata potensi wisata alam lengkap mulai pantai danau air terjun bukit gunung hingga pemandian air panas berikut sejumlah objek wisata potensi wisata alam kabupaten ngada taman laut nasional pulau riung tempat terdapat mawar laut aneka jenis terumbu karang pulau pasir putih kelelawar bakau pulau ontoloe mbou varanus riungnensis kadal raksasa merupakan binatang purbakala hidup alamiah habitatnya hingga wisata air pantai sini air terjun ogi air terjun wae roa air terjun wae pua air terjun wae waru air terjun wae niba air terjun wae laja air terjun soso pantai waewaru pantai enabhara pantai sewowoto permandian air panas mengeruda danau wawomudha tempat wisata lainnya gunung inerie bukit wolobobo ekowisata lekolodo ekonomi perikanan kabupaten ngada memiliki wilayah perairan laut sangat potensial baik pantai utara laut flores kecamatan riung maupun pantai laut selatan laut sawu masing masing kecamatan golewa selatan kecamatan aimere kekayaan laut utama ikan lobster rumput laut mutiara sumber daya perikanan kelautan kabupaten gada memiliki garis pantai sepanjang rincian pantai utara pantai selatan sesuai nomor tahun luas laut menjadi kewenangan kabupaten mencapai mil laut luas wilayah perairan laut sebesar potensi lestari sebanyak ton tahun terdiri potensi ikan pelagis sebanyak ton ikan demersal sebanyak ton tahun tingkat pemanfaatannya baru mencapai ton sisanya perairan umum budidaya jumlah rumah tangga perikanan rtp sebanyak rumah tangga terdiri rumah tangga perikanan nelayan rumah tangga perikanan budidaya jumlah tersebut berstatus nelayan penuh sebanyak orang orang nelayan sambilan pertambangan jenis potensi pertambangan lokasi jumlah kandungannya masing masing terinci berikut besi mangan lokasi mbong milong riung emas lokasi rawangkalo wangka lindi ton perak belerang lokasi mataloko tembaga pasir besi pasir batu lokasi naru aimere tanah liat lokasi bomari langa marmer lokasi sambinasi rawangkalo wangka granodiort zeolit batu permata permata perkebunan kabupaten ngada memiliki potensi perkebunan cukup potensial dikembangkan beberapa jenis komoditas andalan dikembangkan kabupaten ngada kopi kakao jambu mete kemiri kelapa cengkih vanili merica luas lahan kering potensial fungsional seluas sisanya sebesar dimanfaatkan lihat cagar alam riung referensi pranala luar ngada traditional house and megalithic complex unesco world heritage centre accessed phillimore lisa goodson qualitative research tourism ontologies epistemologies and methodologies routledge isbn',
'kabupatèn ngada kabupatèn provinsi nusa tenggara wétan kutha bajawa kutha krajan kabupatèné kutha kutha liyané liya yané jembar wewengkon kabupatèn hèktar géografi lintang kidul bujur wétan pamaréntahan kabupatèn ngada ketata saking kacamatan désa kalurahan kacamatan kacamatan kabupatèn yaiku aesesa aimere bajawa boawae jere buu keo tengah maupongo nangaroro ngada bawa riung barat riung soa wogomang ulewa wolowae deleng uga pratélan daerah tingkat pranala njaba situs web resmi urung provinsi nusa tenggara wétan',
'kursi dhampar piranti kanggo lungguh lumrahé kursi nduwéni sikil cacahé papat uga kursi duwé sikil siji tengah kursi barstool lumrahé kursi duwé sèndènan pancikan kanggo sikil ngisor jinisé dideleng bahané antawis kursi digawé kayu plastik wesi miturut kagunaané kursi dipérang sawatara jinis antawis kursi tamu kursi goyang kursi rodha kursi listrik sapanunggalané sajinis kursi wujudé dawa diarani bangku bangku wujudé dawa isa dilungguhi loro luwih lumrahé bangku dianggo prabot ruang tunggu taman pekarangan pranala njaba ergonomics sitting postures and seating archived the wayback machine what armchair archived the wayback machine the versatile folding chairs office furniture store',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.9158, -0.1236],
# [ 0.9158, 1.0000, -0.1163],
# [-0.1236, -0.1163, 1.0000]])
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
kabupaten pekalongan bahasa jawa hanacaraka pegon sebuah wilayah kabupaten terletak provinsi jawa tengah indonesia ibu kotanya kajen kabupaten berbatasan langsung laut jawa kota pekalongan sebelah utara kabupaten batang sebelah timur kabupaten banjarnegara sebelah selatan kabupaten pemalang sebelah barat penduduk kabupaten pekalongan tahun berjumlah jiwa sebanyak jiwa pertengahan tahun pekalongan berada jalur utara pulau jawa menghubungkan jakarta tuban surabaya angkutan umum antar kota dilayani bus kereta api kota pekalongan geografi bagian utara kabupaten pekalongan merupakan dataran rendah sedang bagian selatan berupa pegunungan bagian rangkaian dataran tinggi dieng sungai sungai besar mengalir antaranya kali sragi kali sengkarang beserta anak anak sungainya kesemuanya bermuara laut jawa kajen ibu kota kabupaten pekalongan berada bagian tengah tengah wilayah kabupaten sebelah selatan kota pekalongan batas wilayah demografi hampir seluruh penduduk kabupaten pekalongan suku jawa mayor... |
kabupatèn pekalongan kabupatèn jawa tengah pernahé pantura kutha kajen kutha krajan kabupatèné kutha kutha liyané liya liyané jembar wewengkon kabupatèn hèktar kabupatèn pekalongan dumunung jalur pantura pasisir utara jawa sajarah kabupatèn pekalongan resmi diadegaké miturut undang undang nomor taun ngenani pamaréntah laladan kabupatèn provinsi jawa tengah titiwanci dina selasa pon tanggal agustus dikukuhaké yogyakarta déning pemangku jabatan sementara présidhèn républik indonésia mantri dalam negeri soesanto tirtoprodjo mantri kehakiman pringgo digdo miturut undang undang mau pamaréntah laladan kabupatèn pekalongan diwangun bebarengan laladan liya antarané semarang kendhal demak grobogan pekalongan pemalang tegal brebes pati kudus djepara rembang blora banjumas tjilatjap purbalingga banjarnegara magelang temanggung wonosobo purworejo kebumèn boyolali sragen sukoharjo karanganyar wanagiri géografi kabupatèn pekalongan kalebu salah sijine kabupatèn jawa tengah panggone pinggir lor pulau... |
susu kocok bahasa inggris milkshake minuman dingin campuran susu krim sirop berperasa dikocok hingga berbusa dikocok blender susu kocok dibuat memakai gelas pengocok bertutup shaker britania raya susu kocok dibuat susu dicampur buah cokelat sebagian besar orang amerika serikat susu kocok biasanya terbuat susu krim buah segar cokelat orang amerika serikat tinggal rhode island negara bagian massachusetts bertetangga susu kocok dibuat krim susu dikocok sirop berperasa susu kocok memakai krim disebut cabinet dibuat mesin pengocok berbentuk sebuah peti kecil cabinet negara bagian new england susu kocok dibuat krim disebut velvet frappe istilah frappe dipakai sejak abad sejenis minuman bahasa prancis frappé berarti memakai didinginkan berasal verba frapper berarti membekukan mendinginkan sejarah sebuah kamus terbitan tahun menjelaskan milk shake minuman dibuat susu manis berperasa air soda kadang kadang telur mentah semua bahan diaduk cepat sebuah mesin khusus diciptakan membuat minuman susu... |
milkshake mung goyang minangka salah sawijining ombenan biasane digawe nganggo campuran susu krim rasa rasa legi kayata butterscotch saus karamel sirup coklat sirup buah woh utuh campuran kenthel legi adhem |
kabupaten purwakarta bahasa sunda sebuah wilayah kabupaten terletak bagian barat tengah provinsi jawa barat indonesia ibu kota kabupaten berada kecamatan purwakarta kota berjarak sebelah tenggara kota jakarta sebelah barat laut kota bandung kabupaten purwakarta dijuluki kota pensiun suasananya tenang jauh hiruk piruk kota kota pensiun kabupaten purwakarta memiliki julukan kota tasbih purwakarta istimewa kabupaten purwakarta dikenal tempat kelahiran beberapa negarawan pemimpin besar asal jawa barat masanya awal pendirian republik indonesia antaranya pahlawan nasional kusumah atmaja ketua pertama mahkamah agung republik indonesia ipik gandamana bupati pertama kabupaten bogor gubernur jawa barat menteri negeri etimologi purwakarta berasal suku kata purwa artinya permulaan karta berarti ramai hidup pemberian nama purwakarta dilakukan kepindahan ibu kota kabupaten purwakarta wanayasa sindangkasih tahun peristiwa kepindahan ibu kota kabupaten tahunnya diperingati tanggal juli melakukan napak... |
kabupatèn purwakarta kabupatèn jawa kulon jembar wewengkon kabupatèn hèktar géografi bujur wétan dan lintang kidul papréntahan kabupatèn purwakarta ketata saking kacamatan kalurahan désa kacamatan kacamatan kabupatèn yaiku babakancikao bojong bungursari campaka cibatu darangdan jatiluhur kiarapedes maniis pasawahan plered pondoksalam purwakarta sukasari sukatani tegalwaru wanayasa deleng uga pratélan kabupatèn kutha indonésia pranala njaba situs web resmi archived the wayback machine jawa kulon cithakan kabupatèn purwakarta |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false
}
num_train_epochs: 10multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 10max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robinrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss |
|---|---|---|
| 2.2727 | 500 | 0.015 |
| 4.5455 | 1000 | 0.0013 |
| 6.8182 | 1500 | 0.0015 |
| 9.0909 | 2000 | 0.0005 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
sentence-transformers/LaBSE