Fast Tokenizer

머신러닝 및 딥러닝/자연어처리

Fast Tokenizer

viamemine 2024. 6. 27. 15:21

728x90

Slow Tokenizer와 Fast tokenizer

'slow' tokenizer는 Transformers 라이브러리 내부에서 Python으로 작성된 것, 'fast' tokenizer는 Rust로 작성되어 Tokenizers에서 제공하는 것입니다. 단일 문장을 토큰화할 때 동일한 토크나이저의 느린 버전과 빠른 버전 간의 속도 차이가 항상 나는 것은 아닙니다. 사실, 빠른 버전은 실제로 더 느릴 수 있습니다. 많은 텍스트를 동시에 토큰화할 때만 차이를 명확하게 알 수 있습니다.

Batch Encoding

토크나이저의 출력은 단순한 python 딕셔너리가 아닙니다. 우리가 얻는 것은 실제로 특별한 batch encoding 객체입니다. 빠른 토크나이저에서 주로 사용하는 추가 메서드가 있습니다. 병렬화(parallelization) 기능 외에도, 빠른 토크나이저의 주요 기능은 최종 토큰이 원본 텍스트에서 어디에 위치하는지 범위(span)를 항상 추적한다는 것입니다. 이를 offset mapping이라고 합니다.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
encoding = tokenizer(example)
print(type(encoding))

AutoTokenizer 클래스는 기본적으로 빠른 토크나이저를 선택하므로, 이 batch encoding 객체가 제공하는 추가 메서드를 사용할 수 있습니다. 토크나이저가 빠른지 느린지 확인하는 두 가지 방법이 있습니다. 우선, 토크나이저의 is_fast 속성을 확인할 수 있습니다.

tokenizer.is_fast

빠른 토크나이저를 가지고 우리가 무엇을 할 수 있을까요 ?

첫째, 토큰 아이디를 다시 토큰으로 변환하지 않고도 토큰에 액세스 할 수 있습니다.

encoding.tokens()

이 경우 인덱스 5의 토큰은 ##yl이며, 원래 문장에서 'Sylvain'이라는 단어의 일부입니다.

728x90

저작자표시

'머신러닝 및 딥러닝 > 자연어처리' 카테고리의 다른 글

QA with Phrase Retrieval (0)	2024.11.08
Open-Book QA vs Closed-Book QA (0)	2024.11.08
오토인코더(Auto Encoder) ・ Variational 오토인코더 (0)	2024.06.27
난수 ・ random seed (0)	2024.05.13
In-Context Learning ・PEFT (0)	2024.05.08

현재글Fast Tokenizer

viamemine

최고보다는 최선을, 결과보다는 과정을 모아 기록합니다.

쿠버네티스, 백준 1699, 백준 9095, 17626, 10870, 백준1912, 5618, 1244, 백준, 백준2960, 파이썬, 백준 11726, 백준6550, 설탕 배달, 유클리드 호제법, 2960파이썬, 백준1913, dp, 백준17626, 백준2579,

Today :
Yesterday :

viamemine

Fast Tokenizer

Slow Tokenizer와 Fast tokenizer

Batch Encoding

'머신러닝 및 딥러닝 > 자연어처리' 카테고리의 다른 글

'머신러닝 및 딥러닝/자연어처리'의 다른글

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Fast Tokenizer

Slow Tokenizer와 Fast tokenizer

Batch Encoding

'머신러닝 및 딥러닝 > 자연어처리' 카테고리의 다른 글

'머신러닝 및 딥러닝/자연어처리'의 다른글

관련글

티스토리툴바