Download models on first tokenizer call instead of module import #180

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open

carlthome wants to merge 1 commit into LAION-AI:main from carlthome:patch-1

src/laion_clap/training/data.py

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -41,20 +41,22 @@
  
    except ImportError:

        torchaudio = None

    bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

    roberta_tokenizer = RobertaTokenizer.from_pretrained("roberta-base")

    bart_tokenizer = BartTokenizer.from_pretrained("facebook/bart-base")

    bert_tokenizer = None

    roberta_tokenizer = None

    bart_tokenizer = None

    def tokenizer(text, tmodel="roberta", max_length=77):

        """tokenizer for different models

        tmodel is default to roberta as it is the best model for our task

        max_length is default to 77 from the OpenAI CLIP parameters

        We assume text to be a single string, but it can also be a list of strings

        """

        global bert_tokenizer, roberta_tokenizer, bart_tokenizer

        if tmodel == "transformer":

            return clip_tokenizer(text).squeeze(0)

        elif tmodel == "bert":

            if bert_tokenizer is None:

                bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

            result = bert_tokenizer(

                text,

                padding="max_length",

    @@ -63,8 +65,9 @@ def tokenizer(text, tmodel="roberta", max_length=77):
  
                return_tensors="pt",

            )

            return {k: v.squeeze(0) for k, v in result.items()}

        elif tmodel == "roberta":

            if roberta_tokenizer is None:

                roberta_tokenizer = RobertaTokenizer.from_pretrained("roberta-base")

            result = roberta_tokenizer(

                text,

                padding="max_length",

    @@ -73,8 +76,9 @@ def tokenizer(text, tmodel="roberta", max_length=77):
  
                return_tensors="pt",

            )

            return {k: v.squeeze(0) for k, v in result.items()}

        elif tmodel == "bart":

            if bart_tokenizer is None:

                bart_tokenizer = BartTokenizer.from_pretrained("facebook/bart-base")

            result = bart_tokenizer(

                text,

                padding="max_length",

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Download models on first tokenizer call instead of module import #180

Uh oh!

Diff view

Diff view

There are no files selected for viewing

Download models on first tokenizer call instead of module import #180

Are you sure you want to change the base?

Uh oh!

Download models on first tokenizer call instead of module import #180

Uh oh!

Uh oh!

Diff view

Diff view

There are no files selected for viewing