Advanced Retrieval Augmented Generation for Local LLMs

Leonardo Marques Rocha; Rian Manoel Pessoa

doi:10.5753/eniac.2024.245238

Leonardo Marques Rocha Instituto Atlântico
Rian Manoel Pessoa Instituto Atlântico

DOI: https://doi.org/10.5753/eniac.2024.245238

Resumo

Este artigo apresenta uma extensão do fluxo de trabalho de geração aumentada de recuperação para Modelos de Linguagem Massivos executados em um processador local com recursos limitados. A novidade apresentada é uma melhoria em tais fluxos de trabalho para considerar limitações no orçamento total de uso de tokens e privacidade de dados utilizando armazenamento local de dados. Isto tem o potencial de alavancar aplicações sem necessidade de serviços online que podem ter alto custo e latência devido à Cadeia de Pensamento utilizada nos casos mais comuns de recuperação de dados. O fluxo de trabalho apresentado tem um uso leve de computação e pode ser totalmente implementado em um ambiente de computação com poucos recursos.

Palavras-chave: Large Language Models, workflow, limited resources

Referências

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In *Advances in Neural Information Processing Systems* (pp. 5998-6008).

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., & Amodei, D. (2020). Language models are few-shot learners. *arXiv preprint arXiv:2005.14165*.

Wei, J., Bosma, M., Zhao, V., Guu, K., Yu, Q., Lester, B., Du, N., Dai, A. M., Smolensky, P., & Le, Q. (2022). Emergent abilities of large language models. *arXiv preprint arXiv:2206.07682*.

Ha, D., & Schmidhuber, J. (2018). World models. *arXiv preprint arXiv:1803.10122*.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., & Bang, Y. (2023). Survey of hallucination in natural language generation. *ACM Computing Surveys (CSUR)*, 55(12), 1-38.

Karpathy, A. (2023, August 1). Personal communication on X (formerly Twitter). Retrieved from [X Platform] [link].

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. *OpenAI Blog*, 1(8), 9.

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain of thought prompting elicits reasoning in large language models. *arXiv preprint arXiv:2201.11903*.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., & Rocktäschel, T. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In *Advances in Neural Information Processing Systems*, 33, 9459-9474.

Dettmers, T., Lewis, M., Shleifer, S., & Zettlemoyer, L. (2022). LLM.int8(): 8-bit matrix multiplication for transformers at scale. *arXiv preprint arXiv:2208.07339*.

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., & Wang, H. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv preprint arXiv:2312.10997. Retrieved from [link].

Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., Nori, H., Palangi, H., Ribeiro, M. T., & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712. Retrieved from [link].