The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

  1. Laurençon, H.
  2. Saulnier, L.
  3. Wang, T.
  4. Akiki, C.
  5. del Moral, A.V.
  6. Le Scao, T.
  7. von Werra, L.
  8. Mou, C.
  9. Ponferrada, E.G.
  10. Nguyen, H.
  11. Frohberg, J.
  12. Šaško, M.
  13. Lhoest, Q.
  14. McMillan-Major, A.
  15. Dupont, G.
  16. Biderman, S.
  17. Rogers, A.
  18. Ben allal, L.
  19. De Toni, F.
  20. Pistilli, G.
  21. Nguyen, O.
  22. Nikpoor, S.
  23. Masoud, M.
  24. Colombo, P.
  25. de la Rosa, J.
  26. Villegas, P.
  27. Thrush, T.
  28. Longpre, S.
  29. Nagel, S.
  30. Weber, L.
  31. Muñoz, M.R.
  32. Zhu, J.
  33. van Strien, D.
  34. Alyafeai, Z.
  35. Almubarak, K.
  36. Chien, V.M.
  37. Gonzalez-Dios, I.
  38. Soroa, A.
  39. Lo, K.
  40. Dey, M.
  41. Suarez, P.O.
  42. Gokaslan, A.
  43. Bose, S.
  44. Adelani, D.I.
  45. Phan, L.
  46. Tran, H.
  47. Yu, I.
  48. Pai, S.
  49. Chim, J.
  50. Lepercq, V.
  51. Ilić, S.
  52. Mitchell, M.
  53. Luccioni, S.
  54. Jernite, Y.
  55. Erakutsi egile guztiak +
Aktak:
Advances in Neural Information Processing Systems

ISSN: 1049-5258

ISBN: 9781713871088

Argitalpen urtea: 2022

Alea: 35

Mota: Biltzar ekarpena