The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

  1. Laurençon, H.
  2. Saulnier, L.
  3. Wang, T.
  4. Akiki, C.
  5. del Moral, A.V.
  6. Le Scao, T.
  7. von Werra, L.
  8. Mou, C.
  9. Ponferrada, E.G.
  10. Nguyen, H.
  11. Frohberg, J.
  12. Šaško, M.
  13. Lhoest, Q.
  14. McMillan-Major, A.
  15. Dupont, G.
  16. Biderman, S.
  17. Rogers, A.
  18. Ben allal, L.
  19. De Toni, F.
  20. Pistilli, G.
  21. Nguyen, O.
  22. Nikpoor, S.
  23. Masoud, M.
  24. Colombo, P.
  25. de la Rosa, J.
  26. Villegas, P.
  27. Thrush, T.
  28. Longpre, S.
  29. Nagel, S.
  30. Weber, L.
  31. Muñoz, M.R.
  32. Zhu, J.
  33. van Strien, D.
  34. Alyafeai, Z.
  35. Almubarak, K.
  36. Chien, V.M.
  37. Gonzalez-Dios, I.
  38. Soroa, A.
  39. Lo, K.
  40. Dey, M.
  41. Suarez, P.O.
  42. Gokaslan, A.
  43. Bose, S.
  44. Adelani, D.I.
  45. Phan, L.
  46. Tran, H.
  47. Yu, I.
  48. Pai, S.
  49. Chim, J.
  50. Lepercq, V.
  51. Ilić, S.
  52. Mitchell, M.
  53. Luccioni, S.
  54. Jernite, Y.
  55. Show all authors +
Proceedings:
Advances in Neural Information Processing Systems

ISSN: 1049-5258

ISBN: 9781713871088

Year of publication: 2022

Volume: 35

Type: Conference paper