The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

  1. Laurençon, H.
  2. Saulnier, L.
  3. Wang, T.
  4. Akiki, C.
  5. del Moral, A.V.
  6. Le Scao, T.
  7. von Werra, L.
  8. Mou, C.
  9. Ponferrada, E.G.
  10. Nguyen, H.
  11. Frohberg, J.
  12. Šaško, M.
  13. Lhoest, Q.
  14. McMillan-Major, A.
  15. Dupont, G.
  16. Biderman, S.
  17. Rogers, A.
  18. Ben allal, L.
  19. De Toni, F.
  20. Pistilli, G.
  21. Nguyen, O.
  22. Nikpoor, S.
  23. Masoud, M.
  24. Colombo, P.
  25. de la Rosa, J.
  26. Villegas, P.
  27. Thrush, T.
  28. Longpre, S.
  29. Nagel, S.
  30. Weber, L.
  31. Muñoz, M.R.
  32. Zhu, J.
  33. van Strien, D.
  34. Alyafeai, Z.
  35. Almubarak, K.
  36. Chien, V.M.
  37. Gonzalez-Dios, I.
  38. Soroa, A.
  39. Lo, K.
  40. Dey, M.
  41. Suarez, P.O.
  42. Gokaslan, A.
  43. Bose, S.
  44. Adelani, D.I.
  45. Phan, L.
  46. Tran, H.
  47. Yu, I.
  48. Pai, S.
  49. Chim, J.
  50. Lepercq, V.
  51. Ilić, S.
  52. Mitchell, M.
  53. Luccioni, S.
  54. Jernite, Y.
  55. Alle Autoren anzeigen +
Konferenzberichte:
Advances in Neural Information Processing Systems

ISSN: 1049-5258

ISBN: 9781713871088

Datum der Publikation: 2022

Ausgabe: 35

Art: Konferenz-Beitrag