Tại sao phải chọn giữa R hay Python trong khi bạn có thể chọn cả 2?

4257

Package reticulate cho phép ngôn ngữ lập trình R và Python có thể hoạt động cùng nhau – sau đây chính là 1 bài hướng dẫn mình muốn giới thiệu với các bạn.

Cả ngôn ngữ lập trình R và Python có nhiều điểm chung cũng như vài khác biệt. Hầu hết các ý tưởng tiềm ẩn về cấu trúc dữ liệu của 2 ngôn ngữ này khá là giống nhau. Có nhiều package data science đang tồn tại cho cả 2 ngôn ngữ lập trình này. Nhưng R lại được thiết lập theo 1 cách mà mình sẽ mô tả như là ‘dữ liệu trước, ứng dụng sau’. Trong khi Python thì  ngược lại khi nó nghiêng về việc phát triển ứng dụng được điều hướng từ ‘outlet’ nhiều hơn. Mình có 1 ví dụ: các lập trình viên Javascript sẽ dễ học ngôn ngữ lập trình Python hơn là R, vốn đã quen với syntax và việc quản lý ‘environment’. 

Hơn thế nữa, mình đã làm việc cả trên R và Python và đã có lúc gặp phải các tình huống mà mình sẽ muốn dùng cả 2 cùng với nhau. Điều này xảy ra vì 1 vài lý do, và lý do phổ biến nhất chính mình gặp phải là khi bạn đang build 1 thứ gì đó ở R, và bạn cần functionality mà chính bạn hay ai đó đã viết rồi bằng ngôn ngữ lập trình Python. Chắc chắn rằng bạn có thể viết lại nó với R, nhưng mình có cách tiện hơn để giúp bạn làm điều này.

Package reticulate trong R cho phép bạn có thể thực hành code Python bên trong 1 session của R. Thực ra package này đã có mặt được vài năm và ngày 1 phát triển hơn, nhưng phải đến gần đây mình mới thực sự cần tới nó. Nên sẵn tiện đây mình muốn viết vài dòng để tóm tắt 1 bài hướng dẫn luôn. Nếu bạn là 1 R native, việc sử dụng reticulate và chạy nó đòi hỏi bạn phải hiểu 1 chút về cách vận hành của Python – và cách nó thường quản lý ‘environment’ ra sao – và bài hướng dẫn của mình sẽ giúp bạn vận hành nó nhanh hơn khi là bạn phải tự mày mò 1 mình. 

Tuyển IT python nhiều ngành nghề hot

Environment trong R và Python

Bất kỳ dự án lập trình nào cũng đều tổ chức trong 1 environment, nơi chứa và truy cập tất cả mọi thứ nó cần hay được tạo nên trong quá trình vận hành của nó. Trong ngôn ngữ R, 1 environment tổng quát thông thường đều khả dụng với tất cả dự án ngôn ngữ dựa trên R và đều được cài đặt sẵn các gói cho việc truy cập. Có nghĩa là tất cả các dự án trong ngôn ngữ R thường đều được chạy trên cùng 1 environment cốt lõi (core environment) như nhau. Mình có 1 cách nghĩ về việc này là bạn hãy thử tưởng tượng tất cả mọi người trong nhà bạn đều sử dụng chung 1 cục sạc cho iPhone của họ. Nên để sạc điện thoại, họ phải rời khỏi phòng mình để tới nơi có sạc, và nếu họ bán chiếc điện thoại đi, người mua sẽ cần tự lo việc mua đồ sạc khác. 

Tuy nhiên, trong Python, mỗi dự án thường cần được thiết lập để hoàn toàn có thể ‘self-contain’ – với environment của riêng nó, bản copy base Python của riêng nó và các bản copy độc lập của tất cả ‘module’ mà nó cần để vận hành. Tương tự ví dụ trên bạn thử nghĩ về điều này như là mỗi người trong nhà bạn đều có riêng 1 cục sạc cho iPhone của họ. Họ không cần phải ra ngoài và cắm nó ở nơi nào khác, và khi họ bán chiếc điện thoại đi, thì nó cũng sẽ đi kèm với cục sạc rồi.

Trong khoản xét về các tiến trình cài đặt cũng như các nguồn tài nguyên disk/ memory thì model của Python khá là xa xỉ, nhưng bù lại lại nó cho phép việc chuyển đổi các cá thể độc lập đi kèm cấu hình tối thiểu của các dự án dễ dàng hơn. Không quá khó để thấy nó đã phát triển hiệu quả ra sao, khi nó vượt qua tư duy quy củ của việc phát triển phần mềm truyền thống, đó cũng là lý do tại sao mình nghĩ Python như hướng về ứng dụng (application driven) nhiều hơn. 

  Trải nghiệm lần đầu viết thư viện Python từ ngôn ngữ biên dịch

Đây là tí hình ảnh mình tự phác thảo ra để giải thích các khoản đơn giản về điểm khác biệt giữa cách mà các environment thường hoạt động trong ngôn ngữ R và Python: 

ngôn ngữ lập trình
ngôn ngữ lập trình

Cấu hình Environment điển hình trong R và Python

Giờ đây, nếu bạn muốn Python liên lạc được với R, thì nó vẫn cần tìm environment của riêng nó – bạn không thể chỉ đơn giản bắt nó truy cập global environment của R. Việc này cũng giống như bạn đang nói tiếng Việt với người nước ngoài để hỏi đường vậy..

Cho nên là để có thể làm Python hoạt động được bên trong dự án R của bạn, bạn cần phải có 2 thứ:

  1. 1 environment Python được thiết lập bên trong dự án R của bạn, để Python có thể định rõ phương hướng 
  2. Package reticulate cho việc chuyển ngữ code Python để nó có thể hoạt động được trong R

Thiết lập 1 environment cho Python

Từ giờ trở đi mình sẽ cho các bạn 1 ví dụ đơn giản. Cứ cho rằng mình đang có 1 dự án R trong RStudio, vốn đang cần 1 function mà mình đã viết rồi bằng ngôn ngữ lập trình Python. Và đây là function đơn giản mà mình đã lưu trong 1 script Python có tên light_years.py trong thư mục dự án R của mình có tên test_python (đúng vậy, RStudio cho phép bạn tạo các script Python!). Function này lấy khoản cách với đơn vị kilomet lẫn mile như là 1 input và tính toán sẽ mất bao nhiêu năm để di chuyển trong khoản cách đó với tốc độ ánh sáng – nói cách khác, khoản cách trong bao nhiêu năm ánh sáng sẽ là:

from scipy.constants import c
def light_years(dist, unit = "km"):
    c_per_year = c * 60 * 60 * 24 * 365.25
    if unit == "km":
        dist_meters = dist * 1000 
    elif unit == "mi":
        dist_meters = dist * 1.60934 * 1000
    else:
        sys.exit("Cannot use that unit!")
        
    return dist_meters/c_per_year

Mình đang dùng 1 function rất đơn giản ở đây để làm rõ cho bài viết này, hơi phi thực tế, hơi hơi ngớ ngẩn 1 chút vì mình đã import toàn bộ package scipy chỉ để lấy được value của hằng constant, hi vọng là bạn cũng hiểu được ý đồ của mình.  

Cũng như chúng ta đã bàn luận ở trên, chúng ta cần phải cung cấp cho đoạn code này 1 environment. Nó sẽ cần:

    1. 1 version của Python để hoạt động xuyên suốt
    2. Truy cập tới package scipy để nó có thể lấy constant c = tốc độ ánh sáng 

Không quá khó để thiết lập 1 environment Python cho dự án R của bạn. Cho thấy tầm quan trọng của environment dự án trong Python là như thế nào, sự hiện diện của nhiều công cụ quản lý environment, vốn cũng dễ dàng sử dụng. 

Bộ tool yêu thích của mình là Anaconda. Hiện đang có 2 version trên thị trường. Version đầy đủ, chứa cả vũ trụ rộng lớn bao gồm tất cả những gì mà 1 environment có thể cần, bao gồm tất cả những module thường được sử dụng nhất của Python. Và theo sau là Miniconda, vốn dễ dàng hơn trên disk space và thích hợp hơn cho nhiều người dùng Python được giới hạn. Bạn có thể lấy Miniconda cho hệ điều hành của bạn tại đây. Hãy chắc chắn rằng bạn đang tải Conda phù hợp với version Python bạn muốn làm việc cùng.

1 khi bạn đã cài đặt Conda rồi, nếu bạn đang dùng MacOS hay Linux, bạn sẽ thường phải cài đặt các environment của bạn bằng cách dùng dòng lệnh. Chỉ cần định vị nó tới thư mục dự án R (trong trường hợp của mình là test_python) trong phần terminal và dùng lệnh này:

conda create --name test_python

Chỉ đơn giản vậy thôi, bạn đã tạo ra được 1 environment Python. Mình thường đặt tên environment của mình giống như tên thư mục dự án để tránh sự nhầm lẫn trong tương lai.

Bây giờ bạn cần nói với Conda để dùng environment đó cho dự án này, cho nên hãy dùng lệnh này ngay tại dòng lệnh trong thư mục test_python của bạn:

conda activate test_python

Và bây giờ bạn đã liên kết dự án này tới environment Python, và có 1 bản sao của của base Python trong đó để đoạn code của bạn chạy qua.

Cuối cùng, function của chúng ta cần package scipy, nên chúng ta sẽ cần có nó bên trong environment. Điều này cũng dễ như việc chỉ cần gõ cái này vào bên trong thư mục dự án đã kích hoạt của bạn:

conda install scipy

Conda rồi sẽ cài đặt scipy và tất cả phụ thuộc mà nó nghĩ sẽ cần bên trong environment đang hoạt động của bạn và bạn đã sẵn sàng để bắt đầu rồi – dễ như ăn kẹo vậy.

Sau đó bạn sẽ cần nói với R nơi nó có thể tìm Python trong environment này, nên nếu bạn dùng lệnh sau đây, bạn có thể lấy 1 list tất cả các environment và hướng nó tới chỗ environment được cài đặt: 

conda info --envs

Điều này nói cho mình biết rằng, như 1 ví dụ, rằng environment của mình đã được cài đặt tại /Users/topdev/opt/miniconda3/envs/test_pythonMình vẫn luôn có thể tìm các executable Python bên trong thư mục ‘bin’ con – nên hướng đi đầy đủ tới executable Python cho dự án của mình là /Users/topdev/opt/miniconda3/envs/test_python/bin/python3, vì mình đang dùng Python 3. Đây là tất cả những gì chúng ta cần để nói với R nơi nó có thể tìm được environment của Python. 

  Viết chương trình Xoá các File trùng lặp bằng Python

Chạy function Python của bạn trong R


Bây giờ, dù bạn đã thiết lập environment Python như cách mình làm qua Conda, hay là bạn đã dùng virtualenv, bạn đã qua phần khó khăn nhất rồi. Các phần còn lại đơn giản hơn bởi vì đã có reticulate lo liệu.

Đầu tiên, bạn cần phải cho R biết nơi để tìm executable Python trong đúng environment nơi nó load dự án của bạn. Để làm điều này, hãy bắt đầu với 1 file text trống và thêm những điều sau đây, thay thế hướng đi của mình tới bất cứ hướng nào phù hợp với executable Python bên trong environment dự án bạn đã tạo.

Sys.setenv(RETICULATE_PYTHON = "/Users/topdev/opt/miniconda3/envs/test_python/bin/python3")

Bây giờ hãy lưu file text này bên trong thư mục dự án với tên .Renv. Đây là 1 file ẩn mà R sẽ thực thi bất cứ khi nào bạn mở project của bạn trong RStudio. Nên hãy shutdown RStudio và restart nó trong khi vẫn đang mở dự án test_python và nó bây giờ có thể được định vị tới environment của Python.

Nếu bạn vẫn chưa cài đặt package reticulate của R, thì đã đến lúc bạn cần phải làm rồi đó. 1 khi đã cài đặt, bạn có thể thử vài test trong phần terminal để xem nếu mọi thứ đang đi theo đúng hướng hay không. 

Đầu tiên bạn có thể test xem liệu R biết vị trí của Python không. reticulate::py_available() nên trả về “TRUE”. Bạn cũng có thể kiểm tra nếu các module Python bạn cần đã được cài đặt: reiculate::py_module_available(“scipy”) sẽ trả về “TRUE”. Giả sử cả 2 đều hoạt động tốt, bạn đã sẵn sàng để mang function của bạn vào R rồi.

Bạn có thể source đoạn script Python của bạn 1 cách đơn giản:

reticulate::source_python("light_years.py")

Giờ bạn đã có function light_years() sẵn sàng như 1 fucntion R. Hãy xem sẽ mất bao nhiêu năm để du hành 1 triệu tỷ dặm với tốc độ ánh sáng:

> light_years(1000000000000000, "mi")
[1] 170.1074

Thật tuyệt phải không nào! Rõ ràng đây là 1 ví dụ khá đơn giản nhưng nó thực sự cho bạn biết tất cả những thứ bạn cần về cách tích hợp code Python vào script R của bạn. Bạn có thể tưởng tượng cách bạn có thể đem tất cả các loại function hay package vốn chỉ đang dành riêng cho Python và làm cho chúng hoạt động được trong R – khá là thú vị phải không nào.

Gần đây mình cần một thuật toán phát hiện cộng đồng đồ thị mới (graph community detection algorithm) có tên là leidenalg cho sự triển khai vốn chỉ tồn tại trong Python, nhưng tất cả code dự án đang hiện hữu của mình lại đang ở R. Nên mình đã dùng reticuate như cách mình vẫn thường làm để giải quyết vấn đề này.

Để biết thêm về cách sử dụng Anaconda hay Miniconda để thiết lập environment Python, hướng dẫn sử dụng cho người dùng sẽ ở đây. Để tìm hiểu thêm về các loại function có sẵn để dịch từ Python sang R, có 1 họa tiết ‘reticulate khá ổn ở đây. Chào tạm biệt !

TopDev via towardsdatascience

Cơ hội việc làm cntt hấp dẫn tại TopDev đang chờ bạn!