Project

General

Profile

Actions

Feature #345

open

新增 Looker 端的 data, model, explore, view

Added by Mark Chiang 2 days ago. Updated about 12 hours ago.

Status:
In Progress
Priority:
Urgent
Assignee:
Start date:
12/02/2024
Due date:
01/13/2025 (Due in 53 days)
% Done:

30%

Estimated time:
160:00 h
Spent time:

Description

cacafly 給我們的是 PoC
James 團隊說他們這部分不熟, 沒辦法 cover.
Jerry 詢問是否有辦法內部自己 handle


Files

clipboard-202411191541-rz3mb.png (88.7 KB) clipboard-202411191541-rz3mb.png Mark Chiang, 11/19/2024 07:41 AM
Actions #1

Updated by Mark Chiang 2 days ago

  • Description updated (diff)
  • Status changed from New to In Progress
  • % Done changed from 0 to 10
有先跟 Jerry 提
  1. 之前有跟他說過 cacafly 給我們什麼 我們就只有什麼
  2. 有跟他提過 自己做就是10人起跳
  3. 看他能不能找 Thomas 去跟 James 談
Actions #2

Updated by Mark Chiang 2 days ago · Edited

有先看了一下 cacafly 給我們的文件
slide 其中有一部分有教怎麼建 database, model, explore, view
但是這部分沒有 code, code 只有建好之後的 chatbot

但是印象中Luka有提過 他有寫這部分的程式 在增加資料庫的時候 呼叫某個程式 就可以自動create相關的設定.

Actions #3

Updated by Mark Chiang 2 days ago

  • % Done changed from 10 to 20
Actions #4

Updated by Mark Chiang 2 days ago

  • Subject changed from 新增 Looker 端的 data, model, view to 新增 Looker 端的 data, model, explore, view
Actions #5

Updated by Mark Chiang 2 days ago

目前測試出一個內建的方法了

只要先設定好 connection
然後 create 一個新的 project
data, model, explore, view 就會自動幫你建好
而且幫你做好git版控
你在 dev mode 其實就是在一個自己的 branch

Actions #6

Updated by Mark Chiang 2 days ago · Edited

目前 project: data_normalized_poc 裡面有這些
model: data_normalized_poc

explore: biotech_companies_and_taiwan_clinical_trial_scan

view: taiwan_ct_scan_data
view: biotech_companies

我的 project: biodnd_dev 裡面 有自動幫我做出這些
model: biodnd_dev

explore: biotech_companies

view: biotech_companies

explore: taiwan_ct_scan_data

view: taiwan_ct_scan_data

explore: medicines_output_european

view: medicines_output_european

explore: us_drug_clinical_trial_data

view: us_drug_clinical_trial_data

explore: imported_pharmaceuticals

view: imported_pharmaceuticals

Actions #7

Updated by Mark Chiang 2 days ago · Edited

因為 looker 只吃 SQL database
所以無法直接從 elasticsearch 裡面撈資料
市面上有提供連接器 但是$2000/年起跳

預計直接用之前cacafly的方法
csv塞到bigquery上 (這一步驟好像可以在bigquery裡面create table的時候選GCS裡面的csv就可以了)
然後直接從looker去讀

Actions #8

Updated by Mark Chiang 2 days ago

讀了一下 poc server 端的 README.md
看起來是 looker 那裏設定好之後
把設定填到 server 端 .env, looker.ini, 等
然後執行

npm run build
npm run start

運行後會自動產生三個文件分別是 `default-prompt.ini`, `explore-prompt.ini`, `model-prompt.ini` 可以看見所有 Looker Instance 上存在的 Model 與 Explore,請將 Prompt 撰寫於 """ """ 之間

看起來從頭建立資料庫這樣就完成了

Actions #9

Updated by Mark Chiang 2 days ago

  • % Done changed from 20 to 30
Actions #10

Updated by Mark Chiang 2 days ago

但如果是增加資料庫
腦袋中想像應該是 在looker把新的table(explore/view)加進去 確認在looker可以看到之後
到server端
執行

npm run build
npm run start

讓他幫我產生 default-prompt.ini, explore-prompt.ini, model-prompt.ini
把prompt填進 default-prompt.ini, explore-prompt.ini, model-prompt.ini

Actions #11

Updated by Mark Chiang 1 day ago

  • Tracker changed from Support to Feature
Actions #12

Updated by Mark Chiang 1 day ago · Edited

實作
因為BigQuery無法跨國家讀取GCS資料, 我創了一個新的bucket在asia(因為poc server在asia), 把資料batch transfer過來.
因為測試的資料 歐洲和美國的藥物 裡面都有問題(編碼、重複column name、、、), 我選了V2 mapping.

Actions #13

Updated by Mark Chiang about 12 hours ago

有大概演示給 Brian 和 Jerry 看
目前可能會先停在這一下下
Jerry 說 priority 上先做 news 的部分 #335

Actions #14

Updated by Mark Chiang about 12 hours ago

  • Due date changed from 12/31/2024 to 01/13/2025
  • Start date changed from 11/19/2024 to 12/02/2024
Actions

Also available in: Atom PDF